Java HTML解析(存储为字符串)

Java HTML解析(存储为字符串),java,html,parsing,jsoup,Java,Html,Parsing,Jsoup,我正在分析一个网页,但我遇到了一些问题,该网页包含很多这样的元素: <div class="tweet"> <a href="https://twitter.com/Sweden" target="_blank" class="tweet__link">@sweden</a> <span class="tweet__timestamp"><a href="https://twitter.com/sweden/s

我正在分析一个网页,但我遇到了一些问题,该网页包含很多这样的元素:

<div class="tweet">
        <a href="https://twitter.com/Sweden" target="_blank" class="tweet__link">@sweden</a>
        <span class="tweet__timestamp"><a href="https://twitter.com/sweden/status/694285861026926594" target="_blank" class="tweet__permalink">Feb. 1, 2016, 11:27 p.m.</a></span>
        <p class="tweet__content"><a href='http://twitter.com/UnbatedFlunky' target='_blank'>@UnbatedFlunky</a> Good to know. :)</p>
    </div>

    <div class="tweet">
        <a href="https://twitter.com/Sweden" target="_blank" class="tweet__link">@sweden</a>
        <span class="tweet__timestamp"><a href="https://twitter.com/sweden/status/694285696140513280" target="_blank" class="tweet__permalink">Feb. 1, 2016, 11:26 p.m.</a></span>
        <p class="tweet__content">RT <a href='http://twitter.com/UnbatedFlunky' target='_blank'>@UnbatedFlunky</a>: .<a href='http://twitter.com/sweden' target='_blank'>@sweden</a> exactly the kind of content I'd want representing my country. 10/10</p>
    </div>

但我用这种方式将所有内容存储在一个字符串中,但我的问题是如何将它们分开,例如,让我们说字符串数组:/也许这是一个愚蠢的问题,但我无法让它工作://

doc.getElementsByClass(“tweet”)
返回一个数组,您应该在该数组上迭代并为每个
tweet
元素创建一个数组条目。比如说

List<String> stringList = new ArrayList<>();
List<Element> tweets = doc.getElementsByClass("tweet");
for(Element tweet : tweets){
    stringList.add(tweet.text()); 
}
List-stringList=new-ArrayList();
List tweets=doc.getElementsByClass(“tweet”);
对于(元素tweet:tweets){
添加(tweet.text());
}

文本将在
stringList
列表中。

doc.getElementsByClass(“tweet”)
返回一个数组,您应该在该数组上迭代并为每个
tweet
元素创建一个数组条目。比如说

List<String> stringList = new ArrayList<>();
List<Element> tweets = doc.getElementsByClass("tweet");
for(Element tweet : tweets){
    stringList.add(tweet.text()); 
}
List-stringList=new-ArrayList();
List tweets=doc.getElementsByClass(“tweet”);
对于(元素tweet:tweets){
添加(tweet.text());
}

文本将出现在
stringList
列表中。

您是否考虑过先创建一个模型,然后尝试序列化它?您所说的模型是什么意思?:它是一个反映HTML(DOM)结构的实体(在OOP中)。您应该仔细阅读序列化和反序列化。ApacheXerces将是一个易于实现的将HTML反序列化为类的框架:您是否考虑过先创建一个模型,然后尝试将其序列化?您所说的模型是什么意思?:它是一个反映HTML(DOM)结构的实体(在OOP中)。您应该仔细阅读序列化和反序列化。Apache Xerces将是一个易于实现的框架,用于将HTML反序列化为类: