Java 从html中提取所有可见文本

Java 从html中提取所有可见文本,java,html,jsoup,Java,Html,Jsoup,我试图在谷歌浏览器中创建一个搜索功能。给定一个字符串,它将高亮显示包含该字符串的所有区域。我使用java。我 为此,首先我需要提取所有可见文本。我试图分析html页面,以找出如何只提取文本 对于看起来像这样的部分,似乎 为此,我计划使用jsoup。我不知道如何从这样的部分中提取文本。(这是一条youtube评论,带有“阅读更多”链接和“显示更少”链接) 从这一节中,我试图摘录“不会说谎,dat dog是可爱的”和(“Les mer”或“Vis mindre”,取决于哪一个是可见的) 不会撒谎的

我试图在谷歌浏览器中创建一个搜索功能。给定一个字符串,它将高亮显示包含该字符串的所有区域。我使用java。我

为此,首先我需要提取所有可见文本。我试图分析html页面,以找出如何只提取文本

对于看起来像这样的部分,似乎

为此,我计划使用jsoup。我不知道如何从这样的部分中提取文本。(这是一条youtube评论,带有“阅读更多”链接和“显示更少”链接)

从这一节中,我试图摘录“不会说谎,dat dog是可爱的”和(“Les mer”或“Vis mindre”,取决于哪一个是可见的)


不会撒谎的,这条狗很可爱
莱默
维斯明德酒店

我假设给定的html代码已经存在于名为doc的文档中

String text = doc.select("div.comment-renderer-text-content").first().text();
doc.select命令获取包含指定HTML查询的元素。然后我得到第一个并将其转换为文本

更多信息可在此处阅读:

编辑:

您可以使用此代码来获取可见文本,而不是按类:

String text = doc.body().text();

我想提取html文件中的任何可见文本。因此,此解决方案过于具体。@mcNogard是否希望文本“Vis mindre”和“Les mer”是跨度而不是div?在这种情况下,如果它们也可见,我还希望提取“Vis mindre”、“Les mer”。我没有意识到在这个html部分有更多的可见文本。我会编辑我原来的帖子。就这样!非常感谢。
String text = doc.body().text();