Java 这是否可以从HTMLSRC中提取人类可读的内容？_Java_Html

Java 这是否可以从HTMLSRC中提取人类可读的内容？

java html

Java 这是否可以从HTMLSRC中提取人类可读的内容？,java,html,Java,Html,HTML是一种标记语言，混合了很多东西。但我只想从网站中提取人类可读的数据来做一些内容分析。但是我只看到html代码。我可以一个接一个地提取所有HTML标记以提取文本和图像。（至少，我可以grep大部分数据，但不能grep javascript插入的数据）我可以用一种更有效的方法来代替这一操作吗？谢谢 ***使用java作为编程语言您可以尝试使用终端模式浏览器（如lynx）将网站呈现为纯文本，然后对其输出进行内容分析。您可以尝试使用终端模式浏览器（如lynx）将网站呈现为纯文本，然后对输出进行内

HTML是一种标记语言，混合了很多东西。但我只想从网站中提取人类可读的数据来做一些内容分析。但是我只看到html代码。我可以一个接一个地提取所有HTML标记以提取文本和图像。（至少，我可以grep大部分数据，但不能grep javascript插入的数据）我可以用一种更有效的方法来代替这一操作吗？谢谢

***使用java作为编程语言

您可以尝试使用终端模式浏览器（如lynx）将网站呈现为纯文本，然后对其输出进行内容分析。

您可以尝试使用终端模式浏览器（如lynx）将网站呈现为纯文本，然后对输出进行内容分析那就是。

根据HTML的复杂程度和良好结构，您可以创建一些XSLT来将HTML转换为更可读的内容。

我最喜欢的事情用于一般网站抓取是一个有用的扩展。这里是其文档的链接。第2.1节是解析HTML代码

我最喜欢用于一般网站抓取的是BeutifulSoup扩展。这里是其文档的链接。第2.1节是解析HTML代码

什么（编程）语言？大多数语言都有一些用于剥离HTML标记的包。什么（编程）语言？大多数语言都有一些用于剥离HTML标记的包。