Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/delphi/9.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 这是否可以从HTMLSRC中提取人类可读的内容?_Java_Html - Fatal编程技术网

Java 这是否可以从HTMLSRC中提取人类可读的内容?

Java 这是否可以从HTMLSRC中提取人类可读的内容?,java,html,Java,Html,HTML是一种标记语言,混合了很多东西。但我只想从网站中提取人类可读的数据来做一些内容分析。但是我只看到html代码。我可以一个接一个地提取所有HTML标记以提取文本和图像。(至少,我可以grep大部分数据,但不能grep javascript插入的数据)我可以用一种更有效的方法来代替这一操作吗?谢谢 ***使用java作为编程语言您可以尝试使用终端模式浏览器(如lynx)将网站呈现为纯文本,然后对其输出进行内容分析。您可以尝试使用终端模式浏览器(如lynx)将网站呈现为纯文本,然后对输出进行内

HTML是一种标记语言,混合了很多东西。但我只想从网站中提取人类可读的数据来做一些内容分析。但是我只看到html代码。我可以一个接一个地提取所有HTML标记以提取文本和图像。(至少,我可以grep大部分数据,但不能grep javascript插入的数据)我可以用一种更有效的方法来代替这一操作吗?谢谢


***使用java作为编程语言

您可以尝试使用终端模式浏览器(如lynx)将网站呈现为纯文本,然后对其输出进行内容分析。

您可以尝试使用终端模式浏览器(如lynx)将网站呈现为纯文本,然后对输出进行内容分析那就是。

根据HTML的复杂程度和良好结构,您可以创建一些XSLT来将HTML转换为更可读的内容。

根据HTML的复杂程度和良好结构,您可以创建一些XSLT来将HTML转换为更可读的内容。

我最喜欢的事情用于一般网站抓取是一个有用的扩展。这里是其文档的链接。第2.1节是解析HTML代码


我最喜欢用于一般网站抓取的是BeutifulSoup扩展。这里是其文档的链接。第2.1节是解析HTML代码

什么(编程)语言?大多数语言都有一些用于剥离HTML标记的包。什么(编程)语言?大多数语言都有一些用于剥离HTML标记的包。