Java 这是否可以从HTMLSRC中提取人类可读的内容?
HTML是一种标记语言,混合了很多东西。但我只想从网站中提取人类可读的数据来做一些内容分析。但是我只看到html代码。我可以一个接一个地提取所有HTML标记以提取文本和图像。(至少,我可以grep大部分数据,但不能grep javascript插入的数据)我可以用一种更有效的方法来代替这一操作吗?谢谢Java 这是否可以从HTMLSRC中提取人类可读的内容?,java,html,Java,Html,HTML是一种标记语言,混合了很多东西。但我只想从网站中提取人类可读的数据来做一些内容分析。但是我只看到html代码。我可以一个接一个地提取所有HTML标记以提取文本和图像。(至少,我可以grep大部分数据,但不能grep javascript插入的数据)我可以用一种更有效的方法来代替这一操作吗?谢谢 ***使用java作为编程语言您可以尝试使用终端模式浏览器(如lynx)将网站呈现为纯文本,然后对其输出进行内容分析。您可以尝试使用终端模式浏览器(如lynx)将网站呈现为纯文本,然后对输出进行内
***使用java作为编程语言您可以尝试使用终端模式浏览器(如lynx)将网站呈现为纯文本,然后对其输出进行内容分析。您可以尝试使用终端模式浏览器(如lynx)将网站呈现为纯文本,然后对输出进行内容分析那就是。根据HTML的复杂程度和良好结构,您可以创建一些XSLT来将HTML转换为更可读的内容。根据HTML的复杂程度和良好结构,您可以创建一些XSLT来将HTML转换为更可读的内容。我最喜欢的事情用于一般网站抓取是一个有用的扩展。这里是其文档的链接。第2.1节是解析HTML代码
我最喜欢用于一般网站抓取的是BeutifulSoup扩展。这里是其文档的链接。第2.1节是解析HTML代码 什么(编程)语言?大多数语言都有一些用于剥离HTML标记的包。什么(编程)语言?大多数语言都有一些用于剥离HTML标记的包。