Parsing 从网页中提取数据

Parsing 从网页中提取数据,parsing,html-parsing,html-content-extraction,text-extraction,Parsing,Html Parsing,Html Content Extraction,Text Extraction,我正在做一个学校项目,需要从网页中提取数据。确切地说,我需要一个库或开源程序来从html/文本数据中提取人类可读的内容。类似于web浏览器呈现的文本内容 我知道用正则表达式解析html是从中提取文本的最差方法 额外信息: 我需要它来计算文本文档之间的相似性 任何帮助都将不胜感激。 谢谢如果您关心的只是文本的相似性,那么您可以编写一个正则表达式,去掉表单]*>中的所有HTML标记(可能首先删除所有*标记),然后将所有内容合并到一个很长的段落中。这对正则表达式的使用一点也不坏;这就是他们在那里的目的

我正在做一个学校项目,需要从网页中提取数据。确切地说,我需要一个库或开源程序来从html/文本数据中提取人类可读的内容。类似于web浏览器呈现的文本内容

我知道用正则表达式解析html是从中提取文本的最差方法

额外信息:

我需要它来计算文本文档之间的相似性

任何帮助都将不胜感激。
谢谢

如果您关心的只是文本的相似性,那么您可以编写一个正则表达式,去掉表单
]*>
中的所有HTML标记(可能首先删除所有
*
标记),然后将所有内容合并到一个很长的段落中。这对正则表达式的使用一点也不坏;这就是他们在那里的目的

我可能会推荐,但界面可能会很尴尬。此外,您不需要访问层次结构,只需要访问文本。否则,解析器将比正则表达式更好(否则这将是一个糟糕的主意)。

我强烈建议您不要使用正则表达式解析HTML。这个答案比我更能说明为什么你不应该这样做,所以我同意这个观点


您还将发现,您应该研究XML解析器,而不是试图通过正则表达式(您将在参考问题及其答案中阅读)进行“手工解析”。

我将为数千个文档执行此过程。我的疑问是,如果我使用正则表达式解析数据,可能会出现JavaScript函数。还有一件事是,我将丢失动态内容或javascript呈现的数据。感谢您的回答:)我将为数千个文档执行此过程。我的疑问是,如果我使用正则表达式解析数据,可能会出现JavaScript函数。还有一件事是,我将丢失动态内容或javascript呈现的数据。感谢您的回答:)我相信我给您提供的示例算法可能不会导致javascript函数出现,只要您不解析整个万维网。此外,无论您使用什么程序,您都将丢失javascript呈现的内容,除非您是通过web浏览器执行此操作。