Php 从web文章中提取内容并以良好的方式显示它们

Php 从web文章中提取内容并以良好的方式显示它们,php,url,rss,xml-parsing,web-crawler,Php,Url,Rss,Xml Parsing,Web Crawler,我试图使一些东西,允许人们把一个url从一篇文章,例如边缘。它所做的是读取url/文章,并以一种良好的方式显示它,比如可读性。但是我真的被卡住了,我在任何地方都找不到关于如何做的信息。有没有关于如何做到这一点的api。实际上,它不是扫描整个rss提要,而是只扫描一篇文章。应该是最简单的方法: 您可以简单地使用css/jquery等元素作为目标,也可以使用正则表达式快速地完成这项工作,或者导入DOM。请注意,无论您使用正则表达式还是正确解析DOM,适用于一个网站的解决方案不太可能适用于另一个网站而

我试图使一些东西,允许人们把一个url从一篇文章,例如边缘。它所做的是读取url/文章,并以一种良好的方式显示它,比如可读性。但是我真的被卡住了,我在任何地方都找不到关于如何做的信息。有没有关于如何做到这一点的api。实际上,它不是扫描整个rss提要,而是只扫描一篇文章。

应该是最简单的方法:


您可以简单地使用css/jquery等元素作为目标,也可以使用正则表达式快速地完成这项工作,或者导入DOM。请注意,无论您使用正则表达式还是正确解析DOM,适用于一个网站的解决方案不太可能适用于另一个网站而不做任何更改。

您正在寻找的。它应该完全符合你的要求。甚至还有一个web API。您还可以下载模块并从Python脚本中使用它


您可以在此处选择一篇文章进行测试:。只需选择ArticleExtractor作为提取器。

欢迎使用堆栈溢出。我并不是说可以用正则表达式解析HTML,因为我知道这是错误的。我只是说,你可以使用正则表达式提取出始终由相同HTML包围的文本片段