Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/firebase/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Web scraping 可用的最佳可见内容提取器_Web Scraping_Web Crawler_Screen Scraping_Html Content Extraction - Fatal编程技术网

Web scraping 可用的最佳可见内容提取器

Web scraping 可用的最佳可见内容提取器,web-scraping,web-crawler,screen-scraping,html-content-extraction,Web Scraping,Web Crawler,Screen Scraping,Html Content Extraction,因此,我的应用程序需要来自给定URL的可见内容,比如文本部分,没有html,没有页眉或页脚数据。到目前为止,我正在使用和来获得相同的结果。但在一些罕见的情况下,我没有得到足够的数据或正确的数据。所以我想知道是否还有其他竞争对手,编程语言不是障碍。我建议直接使用xpath或css提取器进行内容提取,这两个选择器都已经在模块上实现了 对于一套完整的web爬行+内容提取器,这将是我的首选 如果您希望提取以直观地选择要提取的html的哪些部分,我建议您 希望有帮助。非常感谢您的回答。是的,所有这些都很好

因此,我的应用程序需要来自给定URL的可见内容,比如文本部分,没有html,没有页眉或页脚数据。到目前为止,我正在使用和来获得相同的结果。但在一些罕见的情况下,我没有得到足够的数据或正确的数据。所以我想知道是否还有其他竞争对手,编程语言不是障碍。

我建议直接使用
xpath
css
提取器进行内容提取,这两个选择器都已经在模块上实现了

对于一套完整的web爬行+内容提取器,这将是我的首选

如果您希望提取以直观地选择要提取的html的哪些部分,我建议您


希望有帮助。

非常感谢您的回答。是的,所有这些都很好,但我们不是爬虫。只需要从页面中提取可见的内容,如boilerpipe或beautifulsoup。。