Web scraping 可用的最佳可见内容提取器_Web Scraping_Web Crawler_Screen Scraping_Html Content Extraction

Web scraping 可用的最佳可见内容提取器

web-scraping web-crawler

Web scraping 可用的最佳可见内容提取器,web-scraping,web-crawler,screen-scraping,html-content-extraction,Web Scraping,Web Crawler,Screen Scraping,Html Content Extraction,因此，我的应用程序需要来自给定URL的可见内容，比如文本部分，没有html，没有页眉或页脚数据。到目前为止，我正在使用和来获得相同的结果。但在一些罕见的情况下，我没有得到足够的数据或正确的数据。所以我想知道是否还有其他竞争对手，编程语言不是障碍。我建议直接使用xpath或css提取器进行内容提取，这两个选择器都已经在模块上实现了对于一套完整的web爬行+内容提取器，这将是我的首选如果您希望提取以直观地选择要提取的html的哪些部分，我建议您希望有帮助。非常感谢您的回答。是的，所有这些都很好

因此，我的应用程序需要来自给定URL的可见内容，比如文本部分，没有html，没有页眉或页脚数据。到目前为止，我正在使用和来获得相同的结果。但在一些罕见的情况下，我没有得到足够的数据或正确的数据。所以我想知道是否还有其他竞争对手，编程语言不是障碍。

我建议直接使用

xpath

或

css

提取器进行内容提取，这两个选择器都已经在模块上实现了

对于一套完整的web爬行+内容提取器，这将是我的首选

如果您希望提取以直观地选择要提取的html的哪些部分，我建议您

希望有帮助。

非常感谢您的回答。是的，所有这些都很好，但我们不是爬虫。只需要从页面中提取可见的内容，如boilerpipe或beautifulsoup。。