Web scraping 可用的最佳可见内容提取器
因此,我的应用程序需要来自给定URL的可见内容,比如文本部分,没有html,没有页眉或页脚数据。到目前为止,我正在使用和来获得相同的结果。但在一些罕见的情况下,我没有得到足够的数据或正确的数据。所以我想知道是否还有其他竞争对手,编程语言不是障碍。我建议直接使用Web scraping 可用的最佳可见内容提取器,web-scraping,web-crawler,screen-scraping,html-content-extraction,Web Scraping,Web Crawler,Screen Scraping,Html Content Extraction,因此,我的应用程序需要来自给定URL的可见内容,比如文本部分,没有html,没有页眉或页脚数据。到目前为止,我正在使用和来获得相同的结果。但在一些罕见的情况下,我没有得到足够的数据或正确的数据。所以我想知道是否还有其他竞争对手,编程语言不是障碍。我建议直接使用xpath或css提取器进行内容提取,这两个选择器都已经在模块上实现了 对于一套完整的web爬行+内容提取器,这将是我的首选 如果您希望提取以直观地选择要提取的html的哪些部分,我建议您 希望有帮助。非常感谢您的回答。是的,所有这些都很好
xpath
或css
提取器进行内容提取,这两个选择器都已经在模块上实现了
对于一套完整的web爬行+内容提取器,这将是我的首选
如果您希望提取以直观地选择要提取的html的哪些部分,我建议您
希望有帮助。非常感谢您的回答。是的,所有这些都很好,但我们不是爬虫。只需要从页面中提取可见的内容,如boilerpipe或beautifulsoup。。