Python 使用预加载程序抓取网站时出现问题

Python 使用预加载程序抓取网站时出现问题,python,web,beautifulsoup,scrapy,screen-scraping,Python,Web,Beautifulsoup,Scrapy,Screen Scraping,我正在努力清理这个网站 我正在使用scrapy来做这件事,但我所做的任何尝试都只会抓住预加载页面。我只是使用了错误的工具吗?无论您最终使用什么工具,它都必须监视DOM的更改,并且只有在DOM稳定时(内容在任意时间内不再更改)才开始实际的抓取 其中一个工具是开源浏览器扩展。它基于CSS选择器进行刮取,并具有“稳定性超时”选项 来自docs:Stability Timeout——当在指定的时间量(毫秒)内没有更多DOM更改时,考虑已加载并准备好刮取的页面。仅适用于html资源。用于绕过预加载程序内

我正在努力清理这个网站


我正在使用scrapy来做这件事,但我所做的任何尝试都只会抓住预加载页面。我只是使用了错误的工具吗?

无论您最终使用什么工具,它都必须监视DOM的更改,并且只有在DOM稳定时(内容在任意时间内不再更改)才开始实际的抓取

其中一个工具是开源浏览器扩展。它基于CSS选择器进行刮取,并具有“稳定性超时”选项

来自docs:Stability Timeout——当在指定的时间量(毫秒)内没有更多DOM更改时,考虑已加载并准备好刮取的页面。仅适用于html资源。用于绕过预加载程序内容


免责声明:我是扩展的作者。

这就是为什么他们有预加载页面;)库(如scrapy)通常不执行任何javascript,因此不会加载任何内容,这意味着您只需获取预加载页面的原始html。根据Luke的说法,您需要使用splash scrapy或selenium scrapy来执行此操作。感谢您的回复,我对此表示感谢。