Python 使用预加载程序抓取网站时出现问题_Python_Web_Beautifulsoup_Scrapy_Screen Scraping

Python 使用预加载程序抓取网站时出现问题

python web scrapy

Python 使用预加载程序抓取网站时出现问题,python,web,beautifulsoup,scrapy,screen-scraping,Python,Web,Beautifulsoup,Scrapy,Screen Scraping,我正在努力清理这个网站我正在使用scrapy来做这件事，但我所做的任何尝试都只会抓住预加载页面。我只是使用了错误的工具吗？无论您最终使用什么工具，它都必须监视DOM的更改，并且只有在DOM稳定时（内容在任意时间内不再更改）才开始实际的抓取其中一个工具是开源浏览器扩展。它基于CSS选择器进行刮取，并具有“稳定性超时”选项来自docs:Stability Timeout——当在指定的时间量（毫秒）内没有更多DOM更改时，考虑已加载并准备好刮取的页面。仅适用于html资源。用于绕过预加载程序内

我正在努力清理这个网站

我正在使用scrapy来做这件事，但我所做的任何尝试都只会抓住预加载页面。我只是使用了错误的工具吗？

无论您最终使用什么工具，它都必须监视DOM的更改，并且只有在DOM稳定时（内容在任意时间内不再更改）才开始实际的抓取

其中一个工具是开源浏览器扩展。它基于CSS选择器进行刮取，并具有“稳定性超时”选项

来自docs:Stability Timeout——当在指定的时间量（毫秒）内没有更多DOM更改时，考虑已加载并准备好刮取的页面。仅适用于html资源。用于绕过预加载程序内容

免责声明：我是扩展的作者。

这就是为什么他们有预加载页面；）库（如scrapy）通常不执行任何javascript，因此不会加载任何内容，这意味着您只需获取预加载页面的原始html。根据Luke的说法，您需要使用splash scrapy或selenium scrapy来执行此操作。感谢您的回复，我对此表示感谢。