Python 爬网延迟加载网页,但服务器响应状态为504
我使用python和selenium对quora进行爬网,这是一种延迟加载(我认为有点像AJAX)。因此,我反复使用selenium将订单“window.scrollBy(01500);”发送到浏览器,浏览器将其发送到服务器。 但是,在此过程中,一旦服务器返回:“加载资源失败:服务器响应状态为504(网关超时)”,页面将继续加载,没有任何新内容。我的代码没有崩溃,我检查了浏览器的控制台以找出这个错误。我的代码如下所示:Python 爬网延迟加载网页,但服务器响应状态为504,python,selenium,web-crawler,lazy-loading,Python,Selenium,Web Crawler,Lazy Loading,我使用python和selenium对quora进行爬网,这是一种延迟加载(我认为有点像AJAX)。因此,我反复使用selenium将订单“window.scrollBy(01500);”发送到浏览器,浏览器将其发送到服务器。 但是,在此过程中,一旦服务器返回:“加载资源失败:服务器响应状态为504(网关超时)”,页面将继续加载,没有任何新内容。我的代码没有崩溃,我检查了浏览器的控制台以找出这个错误。我的代码如下所示: browser = webdriver.Chrome() browser.g
browser = webdriver.Chrome()
browser.get(new_url)
try:
for i in range(300):
time.sleep(6)
print i
browser.execute_script("window.scrollBy(0,1500);")
except NoSuchElementException:
pass
appendResults(existingList, browser, File)
browser.quit()
那么,即使有一个查询被拒绝,我怎么能一直向下滚动页面呢?或者,除了selenium之外,还有其他工具/库/方法可以通过延迟加载来抓取页面吗?事先非常感谢。这是服务器的一个真正问题,然后可能尝试
self.driver.execute\u脚本(“window.scrollTo(0,document.body.scrollHeight)
看看它是否有区别?@boardrider,谢谢你的建议,但没有明显的改进。