查找Python网页爬虫完整解决方案
首先,非常感谢。我真的很感激这一切查找Python网页爬虫完整解决方案,python,amazon-web-services,scrapy,web-crawler,Python,Amazon Web Services,Scrapy,Web Crawler,首先,非常感谢。我真的很感激这一切 所以我需要不断地(大约每小时)抓取少量的URL并获取特定的数据 一个PHP站点将被爬网数据更新,我不能改变这一点 我读过这个解决方案:它似乎很好,如果你想扩大规模,它有使用云服务的好处 我也知道刮痧的存在 现在,我想知道是否有一个更完整的解决方案来解决这个问题,而不需要我设置所有这些东西。在我看来,这不是一个我试图解决的问题,我想节省时间,并有一些更完整的解决方案或说明。 我会联系这个帖子中的人以获得更具体的帮助,但我不能。() 目前在我的个人电脑上运行Win
如果没有,我怎么知道我应该使用Python/Scrapy还是Ruby On Rails呢?如果您试图获取的数据结构合理,您可以使用第三方服务,如Kimono或import.io 我发现用Python建立一个基本的爬虫程序非常容易。在看了很多之后,包括Scrapy(由于梦魇依赖性,它也不能很好地与我的windows机器配合使用),我决定使用PhantomJS驱动的Selenium python包进行无头浏览 定义爬行函数可能只需要几行代码。这有点初级,但是如果你想把它作为一个简单的python脚本来完成,你甚至可以做类似的事情,让它在某些条件为真时运行,或者直到你杀死这个脚本为止
from selenium import webdriver
import time
crawler = webdriver.PhantomJS()
crawler.set_window_size(1024,768)
def crawl():
crawler.get('http://www.url.com/')
# Find your elements, get the contents, parse them using Selenium or BeautifulSoup
while True:
crawl()
time.sleep(3600)
非常感谢!嗯,你看,至少就这个解决方案而言,覆盖大量URL的速度相当慢(虽然可能足够快,但还没有检查),我遇到了一个名为import.io的服务,我现在正在研究它。我会发布我的结论,再次感谢