查找Python网页爬虫完整解决方案_Python_Amazon Web Services_Scrapy_Web Crawler

查找Python网页爬虫完整解决方案

python amazon-web-services scrapy web-crawler

查找Python网页爬虫完整解决方案,python,amazon-web-services,scrapy,web-crawler,Python,Amazon Web Services,Scrapy,Web Crawler,首先，非常感谢。我真的很感激这一切所以我需要不断地（大约每小时）抓取少量的URL并获取特定的数据一个PHP站点将被爬网数据更新，我不能改变这一点我读过这个解决方案：它似乎很好，如果你想扩大规模，它有使用云服务的好处我也知道刮痧的存在现在，我想知道是否有一个更完整的解决方案来解决这个问题，而不需要我设置所有这些东西。在我看来，这不是一个我试图解决的问题，我想节省时间，并有一些更完整的解决方案或说明。我会联系这个帖子中的人以获得更具体的帮助，但我不能。（）目前在我的个人电脑上运行Win

首先，非常感谢。我真的很感激这一切

所以我需要不断地（大约每小时）抓取少量的URL并获取特定的数据

一个PHP站点将被爬网数据更新，我不能改变这一点

我读过这个解决方案：它似乎很好，如果你想扩大规模，它有使用云服务的好处

我也知道刮痧的存在

现在，我想知道是否有一个更完整的解决方案来解决这个问题，而不需要我设置所有这些东西。在我看来，这不是一个我试图解决的问题，我想节省时间，并有一些更完整的解决方案或说明。我会联系这个帖子中的人以获得更具体的帮助，但我不能。（）

目前在我的个人电脑上运行Windows，试图搞乱Scrapy并不是一件容易的事情，因为它有安装问题等等

你认为没有办法避免这项具体工作吗？

如果没有，我怎么知道我应该使用Python/Scrapy还是Ruby On Rails呢？

如果您试图获取的数据结构合理，您可以使用第三方服务，如Kimono或import.io

我发现用Python建立一个基本的爬虫程序非常容易。在看了很多之后，包括Scrapy（由于梦魇依赖性，它也不能很好地与我的windows机器配合使用），我决定使用PhantomJS驱动的Selenium python包进行无头浏览

定义爬行函数可能只需要几行代码。这有点初级，但是如果你想把它作为一个简单的python脚本来完成，你甚至可以做类似的事情，让它在某些条件为真时运行，或者直到你杀死这个脚本为止

from selenium import webdriver
import time
crawler = webdriver.PhantomJS()
crawler.set_window_size(1024,768)
def crawl():
    crawler.get('http://www.url.com/')
    # Find your elements, get the contents, parse them using Selenium or BeautifulSoup
while True:
    crawl()
    time.sleep(3600)

非常感谢！嗯，你看，至少就这个解决方案而言，覆盖大量URL的速度相当慢（虽然可能足够快，但还没有检查），我遇到了一个名为import.io的服务，我现在正在研究它。我会发布我的结论，再次感谢