Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/364.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/amazon-web-services/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
查找Python网页爬虫完整解决方案_Python_Amazon Web Services_Scrapy_Web Crawler - Fatal编程技术网

查找Python网页爬虫完整解决方案

查找Python网页爬虫完整解决方案,python,amazon-web-services,scrapy,web-crawler,Python,Amazon Web Services,Scrapy,Web Crawler,首先,非常感谢。我真的很感激这一切 所以我需要不断地(大约每小时)抓取少量的URL并获取特定的数据 一个PHP站点将被爬网数据更新,我不能改变这一点 我读过这个解决方案:它似乎很好,如果你想扩大规模,它有使用云服务的好处 我也知道刮痧的存在 现在,我想知道是否有一个更完整的解决方案来解决这个问题,而不需要我设置所有这些东西。在我看来,这不是一个我试图解决的问题,我想节省时间,并有一些更完整的解决方案或说明。 我会联系这个帖子中的人以获得更具体的帮助,但我不能。() 目前在我的个人电脑上运行Win

首先,非常感谢。我真的很感激这一切

  • 所以我需要不断地(大约每小时)抓取少量的URL并获取特定的数据

  • 一个PHP站点将被爬网数据更新,我不能改变这一点

  • 我读过这个解决方案:它似乎很好,如果你想扩大规模,它有使用云服务的好处

    我也知道刮痧的存在

    现在,我想知道是否有一个更完整的解决方案来解决这个问题,而不需要我设置所有这些东西。在我看来,这不是一个我试图解决的问题,我想节省时间,并有一些更完整的解决方案或说明。 我会联系这个帖子中的人以获得更具体的帮助,但我不能。()

    目前在我的个人电脑上运行Windows,试图搞乱Scrapy并不是一件容易的事情,因为它有安装问题等等

    你认为没有办法避免这项具体工作吗?
    如果没有,我怎么知道我应该使用Python/Scrapy还是Ruby On Rails呢?

    如果您试图获取的数据结构合理,您可以使用第三方服务,如Kimono或import.io

    我发现用Python建立一个基本的爬虫程序非常容易。在看了很多之后,包括Scrapy(由于梦魇依赖性,它也不能很好地与我的windows机器配合使用),我决定使用PhantomJS驱动的Selenium python包进行无头浏览

    定义爬行函数可能只需要几行代码。这有点初级,但是如果你想把它作为一个简单的python脚本来完成,你甚至可以做类似的事情,让它在某些条件为真时运行,或者直到你杀死这个脚本为止

    from selenium import webdriver
    import time
    crawler = webdriver.PhantomJS()
    crawler.set_window_size(1024,768)
    def crawl():
        crawler.get('http://www.url.com/')
        # Find your elements, get the contents, parse them using Selenium or BeautifulSoup
    while True:
        crawl()
        time.sleep(3600)
    

    非常感谢!嗯,你看,至少就这个解决方案而言,覆盖大量URL的速度相当慢(虽然可能足够快,但还没有检查),我遇到了一个名为import.io的服务,我现在正在研究它。我会发布我的结论,再次感谢