Google app engine 在google app engine上为所选站点运行网络爬虫?

Google app engine 在google app engine上为所选站点运行网络爬虫?,google-app-engine,web-crawler,nutch,Google App Engine,Web Crawler,Nutch,我需要写一个爬虫提取一些信息从几个预先筛选的网站只 我知道这是一项直截了当的工作,但我正在考虑使用谷歌应用程序引擎来完成这项工作 也许我可以试试Nutch帮我做这个 这样做有多可行 1) 在谷歌基础设施上托管爬虫程序 2) Nutch+应用程序引擎-可能吗?只要浏览一下,我就会看到这样的评论:“这是完全基于底层Hadoop平台的Nutch的第二个版本” 这让我怀疑这不会继续下去。应用程序引擎应用程序在应用程序或沙盒中运行 这就是说,你应该能够把一个基本的爬虫程序放在应用Egnine上。I基本的实

我需要写一个爬虫提取一些信息从几个预先筛选的网站只

我知道这是一项直截了当的工作,但我正在考虑使用谷歌应用程序引擎来完成这项工作

也许我可以试试Nutch帮我做这个

这样做有多可行

1) 在谷歌基础设施上托管爬虫程序 2) Nutch+应用程序引擎-可能吗?

只要浏览一下,我就会看到这样的评论:“这是完全基于底层Hadoop平台的Nutch的第二个版本” 这让我怀疑这不会继续下去。应用程序引擎应用程序在应用程序或沙盒中运行


这就是说,你应该能够把一个基本的爬虫程序放在应用Egnine上。I基本的实现可能涉及启动用于抓取页面的应用程序,然后(可选地)插入额外的任务来处理文档链接所指向的链接。您可以使用以下命令启动爬网

他基本上会从头开始写一个爬虫,不是吗?@simpatico是的,或多或少。