Web scraping Import.io-它能取代和服实验室吗

Web scraping Import.io-它能取代和服实验室吗,web-scraping,import.io,Web Scraping,Import.io,我现在使用和服实验室从具有相同目标的网站上抓取数据。为了简单起见,让我们假设这些网站是在线销售东西的在线商店(实际上它们是具有在线申请可能性的求职网站,但从技术上讲,它看起来很像一家网店) 这很有效。对于每个网站,都会创建一个scraperapi,通过可用的高级搜索页面对所有产品url进行爬网。让我们把这个API称为“URL列表”。然后,为产品详细信息页面创建一个“产品API”,该页面将删除所有必要的元素。例如,标题、产品文本和规格,如品牌、类别等。产品API设置为每天使用“URL列表”中收集的

我现在使用和服实验室从具有相同目标的网站上抓取数据。为了简单起见,让我们假设这些网站是在线销售东西的在线商店(实际上它们是具有在线申请可能性的求职网站,但从技术上讲,它看起来很像一家网店)

这很有效。对于每个网站,都会创建一个scraperapi,通过可用的高级搜索页面对所有产品url进行爬网。让我们把这个API称为“URL列表”。然后,为产品详细信息页面创建一个“产品API”,该页面将删除所有必要的元素。例如,标题、产品文本和规格,如品牌、类别等。产品API设置为每天使用“URL列表”中收集的所有URL进行爬网

然后使用我们自己的服务,使用Kimonolabs JSON端点获取所有产品的收集信息

然而,和服实验室将于2016年2月底退出服务:-(。因此,我正在寻找一个简单的替代方案。我一直在寻找import.io,但我想知道:

  • 它是否支持自动更新(让API每小时/每天刮一次等)
  • 它是否支持从分页的高级搜索页面获取所有产品URL
我正在修补这项服务。基本上,它似乎通过与和服实验室相同的简单过程提取数据。只是,我不清楚是否支持为产品API对URL进行分页并自动保持其最新


如果import.io是一个有用的替代方案,这里的任何import.io用户都可以给出建议?甚至可以给出一些正确方向的指针?

我不太喜欢import.io,但在我看来它允许通过批量输入URL进行分页。请阅读

到目前为止,通过API获取整个网站的进展不大:

链接多个API/数据集目前不可能使用链API完全自动提取整个网站。 例如,如果我想要在类别页面或分页列表中找到的数据。我首先必须创建URL列表,运行批量提取,将结果保存为导入数据集,然后将其链接到另一个提取程序。设置一次后,我希望能够在一次单击中自动完成此操作

另外,如果你对JS有些熟悉,你可能会发现它很有用。

看看吧。它是一种像和服一样工作的视觉抓取工具

Portia也可以作为服务提供,它满足您对import.io的要求:

  • 自动更新,通过安排定期作业来抓取所需页面,使数据保持最新
  • 根据您可以定义的URL模式,通过分页链接进行导航

全面披露:我在Portia的首席维护者Scrapinghub工作。

关于自动更新: 现在这是一个问题。从和服实验室迁移后,我正在为自己进行测试…您可以通过将
&bulkSchedule=1
附加到API URL来为自己的API启用此功能。然后您将看到一个“计划”选项卡。在“配置”选项卡中选择“批量提取”并在此之后添加您的URL。计划程序将每天或每周运行。

也许您想尝试一下。这是一个免费的web抓取工具,允许您创建提取任何信息并以JSON格式返回的端点。它可以轻松处理分页搜索

如果你懂一点JS,你可以编写CasperJS端点,并集成提取数据所需的任何逻辑。它与和服实验室的目标类似,可以解决相同的问题(如果不是更多的话,因为它是可编程的)

如果不能解决您的需求,您可以查看这些其他市场参与者,他们的目标类似:

  • Import.io(正如您已经提到的)
  • 莫森达
  • 云刮
  • TroClickAPI
  • 五个过滤器

免责声明:我是Extracy公司的联合创始人。

问题是,我只精通HTML和CSS。编码不是我的专长。和服实验室在这方面做得很好,因为它支持每天/每小时运行自动产品列表,然后自动刮取这些活动产品。所有活动产品然后通过JSON输出我们自己的服务。我真的希望我能找到像这样的web服务。也许这里有人有一个好的选择?