Web scraping Import.io-它能取代和服实验室吗
我现在使用和服实验室从具有相同目标的网站上抓取数据。为了简单起见,让我们假设这些网站是在线销售东西的在线商店(实际上它们是具有在线申请可能性的求职网站,但从技术上讲,它看起来很像一家网店) 这很有效。对于每个网站,都会创建一个scraperapi,通过可用的高级搜索页面对所有产品url进行爬网。让我们把这个API称为“URL列表”。然后,为产品详细信息页面创建一个“产品API”,该页面将删除所有必要的元素。例如,标题、产品文本和规格,如品牌、类别等。产品API设置为每天使用“URL列表”中收集的所有URL进行爬网 然后使用我们自己的服务,使用Kimonolabs JSON端点获取所有产品的收集信息 然而,和服实验室将于2016年2月底退出服务:-(。因此,我正在寻找一个简单的替代方案。我一直在寻找import.io,但我想知道:Web scraping Import.io-它能取代和服实验室吗,web-scraping,import.io,Web Scraping,Import.io,我现在使用和服实验室从具有相同目标的网站上抓取数据。为了简单起见,让我们假设这些网站是在线销售东西的在线商店(实际上它们是具有在线申请可能性的求职网站,但从技术上讲,它看起来很像一家网店) 这很有效。对于每个网站,都会创建一个scraperapi,通过可用的高级搜索页面对所有产品url进行爬网。让我们把这个API称为“URL列表”。然后,为产品详细信息页面创建一个“产品API”,该页面将删除所有必要的元素。例如,标题、产品文本和规格,如品牌、类别等。产品API设置为每天使用“URL列表”中收集的
- 它是否支持自动更新(让API每小时/每天刮一次等)
- 它是否支持从分页的高级搜索页面获取所有产品URL
如果import.io是一个有用的替代方案,这里的任何import.io用户都可以给出建议?甚至可以给出一些正确方向的指针?我不太喜欢import.io,但在我看来它允许通过批量输入URL进行分页。请阅读 到目前为止,通过API获取整个网站的进展不大: 链接多个API/数据集目前不可能使用链API完全自动提取整个网站。 例如,如果我想要在类别页面或分页列表中找到的数据。我首先必须创建URL列表,运行批量提取,将结果保存为导入数据集,然后将其链接到另一个提取程序。设置一次后,我希望能够在一次单击中自动完成此操作 另外,如果你对JS有些熟悉,你可能会发现它很有用。看看吧。它是一种像和服一样工作的视觉抓取工具 Portia也可以作为服务提供,它满足您对import.io的要求:
- 自动更新,通过安排定期作业来抓取所需页面,使数据保持最新
- 根据您可以定义的URL模式,通过分页链接进行导航
全面披露:我在Portia的首席维护者Scrapinghub工作。关于自动更新: 现在这是一个问题。从和服实验室迁移后,我正在为自己进行测试…您可以通过将
&bulkSchedule=1
附加到API URL来为自己的API启用此功能。然后您将看到一个“计划”选项卡。在“配置”选项卡中选择“批量提取”并在此之后添加您的URL。计划程序将每天或每周运行。也许您想尝试一下。这是一个免费的web抓取工具,允许您创建提取任何信息并以JSON格式返回的端点。它可以轻松处理分页搜索
如果你懂一点JS,你可以编写CasperJS端点,并集成提取数据所需的任何逻辑。它与和服实验室的目标类似,可以解决相同的问题(如果不是更多的话,因为它是可编程的)
如果不能解决您的需求,您可以查看这些其他市场参与者,他们的目标类似:
- Import.io(正如您已经提到的)
- 莫森达
- 云刮
- TroClickAPI
- 五个过滤器
免责声明:我是Extracy公司的联合创始人。问题是,我只精通HTML和CSS。编码不是我的专长。和服实验室在这方面做得很好,因为它支持每天/每小时运行自动产品列表,然后自动刮取这些活动产品。所有活动产品然后通过JSON输出我们自己的服务。我真的希望我能找到像这样的web服务。也许这里有人有一个好的选择?