Web scraping Import.io-它能取代和服实验室吗_Web Scraping_Import.io

Web scraping Import.io-它能取代和服实验室吗

web-scraping

Web scraping Import.io-它能取代和服实验室吗,web-scraping,import.io,Web Scraping,Import.io,我现在使用和服实验室从具有相同目标的网站上抓取数据。为了简单起见，让我们假设这些网站是在线销售东西的在线商店（实际上它们是具有在线申请可能性的求职网站，但从技术上讲，它看起来很像一家网店）这很有效。对于每个网站，都会创建一个scraperapi，通过可用的高级搜索页面对所有产品url进行爬网。让我们把这个API称为“URL列表”。然后，为产品详细信息页面创建一个“产品API”，该页面将删除所有必要的元素。例如，标题、产品文本和规格，如品牌、类别等。产品API设置为每天使用“URL列表”中收集的

我现在使用和服实验室从具有相同目标的网站上抓取数据。为了简单起见，让我们假设这些网站是在线销售东西的在线商店（实际上它们是具有在线申请可能性的求职网站，但从技术上讲，它看起来很像一家网店）

这很有效。对于每个网站，都会创建一个scraperapi，通过可用的高级搜索页面对所有产品url进行爬网。让我们把这个API称为“URL列表”。然后，为产品详细信息页面创建一个“产品API”，该页面将删除所有必要的元素。例如，标题、产品文本和规格，如品牌、类别等。产品API设置为每天使用“URL列表”中收集的所有URL进行爬网

然后使用我们自己的服务，使用Kimonolabs JSON端点获取所有产品的收集信息

然而，和服实验室将于2016年2月底退出服务：-（。因此，我正在寻找一个简单的替代方案。我一直在寻找import.io，但我想知道：

它是否支持自动更新（让API每小时/每天刮一次等）
它是否支持从分页的高级搜索页面获取所有产品URL

我正在修补这项服务。基本上，它似乎通过与和服实验室相同的简单过程提取数据。只是，我不清楚是否支持为产品API对URL进行分页并自动保持其最新

如果import.io是一个有用的替代方案，这里的任何import.io用户都可以给出建议？甚至可以给出一些正确方向的指针？

我不太喜欢import.io，但在我看来它允许通过批量输入URL进行分页。请阅读

到目前为止，通过API获取整个网站的进展不大：

链接多个API/数据集目前不可能使用链API完全自动提取整个网站。例如，如果我想要在类别页面或分页列表中找到的数据。我首先必须创建URL列表，运行批量提取，将结果保存为导入数据集，然后将其链接到另一个提取程序。设置一次后，我希望能够在一次单击中自动完成此操作

另外，如果你对JS有些熟悉，你可能会发现它很有用。

看看吧。它是一种像和服一样工作的视觉抓取工具

Portia也可以作为服务提供，它满足您对import.io的要求：

自动更新，通过安排定期作业来抓取所需页面，使数据保持最新
根据您可以定义的URL模式，通过分页链接进行导航

全面披露：我在Portia的首席维护者Scrapinghub工作。

关于自动更新：现在这是一个问题。从和服实验室迁移后，我正在为自己进行测试…您可以通过将

&bulkSchedule=1

附加到API URL来为自己的API启用此功能。然后您将看到一个“计划”选项卡。在“配置”选项卡中选择“批量提取”并在此之后添加您的URL。计划程序将每天或每周运行。

也许您想尝试一下。这是一个免费的web抓取工具，允许您创建提取任何信息并以JSON格式返回的端点。它可以轻松处理分页搜索

如果你懂一点JS，你可以编写CasperJS端点，并集成提取数据所需的任何逻辑。它与和服实验室的目标类似，可以解决相同的问题（如果不是更多的话，因为它是可编程的）

如果不能解决您的需求，您可以查看这些其他市场参与者，他们的目标类似：

Import.io（正如您已经提到的）
莫森达
云刮
TroClickAPI
五个过滤器

免责声明：我是Extracy公司的联合创始人。

问题是，我只精通HTML和CSS。编码不是我的专长。和服实验室在这方面做得很好，因为它支持每天/每小时运行自动产品列表，然后自动刮取这些活动产品。所有活动产品然后通过JSON输出我们自己的服务。我真的希望我能找到像这样的web服务。也许这里有人有一个好的选择？