Web crawler 使用导入IO抓取数据_Web Crawler_Webpage_Extraction

Web crawler 使用导入IO抓取数据

web-crawler

Web crawler 使用导入IO抓取数据,web-crawler,webpage,extraction,Web Crawler,Webpage,Extraction,如何在importIO中的爬虫中使用爬虫例如，有一个公司详细信息列表（已分页），每个公司都有一个审查列表（也已分页）我需要抓取一家公司的详细信息以及每家公司的“全部”评论。我怎样才能做到这一点？我需要两张表格（公司和评论）吗？还有，我该如何使用它不知道具体的网站，很难评论。例如，在站点上实现分页的方式将影响您获取数据的方式。URL结构也将发挥重要作用如果您可以在页面的HTML（view source/inspect元素）中看到所需的所有数据，那么您就有可能将这些数据作为API/CSV 因

如何在importIO中的爬虫中使用爬虫

例如，有一个公司详细信息列表（已分页），每个公司都有一个审查列表（也已分页）

我需要抓取一家公司的详细信息以及每家公司的“全部”评论。我怎样才能做到这一点？我需要两张表格（公司和评论）吗？还有，我该如何使用它

不知道具体的网站，很难评论。例如，在站点上实现分页的方式将影响您获取数据的方式。URL结构也将发挥重要作用

如果您可以在页面的HTML（view source/inspect元素）中看到所需的所有数据，那么您就有可能将这些数据作为API/CSV

因此，您需要：

在此处共享URL（加上奖励积分的模式）

电子邮件support@import.io细节

回答更一般的问题：“如何在导入的爬虫中使用爬虫？”

Short answer=是，但不是通过常规UI，您需要进行一些编码

长答案=是！您可以创建我们称之为“链式API”的东西，它从一个爬网提取中获取URL，并将这些URL提供给第二个提取程序，后者获取其余信息。然后，您只需在提取后的数据QA过程中记录匹配

也就是说，除非您想要的所有数据都嵌入到一个URL中，并且您需要获取所有这些数据。在这种情况下，您正在考虑使用单行训练和大量Xpath创建连接器，但它应该可以工作

有关详细信息，您可能希望通过以下链接查看知识库文章：

谢谢

你能给网站添加链接吗？