Web crawler 使用导入IO抓取数据

Web crawler 使用导入IO抓取数据,web-crawler,webpage,extraction,Web Crawler,Webpage,Extraction,如何在importIO中的爬虫中使用爬虫 例如,有一个公司详细信息列表(已分页),每个公司都有一个审查列表(也已分页) 我需要抓取一家公司的详细信息以及每家公司的“全部”评论。我怎样才能做到这一点?我需要两张表格(公司和评论)吗?还有,我该如何使用它 不知道具体的网站,很难评论。例如,在站点上实现分页的方式将影响您获取数据的方式。URL结构也将发挥重要作用 如果您可以在页面的HTML(view source/inspect元素)中看到所需的所有数据,那么您就有可能将这些数据作为API/CSV 因

如何在importIO中的爬虫中使用爬虫

例如,有一个公司详细信息列表(已分页),每个公司都有一个审查列表(也已分页)


我需要抓取一家公司的详细信息以及每家公司的“全部”评论。我怎样才能做到这一点?我需要两张表格(公司和评论)吗?还有,我该如何使用它

不知道具体的网站,很难评论。例如,在站点上实现分页的方式将影响您获取数据的方式。URL结构也将发挥重要作用

如果您可以在页面的HTML(view source/inspect元素)中看到所需的所有数据,那么您就有可能将这些数据作为API/CSV

因此,您需要:

  • 在此处共享URL(加上奖励积分的模式)
  • 电子邮件support@import.io细节
  • 回答更一般的问题:“如何在导入的爬虫中使用爬虫?”

    Short answer=是,但不是通过常规UI,您需要进行一些编码

    长答案=是!您可以创建我们称之为“链式API”的东西,它从一个爬网提取中获取URL,并将这些URL提供给第二个提取程序,后者获取其余信息。然后,您只需在提取后的数据QA过程中记录匹配

    也就是说,除非您想要的所有数据都嵌入到一个URL中,并且您需要获取所有这些数据。在这种情况下,您正在考虑使用单行训练和大量Xpath创建连接器,但它应该可以工作

    有关详细信息,您可能希望通过以下链接查看知识库文章:


    谢谢

    你能给网站添加链接吗?