Web scraping 从分页网站的每个页面检索一个数字

Web scraping 从分页网站的每个页面检索一个数字,web-scraping,Web Scraping,我有一个大约36000个URL的列表,范围从到(其中一些页面返回404个错误) 每个页面都包含一个数字(足球俱乐部包含的球队数量)。在HTML文件中,数字显示为5 是否有一种相当简单的方法来编译excel或csv文件,并将URL和相关的团队数量作为一个字段 我曾尝试研究phantomJS,但我的方法只花了10秒就打开了一个网页,我真的不想花100个小时来做这件事。我不知道如何(或者是否有可能)使用诸如import.io之类的刮削工具来完成这项工作 谢谢 对于您想要实现的目标,我可以看到两种解决方

我有一个大约36000个URL的列表,范围从到(其中一些页面返回404个错误)

每个页面都包含一个数字(足球俱乐部包含的球队数量)。在HTML文件中,数字显示为

5

是否有一种相当简单的方法来编译excel或csv文件,并将URL和相关的团队数量作为一个字段

我曾尝试研究phantomJS,但我的方法只花了10秒就打开了一个网页,我真的不想花100个小时来做这件事。我不知道如何(或者是否有可能)使用诸如import.io之类的刮削工具来完成这项工作


谢谢

对于您想要实现的目标,我可以看到两种解决方案:

  • 用Java:Jsoup+任何CSV库对其进行编码

    在几分钟内,36000多个URL就可以轻松下载

  • 使用类似scrapinghub.com的工具

    Portia是一个WYSIWYG工具,可以快速帮助您创建项目并运行它。他们提供了一个免费的计划,可以负责36000多个链接


对于您想要实现的目标,我可以看到两种解决方案:

  • 用Java:Jsoup+任何CSV库对其进行编码

    在几分钟内,36000多个URL就可以轻松下载

  • 使用类似scrapinghub.com的工具

    Portia是一个WYSIWYG工具,可以快速帮助您创建项目并运行它。他们提供了一个免费的计划,可以负责36000多个链接