Web scraping 从分页网站的每个页面检索一个数字_Web Scraping

Web scraping 从分页网站的每个页面检索一个数字

web-scraping

Web scraping 从分页网站的每个页面检索一个数字,web-scraping,Web Scraping,我有一个大约36000个URL的列表，范围从到（其中一些页面返回404个错误）每个页面都包含一个数字（足球俱乐部包含的球队数量）。在HTML文件中，数字显示为5 是否有一种相当简单的方法来编译excel或csv文件，并将URL和相关的团队数量作为一个字段我曾尝试研究phantomJS，但我的方法只花了10秒就打开了一个网页，我真的不想花100个小时来做这件事。我不知道如何（或者是否有可能）使用诸如import.io之类的刮削工具来完成这项工作谢谢对于您想要实现的目标，我可以看到两种解决方

我有一个大约36000个URL的列表，范围从到（其中一些页面返回404个错误）

每个页面都包含一个数字（足球俱乐部包含的球队数量）。在HTML文件中，数字显示为

是否有一种相当简单的方法来编译excel或csv文件，并将URL和相关的团队数量作为一个字段

我曾尝试研究phantomJS，但我的方法只花了10秒就打开了一个网页，我真的不想花100个小时来做这件事。我不知道如何（或者是否有可能）使用诸如import.io之类的刮削工具来完成这项工作

谢谢

对于您想要实现的目标，我可以看到两种解决方案：

用Java:Jsoup+任何CSV库对其进行编码
在几分钟内，36000多个URL就可以轻松下载
使用类似scrapinghub.com的工具
Portia是一个WYSIWYG工具，可以快速帮助您创建项目并运行它。他们提供了一个免费的计划，可以负责36000多个链接

对于您想要实现的目标，我可以看到两种解决方案：

用Java:Jsoup+任何CSV库对其进行编码
在几分钟内，36000多个URL就可以轻松下载
使用类似scrapinghub.com的工具
Portia是一个WYSIWYG工具，可以快速帮助您创建项目并运行它。他们提供了一个免费的计划，可以负责36000多个链接