Pagination 使用import.io刮取分页结果的最佳方法_Pagination_Web Scraping_Import.io

Pagination 使用import.io刮取分页结果的最佳方法

pagination web-scraping

Pagination 使用import.io刮取分页结果的最佳方法,pagination,web-scraping,import.io,Pagination,Web Scraping,Import.io,在邮轮行业中，有几个网站是我想浏览的。示例：在某些场景中，如第一个显示的场景，结果页面遵循一种模式-？page_num=1…17。然而，结果的数量会随着时间的推移而变化在第二种情况下，URL不会随分页而更改最后，我想做的是将每个网站的结果放入一个文件中问题1：除了为场景1设置17个刮刀，然后随着时间的推移积极观察结果的增长/收缩，还有其他选择吗问题2：关于如何从第二个场景中抓取内容，我完全被难住了。Q1-来自（import.io）的免费工具没有能力随时间主动观察数据的变化。您可以做

在邮轮行业中，有几个网站是我想浏览的。示例：

在某些场景中，如第一个显示的场景，结果页面遵循一种模式-？page_num=1…17。然而，结果的数量会随着时间的推移而变化

在第二种情况下，URL不会随分页而更改

最后，我想做的是将每个网站的结果放入一个文件中

问题1：除了为场景1设置17个刮刀，然后随着时间的推移积极观察结果的增长/收缩，还有其他选择吗

问题2：关于如何从第二个场景中抓取内容，我完全被难住了。

Q1-来自（import.io）的免费工具没有能力随时间主动观察数据的变化。您可以做的是让提取器提取大量数据（有17页，这将非常快），并将其添加到数据库中。在数据库的每个条目之后，可以对条目进行重复数据消除或标记为唯一。您可以在Excel中手动或以编程方式执行此操作

他们的企业（数据即服务）可以为您做到这一点

问题2-如果每个页面没有唯一的URL，那么唯一可以为您分页的工具就是连接器

我建议您构建一个提取器来获取分页。这个提取器的结果将是一个链接列表，每个链接对应一个页面

这样，每次运行应用程序并且页面数量发生变化时，您将始终获得所有页面

之后，对每个页面进行调用以获取所需的数据

提取器1:获取页面--输入：第一个URL

提取器2：获取项（数据）——输入：提取器1的结果