Pagination 使用import.io刮取分页结果的最佳方法

Pagination 使用import.io刮取分页结果的最佳方法,pagination,web-scraping,import.io,Pagination,Web Scraping,Import.io,在邮轮行业中,有几个网站是我想浏览的。 示例: 在某些场景中,如第一个显示的场景,结果页面遵循一种模式-?page_num=1…17。然而,结果的数量会随着时间的推移而变化 在第二种情况下,URL不会随分页而更改 最后,我想做的是将每个网站的结果放入一个文件中 问题1:除了为场景1设置17个刮刀,然后随着时间的推移积极观察结果的增长/收缩,还有其他选择吗 问题2:关于如何从第二个场景中抓取内容,我完全被难住了。Q1-来自(import.io)的免费工具没有能力随时间主动观察数据的变化。您可以做

在邮轮行业中,有几个网站是我想浏览的。 示例:

在某些场景中,如第一个显示的场景,结果页面遵循一种模式-?page_num=1…17。然而,结果的数量会随着时间的推移而变化

在第二种情况下,URL不会随分页而更改

最后,我想做的是将每个网站的结果放入一个文件中

问题1:除了为场景1设置17个刮刀,然后随着时间的推移积极观察结果的增长/收缩,还有其他选择吗

问题2:关于如何从第二个场景中抓取内容,我完全被难住了。

Q1-来自(import.io)的免费工具没有能力随时间主动观察数据的变化。您可以做的是让提取器提取大量数据(有17页,这将非常快),并将其添加到数据库中。在数据库的每个条目之后,可以对条目进行重复数据消除或标记为唯一。您可以在Excel中手动或以编程方式执行此操作

他们的企业(数据即服务)可以为您做到这一点


问题2-如果每个页面没有唯一的URL,那么唯一可以为您分页的工具就是连接器

我建议您构建一个提取器来获取分页。这个提取器的结果将是一个链接列表,每个链接对应一个页面

这样,每次运行应用程序并且页面数量发生变化时,您将始终获得所有页面

之后,对每个页面进行调用以获取所需的数据

提取器1:获取页面--输入:第一个URL

提取器2:获取项(数据)——输入:提取器1的结果