Python 刮痧爬上<;按钮rel=";“下一步”&燃气轮机;

Python 刮痧爬上<;按钮rel=";“下一步”&燃气轮机;,python,scrapy,Python,Scrapy,我正在使用Scrapy在kogan.com上抓取数据 “下一页”是一个带有rel=“next”属性的按钮,没有href。此外,我尝试手动将页码添加到url,但页码仅限于page=10,无法进一步(>10)。例如,我键入page=11,则url仍保留在page=10中。所以我假设这是这个网站的防刮机制?页码超过10的唯一方法是单击。 下面是我正在爬行的链接。 查看更多信息 这个网站有很好的API,所以你可以用它来代替。检查开发人员工具中的链接: https://www.kogan.com/api

我正在使用Scrapy在kogan.com上抓取数据 “下一页”是一个带有
rel=“next”
属性的按钮,没有
href
。此外,我尝试手动将页码添加到
url
,但
页码仅限于
page=10
,无法进一步(
>10
)。例如,我键入
page=11
,则
url
仍保留在
page=10
中。所以我假设这是这个网站的防刮机制?页码超过10的唯一方法是单击
。 下面是我正在爬行的链接。

查看更多信息

这个网站有很好的API,所以你可以用它来代替。检查开发人员工具中的链接:

https://www.kogan.com/api/v1/products/?department=phones&group_variants=true&store=au&offset=360

因此,您可以循环遍历所有页面,更改
offset
并获取所有可用项。

您在哪里找到此API的?只需键入
.com/api
即可查看站点是否有api?例如,在chrome:Developer tools->Network选项卡中。滚动页面,您将在list.ohh中看到此请求,thx很多。但是回到我的问题上来,有没有其他方法可以让
页面
的编号超过10?我浏览了这个JSON文件,在
对象
中,有一个保存项目的列表,仍然是
36
,这是1页的数字,与
offset
的值无关。但是您是否看到,对于不同的偏移,这些对象是不同的?所以偏移量=0,36,72,108等等,你们每次都会得到不同的对象,所以你们可以刮取整个批次。
https://www.kogan.com/api/v1/products/?department=phones&group_variants=true&store=au&offset=360