Python 刮痧爬上<;按钮rel=";“下一步”&燃气轮机;
我正在使用Scrapy在kogan.com上抓取数据 “下一页”是一个带有Python 刮痧爬上<;按钮rel=";“下一步”&燃气轮机;,python,scrapy,Python,Scrapy,我正在使用Scrapy在kogan.com上抓取数据 “下一页”是一个带有rel=“next”属性的按钮,没有href。此外,我尝试手动将页码添加到url,但页码仅限于page=10,无法进一步(>10)。例如,我键入page=11,则url仍保留在page=10中。所以我假设这是这个网站的防刮机制?页码超过10的唯一方法是单击。 下面是我正在爬行的链接。 查看更多信息 这个网站有很好的API,所以你可以用它来代替。检查开发人员工具中的链接: https://www.kogan.com/api
rel=“next”
属性的按钮,没有href
。此外,我尝试手动将页码添加到url
,但页码仅限于page=10
,无法进一步(>10
)。例如,我键入page=11
,则url
仍保留在page=10
中。所以我假设这是这个网站的防刮机制?页码超过10的唯一方法是单击
。
下面是我正在爬行的链接。
查看更多信息
这个网站有很好的API,所以你可以用它来代替。检查开发人员工具中的链接:
https://www.kogan.com/api/v1/products/?department=phones&group_variants=true&store=au&offset=360
因此,您可以循环遍历所有页面,更改offset
并获取所有可用项。您在哪里找到此API的?只需键入.com/api
即可查看站点是否有api?例如,在chrome:Developer tools->Network选项卡中。滚动页面,您将在list.ohh中看到此请求,thx很多。但是回到我的问题上来,有没有其他方法可以让页面
的编号超过10?我浏览了这个JSON文件,在对象
中,有一个保存项目的列表,仍然是36
,这是1页的数字,与offset
的值无关。但是您是否看到,对于不同的偏移,这些对象是不同的?所以偏移量=0,36,72,108等等,你们每次都会得到不同的对象,所以你们可以刮取整个批次。
https://www.kogan.com/api/v1/products/?department=phones&group_variants=true&store=au&offset=360