使用python爬行页面

使用python爬行页面,python,selenium,web-crawler,Python,Selenium,Web Crawler,我正在做一个爬虫,可以用于所有的电子商务网站。目前,我正在以下网站上测试我的爬虫程序 就个人而言,我成功地抓取了所有四个网站,但当我制作一个普通的抓取程序时,我不知道如何显示更多的产品。例如 在中,我需要单击“显示更多结果”以显示更多产品 在中,我需要按load more以显示更多产品 在中,我只需要向下滚动以获得更多产品 在 ,按下“下一步”按钮以获取更多产品 每个网站都有不同的按钮类别/标签,所以我如何确定是按下按钮还是向下滚动 最初我是从Selenium开始的,但这并不是必需的,如果有任何

我正在做一个爬虫,可以用于所有的电子商务网站。目前,我正在以下网站上测试我的爬虫程序

就个人而言,我成功地抓取了所有四个网站,但当我制作一个普通的抓取程序时,我不知道如何显示更多的产品。例如

在中,我需要单击“显示更多结果”以显示更多产品

在中,我需要按load more以显示更多产品

在中,我只需要向下滚动以获得更多产品

在 ,按下“下一步”按钮以获取更多产品

每个网站都有不同的按钮类别/标签,所以我如何确定是按下按钮还是向下滚动


最初我是从Selenium开始的,但这并不是必需的,如果有任何其他模块比Selenium更好,我很乐意使用它。

Scrapy实际上不起作用,因为您试图与javascript交互。你会想坚持使用硒。firefox有一个selenium插件,允许您在浏览器上记录您的操作,然后将其导出到python中。因此,单击、加载和滚动都没有问题


要获取加载项,请按照以下说明操作

刮痧是完美的this@Fabricator是否允许我在不知道类/标记的情况下搜索按钮不同站点的xpath、类和标记完全不同,我不想每次更改网站时都更改代码…我的意思是我应该输入一个链接,它应该自动检测是否按按钮,或者只是向下滚动,如果要按下按钮,那么是哪一个,那么如何管理,请给出这个问题的答案。如果在所有这些站点中没有找到用户操作所需的共同点,那么就不可能制定一个通用方法来满足您的所有需求。您必须将其分为不同的情况,您可以通过查看要刮取的站点的域来检测这些情况