Python 亚马逊刮痧与美容集团_Python_Beautifulsoup_Screen Scraping

Python 亚马逊刮痧与美容集团

python

Python 亚马逊刮痧与美容集团,python,beautifulsoup,screen-scraping,Python,Beautifulsoup,Screen Scraping,我正试图从amazon页面上抓取数据 headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0", "Accept-Encoding":"gzip, deflate", "Accept":"text/html,application/xht

我正试图从amazon页面上抓取数据

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0", "Accept-Encoding":"gzip, deflate", "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "DNT":"1","Connection":"close", "Upgrade-Insecure-Requests":"1"}

r = requests.get('https://www.amazon.com/s?k=smartphone&pg='+str(pageNo)+'?ie=UTF8&pg='+str(pageNo), headers=headers)

content = r.content
soup = BeautifulSoup(content, features='lxml')

每个页面都会调用此函数

一切都很好，如产品名称、价格等

但是有很多重复的。例如，如果我刮10页，超过50%的数据是重复的。
我猜，就像你在亚马逊页面上点击“刷新”一样，产品是根据一些内部标准移动的。我的剧本也是如此。每次调用函数并打开和刮取页面时，这些项目都可能同时从其他页面移动，因此这里是重复项

有没有办法避免这种情况？谢谢

编辑：我添加更多信息。我已经在删除重复项了，但是它看起来效率很低，只需要刮几十页，结果却很少。也许有一种方法可以一次读取所有页面，以避免出现il或类似的情况。

您能根据唯一标识符除去重复的页面吗？现在还不清楚您在这里寻找什么样的解决方案，或者您到目前为止尝试了什么&您在尝试中遇到了什么困难。@esqe确定我已经在删除重复项了。但在我看来效率不高。我在帖子中添加了更多信息