Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/ssis/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 亚马逊刮痧与美容集团_Python_Beautifulsoup_Screen Scraping - Fatal编程技术网

Python 亚马逊刮痧与美容集团

Python 亚马逊刮痧与美容集团,python,beautifulsoup,screen-scraping,Python,Beautifulsoup,Screen Scraping,我正试图从amazon页面上抓取数据 headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0", "Accept-Encoding":"gzip, deflate", "Accept":"text/html,application/xht

我正试图从amazon页面上抓取数据

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0", "Accept-Encoding":"gzip, deflate", "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "DNT":"1","Connection":"close", "Upgrade-Insecure-Requests":"1"}

r = requests.get('https://www.amazon.com/s?k=smartphone&pg='+str(pageNo)+'?ie=UTF8&pg='+str(pageNo), headers=headers)

content = r.content
soup = BeautifulSoup(content, features='lxml')
每个页面都会调用此函数

一切都很好,如产品名称、价格等

但是有很多重复的。例如,如果我刮10页,超过50%的数据是重复的。
我猜,就像你在亚马逊页面上点击“刷新”一样,产品是根据一些内部标准移动的。 我的剧本也是如此。 每次调用函数并打开和刮取页面时,这些项目都可能同时从其他页面移动,因此这里是重复项

有没有办法避免这种情况? 谢谢


编辑:我添加更多信息。我已经在删除重复项了,但是它看起来效率很低,只需要刮几十页,结果却很少。也许有一种方法可以一次读取所有页面,以避免出现il或类似的情况。

您能根据唯一标识符除去重复的页面吗?现在还不清楚您在这里寻找什么样的解决方案,或者您到目前为止尝试了什么&您在尝试中遇到了什么困难。@esqe确定我已经在删除重复项了。但在我看来效率不高。我在帖子中添加了更多信息