AmazonPythonWebScraping:产品的所有变体都返回与第一个变体相同的HTML代码

AmazonPythonWebScraping:产品的所有变体都返回与第一个变体相同的HTML代码,python,web-scraping,beautifulsoup,amazon,urllib2,Python,Web Scraping,Beautifulsoup,Amazon,Urllib2,我正在使用Python2&使用urllib2中的urlopen和bs4中的BeautifulSoup来删除同一产品列表的一些变体的HTML代码 即: 因此,当我放弃这个相同产品列表的所有不同变体时,我从Var1收到了相同的HTML代码 总共有9个变体,返回的代码与第一个变体相同 这是非常奇怪的,因为如果我访问直接链接并检查源代码,我会得到不同的HTML,但如果使用Python对其进行刮取,则会得到相同的HTML 有人能帮我看看这个并指引我正确的方向吗?非常感谢 为了补充一些信息,sytech先生

我正在使用Python2&使用urllib2中的urlopen和bs4中的BeautifulSoup来删除同一产品列表的一些变体的HTML代码

即:

因此,当我放弃这个相同产品列表的所有不同变体时,我从Var1收到了相同的HTML代码

总共有9个变体,返回的代码与第一个变体相同

这是非常奇怪的,因为如果我访问直接链接并检查源代码,我会得到不同的HTML,但如果使用Python对其进行刮取,则会得到相同的HTML

有人能帮我看看这个并指引我正确的方向吗?非常感谢


为了补充一些信息,sytech先生提出了一个非常好的观点。然而,这个问题并不是发生在每个产品上,而是只发生在一些产品上。如果我们看一下这个产品:它按预期工作,每个变体都会返回它们自己独特的HTML。

您不能期望urllib2检索的内容与您在浏览器中看到的内容完全相同。很可能,变体的显示是通过JavaScript控制的。由于urllib2只检索包含HTML的服务器响应,因此它不会执行JavaScript或浏览器会执行的任何其他操作


使用urllib获取数据可能还有其他选择,但您也可以使用浏览器自动化,例如使用
selenium
,它可以获得执行JS后显示的DOM以及浏览器为您所做的一切。

感谢您的快速回复。这很奇怪,因为对于其他一些亚马逊产品,它可以正常工作。似乎这个问题只发生在某些特定的产品上。您认为在读取之前添加等待(10)会有帮助吗?例如:'s变体按预期工作。