Python urllib2任意拉取不同的页面

Python urllib2任意拉取不同的页面,python,urllib2,Python,Urllib2,我正试图为此制作一个bs4刮板,这时我意识到它有时能工作,而不是其他看起来随意的东西 因此,我在这里编写了一些代码(您不必全部阅读): 有人知道为什么这个网站的代码有时几乎翻了一番,而其他网站却没有?有没有什么方法可以等到整个页面加载 我认为代码的重点是以下几行: webpage = opener.open(req) soup = BeautifulSoup(webpage, "html5lib") 编辑1: 其他人可以运行此代码并让我知道他们的结果是否相似吗 编辑2: 我在单独的机器上(在谷

我正试图为此制作一个bs4刮板,这时我意识到它有时能工作,而不是其他看起来随意的东西

因此,我在这里编写了一些代码(您不必全部阅读):

有人知道为什么这个网站的代码有时几乎翻了一番,而其他网站却没有?有没有什么方法可以等到整个页面加载

我认为代码的重点是以下几行:

webpage = opener.open(req)
soup = BeautifulSoup(webpage, "html5lib")
编辑1: 其他人可以运行此代码并让我知道他们的结果是否相似吗

编辑2: 我在单独的机器上(在谷歌服务器上)重新运行了此代码,得到了类似的结果:

218565
218564
376937
376487
378243
218564
218557
378248
377791

原因可能有很多:

  • 可能是他们正在使用A/B测试来检查变化
  • 可能是因为它们具有分层结构,并且并非所有后端服务器都是对齐的
  • 可能是他们想阻止其他人窃取并重新出售目录
  • 也许你是在一个玩得很开心的代理后面
  • 可能是一些防病毒软件正在试图帮助你
  • 可能是您的计算机感染了注入html内容的病毒

感谢这些建议,我将把代码移到服务器上,然后再次运行,看看是否仍然存在相同的问题。
webpage = opener.open(req)
soup = BeautifulSoup(webpage, "html5lib")
218565
218564
376937
376487
378243
218564
218557
378248
377791