Python urllib2任意拉取不同的页面
我正试图为此制作一个bs4刮板,这时我意识到它有时能工作,而不是其他看起来随意的东西 因此,我在这里编写了一些代码(您不必全部阅读): 有人知道为什么这个网站的代码有时几乎翻了一番,而其他网站却没有?有没有什么方法可以等到整个页面加载 我认为代码的重点是以下几行:Python urllib2任意拉取不同的页面,python,urllib2,Python,Urllib2,我正试图为此制作一个bs4刮板,这时我意识到它有时能工作,而不是其他看起来随意的东西 因此,我在这里编写了一些代码(您不必全部阅读): 有人知道为什么这个网站的代码有时几乎翻了一番,而其他网站却没有?有没有什么方法可以等到整个页面加载 我认为代码的重点是以下几行: webpage = opener.open(req) soup = BeautifulSoup(webpage, "html5lib") 编辑1: 其他人可以运行此代码并让我知道他们的结果是否相似吗 编辑2: 我在单独的机器上(在谷
webpage = opener.open(req)
soup = BeautifulSoup(webpage, "html5lib")
编辑1:
其他人可以运行此代码并让我知道他们的结果是否相似吗
编辑2:
我在单独的机器上(在谷歌服务器上)重新运行了此代码,得到了类似的结果:
218565
218564
376937
376487
378243
218564
218557
378248
377791
原因可能有很多:
- 可能是他们正在使用A/B测试来检查变化
- 可能是因为它们具有分层结构,并且并非所有后端服务器都是对齐的
- 可能是他们想阻止其他人窃取并重新出售目录
- 也许你是在一个玩得很开心的代理后面
- 可能是一些防病毒软件正在试图帮助你
- 可能是您的计算机感染了注入html内容的病毒
webpage = opener.open(req)
soup = BeautifulSoup(webpage, "html5lib")
218565
218564
376937
376487
378243
218564
218557
378248
377791