Python 2.7 使用美丽的汤刮多个图像

Python 2.7 使用美丽的汤刮多个图像,python-2.7,beautifulsoup,Python 2.7,Beautifulsoup,我试图抓住路透社文章幻灯片中所有的img链接。我想知道是否有人能向我解释为什么这只抓住了第一张图片而没有其他图片 以下是供参考的文章: 在本文的页面源代码中,只有一个id=frame\u fd1fade的div。其中有一个img标签,包含第一张图片。您必须研究页面用于更改图片的机制,并以某种方式使用该机制获取图像 尝试运行此命令以查看源中有多少帧\u fd1fade的实例: import urllib import re f = urllib.urlopen("http://www.reute

我试图抓住路透社文章幻灯片中所有的img链接。我想知道是否有人能向我解释为什么这只抓住了第一张图片而没有其他图片

以下是供参考的文章:


在本文的页面源代码中,只有一个id=frame\u fd1fade的div。其中有一个img标签,包含第一张图片。您必须研究页面用于更改图片的机制,并以某种方式使用该机制获取图像

尝试运行此命令以查看源中有多少帧\u fd1fade的实例:

import urllib
import re

f = urllib.urlopen("http://www.reuters.com/article/2014/04/11/us-cocoa-gold-westafrica-insight-idUSBREA3A0DP20140411")
cnt = 0
for line in f:
  if re.search("frame_fd1fade", line):
    cnt += 1
print "cnt =", cnt

在页面源代码中,所有img看起来都在那里。每个都有一个单独的div。它们都是div id=frame_fd1fade,具有不同的对应图像。@user3285763,这不是我看到的。试试我在上面的答案中添加的小程序。你算什么?嗯,谢谢你花时间这么做。这确实解释了为什么我只返回了一个img源。我当时对我所看到的有点困惑。在firefox inspect元素中有一个div id=frame\u fd1fade的列表。每个都有单独的img文件。它们分别标记为div id=ic0、ic1、ic2、ic3等。这些都在div id=displayFrame下。我正在考虑使用正则表达式,但我想尽量避免它。
import urllib
import re

f = urllib.urlopen("http://www.reuters.com/article/2014/04/11/us-cocoa-gold-westafrica-insight-idUSBREA3A0DP20140411")
cnt = 0
for line in f:
  if re.search("frame_fd1fade", line):
    cnt += 1
print "cnt =", cnt