Html 使用src和BeautifulSoup从Google图像中提取图像

Html 使用src和BeautifulSoup从Google图像中提取图像,html,image,web-scraping,beautifulsoup,src,Html,Image,Web Scraping,Beautifulsoup,Src,我一直在回答这个问题(),试图从谷歌图片页面中提取所有图片。我收到了一个“urllib2.HTTPError:HTTP Error 403:Forbidden”错误,但通过使用以下命令,我能够克服它: req = urllib2.Request(url, headers={'User-Agent' : "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/534.30 (KHTML, like Gecko) Ubuntu/11.04 Chromium/12.0

我一直在回答这个问题(),试图从谷歌图片页面中提取所有图片。我收到了一个“urllib2.HTTPError:HTTP Error 403:Forbidden”错误,但通过使用以下命令,我能够克服它:

req = urllib2.Request(url, headers={'User-Agent' : "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/534.30 (KHTML, like Gecko) Ubuntu/11.04 Chromium/12.0.742.112 Chrome/12.0.742.112 Safari/534.30"})
然而,我得到了一个新的错误,它似乎告诉我src属性不存在:

Traceback (most recent call last):
  File "Desktop/webscrapev2.py", line 13, in <module>
print(tag['src'])
  File "/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/bs4/element.py", line 958, in __getitem__
return self.attrs[key]
KeyError: 'src'

哦,孩子。您选择了错误的站点进行刮取。:)

谷歌的辩护 首先,谷歌(显然)是谷歌。它非常了解网络爬虫和网络爬虫——它的整个业务都建立在它们之上

因此,它知道普通人会玩的所有把戏,更重要的是,它有一项重要的任务,就是确保除了最终用户之外,没有其他人能接触到他们的图像

没有传递
用户代理
标题?现在谷歌知道你是一个不会假装是浏览器的刮板机器人,并且禁止你访问它的内容。这就是为什么你第一次出现了一个
403:probled
错误-服务器意识到你是一个机器人,阻止你访问资料。这是阻止自动机器人的最简单技术

谷歌通过Javascript构建页面 没有Javascript解析功能(哪些Python
请求
urllib
及其同类都没有)?现在你无法查看一半的图像,因为谷歌图像搜索结果的工作方式(如果你在加载谷歌图像时检查Chrome控制台中的
网络
选项卡)就是向各种内容提供商发出一些捆绑请求,然后通过内联模糊Javascript代码系统地向占位符
img
标记添加
src
属性

一开始,所有图像基本上都是空白的,只有一个自定义的
data src
属性来协调活动。一旦浏览器开始解析Javascript,就会向图像源提供商发出请求(因为Google可能使用自己的CDN,这些图像会很快传输到您的计算机),然后page Javascript会完成对接收到的数据进行分块的艰巨任务,确定它应该去哪个
img
占位符,然后适当地更新
src
。这些都是时间密集型的操作,我甚至不会假装知道谷歌是如何让它们如此快速地发生的(不过请注意,在Chrome48上的开发工具中弄乱网络节流操作可能会导致谷歌图像挂起,因为一些奇怪的原因,所以可能有一些主要的网络级代码在那里发生)

这些图像源提供程序似乎以
https://encrypted...
,这似乎不需要担心——这可能只是意味着谷歌在通过网络发送数据时,在HTTPS之上对数据应用了自定义加密方案,然后通过浏览器进行解码。谷歌实行的是端到端加密,而不仅仅是HTTPS——我相信栈的每一层都只能使用加密数据,加密和解密只能在最后一个和入口点进行——我不会对谷歌账户背后的相同技术感到惊讶

(注:以上所有内容都来自于在Chrome开发工具中闲逛一段时间,并花时间与解模糊器打交道。我与谷歌无关,我的理解很可能是不完整的,甚至是严重错误的。)

如果没有捆绑的Javascript解释器,可以肯定地说谷歌图片实际上是一堵空白墙

谷歌最后的肮脏把戏 但是现在假设您使用一个能够解析和执行Javascript的scraper来更新页面HTML—类似于(下面是一个类似浏览器的例子)。您是否仍然希望只需访问
src
,即可获得所有图像

不完全是。谷歌图像将图像嵌入其结果页面

换句话说,它不链接到其他页面,而是以文本格式复制图像,并以base64编码逐字记录图像。这大大减少了所需的连接数量,并缩短了页面加载时间

如果您导航到谷歌图像,右键单击任何图像,然后点击
Inspect element
,您可以自己看到这一点。以下是Google Images上图像的典型HTML标记:

<img data-sz="f" name="m4qsOrXytYY2xM:" class="rg_i" alt="Image result for google images" jsaction="load:str.tbn" onload="google.aft&amp;&amp;google.aft(this)" src="" style="width: 167px; height: 167px; margin-left: -7px; margin-right: -6px; margin-top: 0px;">
您还必须确保从
src
属性开始正确解析图像类型,将
decoded_字符串
写入文件,最后使用从
数据
属性收到的文件扩展名将其保存。呸

tl;博士 不要把谷歌图片作为你的第一个主要抓取项目。它是

  • 很难。维基百科更容易找到

  • 违反了他们的(尽管刮伤不是什么?请注意,我不是律师,这不构成法律意见),他们明确表示

    不要滥用我们的服务。例如,不要干扰我们的服务或尝试使用我们提供的接口和指令以外的方法访问它们

  • 真的无法预测如何改进。如果谷歌在尽可能多地欺骗人类浏览器(例如,自定义HTTP头)后仍在使用额外的身份验证机制,我也不会感到惊讶,除了一名匿名叛逆的谷歌员工急于将其主人变成瓦砾(不太可能)外,没有人能帮到你

  • 使用谷歌提供的工具非常容易,它让你只需通过编程向谷歌索要一组图像,而无需刮取。该API的速率限制为每天大约100个请求,这对于一个爱好项目来说已经足够了。通常,在考虑刮削之前使用API


    • 解决此问题的最佳方法是使用Chrome Webdriver等无头浏览器和Selenium Py等用户模拟库。靓汤阿洛
       from bs4 import BeautifulSoup
       import urllib2
      
       url = "https://www.google.com/search? q=baseball+pitcher&espv=2&biw=980&bih=627&source=lnms&tbm=isch&sa=X&ved=0ahUKEwj5h8-9lfjLAhUE7mMKHdgKD0YQ_AUIBigB"
      #'http://www.imdb.com/title/tt%s/' % (id,)
      
      req = urllib2.Request(url, headers={'User-Agent' : "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/534.30 (KHTML, like Gecko) Ubuntu/11.04 Chromium/12.0.742.112 Chrome/12.0.742.112 Safari/534.30"})
      
      soup = BeautifulSoup(urllib2.urlopen(req).read(), "lxml")
      print "before FOR"
      for tag in soup.findAll('img'): 
      print "inside FOR"
      v = tag.get('src', tag.get('dfr-src'))  # get's "src", else "dfr_src", if both are missing - None
      print v
      print tag
      if v is None:
          continue
          print("v is NONE")
      print(tag['src'])
      
      <img data-sz="f" name="m4qsOrXytYY2xM:" class="rg_i" alt="Image result for google images" jsaction="load:str.tbn" onload="google.aft&amp;&amp;google.aft(this)" src="" style="width: 167px; height: 167px; margin-left: -7px; margin-right: -6px; margin-top: 0px;">
      
      import base64
      base64_string = ... # that monster you saw above
      decoded_string = base64.b64decode(your_string)