Python urllib.error.HTTPError:HTTP错误400:尝试获取一组图像的请求不正确_Python

Python urllib.error.HTTPError:HTTP错误400:尝试获取一组图像的请求不正确

python

Python urllib.error.HTTPError:HTTP错误400:尝试获取一组图像的请求不正确,python,Python,我试图为数据集获取一组图像来训练tiny yolo，所以我遵循了本教程本教程中编写的第一个文件如下所示： import os import urllib.request as ulib from bs4 import BeautifulSoup as Soup import json url_a = 'https://www.google.com/search?ei=1m7NWePfFYaGmQG51q7IBg&hl=en&q={}' url_b = '\&tbm=

我试图为数据集获取一组图像来训练tiny yolo，所以我遵循了本教程

本教程中编写的第一个文件如下所示：

import os
import urllib.request as ulib
from bs4 import BeautifulSoup as Soup
import json

url_a = 'https://www.google.com/search?ei=1m7NWePfFYaGmQG51q7IBg&hl=en&q={}'
url_b = '\&tbm=isch&ved=0ahUKEwjjovnD7sjWAhUGQyYKHTmrC2kQuT0I7gEoAQ&start={}'
url_c = '\&yv=2&vet=10ahUKEwjjovnD7sjWAhUGQyYKHTmrC2kQuT0I7gEoAQ.1m7NWePfFYaGmQG51q7IBg'
url_d = '\.i&ijn=1&asearch=ichunk&async=_id:rg_s,_pms:s'
url_base = ''.join((url_a, url_b, url_c, url_d))

headers = {'User-Agent': 'Chrome/67.0.3396.99 Safari/537.36'}


def get_links(search_name):
    search_name = search_name.replace(' ', '+')
    url = url_base.format(search_name, 0)
    request = ulib.Request(url, None, headers)
    json_string = ulib.urlopen(request).read()
    page = json.loads(json_string)
    new_soup = Soup(page[1][1], 'lxml')
    images = new_soup.find_all('img')
    links = [image['src'] for image in images]
    return links


def save_images(links, search_name):
    directory = search_name.replace(' ', '_')
    if not os.path.isdir(directory):
        os.mkdir(directory)

    for i, link in enumerate(links):
        savepath = os.path.join(directory, '{:06}.png'.format(i))
        ulib.urlretrieve(link, savepath)


if __name__ == '__main__':
    search_name = 'my search query'
    links = get_links(search_name)
    save_images(links, search_name)

我唯一更改的是headers变量，因为我的用户代理与教程中的那个不同

令我惊讶的是，脚本返回了这个错误

urllib.error.HTTPError: HTTP Error 400: Bad Request

谁能告诉我怎么了

错误代码本身解释了问题
您正在尝试点击不存在的URL

请更正您的URL

URL:-

https://www.google.com/search?ei=1m7NWePfFYaGmQG51q7IBg&hl=en&q=my+搜索+查询\\&tbm=isch&ved=0ahUKEwjjovnD7sjWAhUGQyYKHTmrC2kQuT0I7gEoAQ&start=0\\&yv=2&vet=10ahUKEwjjovnD7sjWAhUGQyYKHTmrC2kQuT0I7gEoAQ.1m7nwepfyagmqg51q7ibg\\.i&ijjn=1&asearch=ichunk&async=\id:rg\u\s，\u pms:s%27

在浏览器上试试，看看你会得到什么。

这些反斜杠看起来不属于URL-为什么你认为你需要它们？看起来

URL\u a

和

URL\u b

可能需要格式化字符串；您在格式化中使用了大括号

{}

，但没有在其中输入值。对于这些查询的URL，您可能希望在其中添加某种值。还有，为什么要用反斜杠？URL中的反斜杠形式不正确（来源：）