Python 如何检查Scrapy Image Pipeline是否使用代理下载图像?
我已经建立了一个刮板,并想下载一些图像使用代理在scrapy。我不知道它是否真的是通过代理下载的。响应头不显示IP。此外,如果我将IP更改为随机IP,它仍会下载图像。 如何确保使用代理下载图像? 谢谢 管道。pyPython 如何检查Scrapy Image Pipeline是否使用代理下载图像?,python,proxy,scrapy,web-crawler,scrapy-pipeline,Python,Proxy,Scrapy,Web Crawler,Scrapy Pipeline,我已经建立了一个刮板,并想下载一些图像使用代理在scrapy。我不知道它是否真的是通过代理下载的。响应头不显示IP。此外,如果我将IP更改为随机IP,它仍会下载图像。 如何确保使用代理下载图像? 谢谢 管道。py import scrapy from scrapy.pipelines.images import ImagesPipeline from scrapy.exceptions import DropItem class MyImagesPipeline(ImagesPipeline)
import scrapy
from scrapy.pipelines.images import ImagesPipeline
from scrapy.exceptions import DropItem
class MyImagesPipeline(ImagesPipeline):
def get_media_requests(self, item, info):
meta = {'proxy': 'http://23.323.44.22:11111/'}
for image_url in item['image_urls']:
yield scrapy.Request(image_url,meta=meta)
ITEM_PIPELINES = {'myproject.pipelines.MyImagesPipeline': 1}
设置.py
import scrapy
from scrapy.pipelines.images import ImagesPipeline
from scrapy.exceptions import DropItem
class MyImagesPipeline(ImagesPipeline):
def get_media_requests(self, item, info):
meta = {'proxy': 'http://23.323.44.22:11111/'}
for image_url in item['image_urls']:
yield scrapy.Request(image_url,meta=meta)
ITEM_PIPELINES = {'myproject.pipelines.MyImagesPipeline': 1}
如果下载使用随机IP,则不使用代理 报告说: “您还可以将每个请求的元键
代理设置为http://some_proxy_server:port
。也许代理url末尾的“/”会混淆Scrapy
为了确保使用了代理,我会在代理IP上使用和筛选。如果您看到它的IP流量,很可能它被使用了。a如何?谢谢,我会尝试并报告。