Python 3.x Splash:将截图元数据收集为项目
我正在用它截图一个网页,输出一个带有元数据的png。我知道scrapy引擎执行的所有操作都带有时间戳等,但在确定如何在我的爬行器中访问这些信息并将其传递到项目中时遇到了困难。任何建议或提示都将不胜感激 所需元数据:1)目标站点IP;2) 页面加载时的时间戳(UTC);3) 页面捕获时的时间戳(UTC)Python 3.x Splash:将截图元数据收集为项目,python-3.x,scrapy,screen-capture,scrapy-splash,splash-js-render,Python 3.x,Scrapy,Screen Capture,Scrapy Splash,Splash Js Render,我正在用它截图一个网页,输出一个带有元数据的png。我知道scrapy引擎执行的所有操作都带有时间戳等,但在确定如何在我的爬行器中访问这些信息并将其传递到项目中时遇到了困难。任何建议或提示都将不胜感激 所需元数据:1)目标站点IP;2) 页面加载时的时间戳(UTC);3) 页面捕获时的时间戳(UTC) import json import base64 import scrapy from scrapy_splash import SplashRequest from project_spide
import json
import base64
import scrapy
from scrapy_splash import SplashRequest
from project_spider.screenshot_format import PDF
class screenshot(scrapy.Spider):
name = 'screenshot'
def start_requests(self):
url = 'http://www.gxjjw.gov.cn/staticpages/20171109/gxjjw5a03a8bc-
128325.shtml'
splash_args = {
'wait': 3.0,
'html': 1,
'png': 1,
'width': 600,
'render_all': 1,
'wait': 3.0,
}
yield SplashRequest(url, self.parse_result, endpoint='render.json',
args=splash_args)
def parse_result(self, response):
png_b64 = response.data['png']
header = 'data:image/png;base64,'
png_b64 = header + png_b64
# Meta-data variables will go here