Python 如何从硬编码的url中获取经过解析的scrapy格式的html_Python_Urllib2_Scrapy

Python 如何从硬编码的url中获取经过解析的scrapy格式的html

python scrapy

Python 如何从硬编码的url中获取经过解析的scrapy格式的html,python,urllib2,scrapy,Python,Urllib2,Scrapy,在我的scrapy中，我只希望html响应包含在自定义url的变量中假设我有网址 url = "http://www.example.com" 现在我想获取该页面的html进行解析 pageHtml = scrapy.get(url) 我想要这样的东西 page = urllib2.urlopen('http://yahoo.com').read() 我不能在我的爬虫程序中使用上述行的唯一问题是，因为我的会话已经由scrapy进行了身份验证，所以我不能使用任何其他函数来获取该函数的htm

在我的scrapy中，我只希望html响应包含在自定义url的变量中

假设我有网址

url = "http://www.example.com"

现在我想获取该页面的html进行解析

pageHtml = scrapy.get(url)

我想要这样的东西

page = urllib2.urlopen('http://yahoo.com').read()

我不能在我的爬虫程序中使用上述行的唯一问题是，因为我的会话已经由scrapy进行了身份验证，所以我不能使用任何其他函数来获取该函数的html

我不希望在任何回调中得到响应，只希望直接在变量内部进行响应。基本上，您只需要添加相关的导入，就可以让问题中的代码正常工作。您还需要添加一个

链接

变量，该变量已在该示例代码中使用，但未定义

import httplib
from scrapy.spider import BaseSpider
from scrapy.http import TextResponse

bs = BaseSpider('some')
# etc

基本上，您只需要为该问题中的代码添加相关的导入即可。您还需要添加一个

链接

变量，该变量已在该示例代码中使用，但未定义

import httplib
from scrapy.spider import BaseSpider
from scrapy.http import TextResponse

bs = BaseSpider('some')
# etc

你好请向我们展示您目前的爬行器代码，以及您希望访问页面HTML的部分，我相信有人会乐意提供帮助。我还没有完整的爬行器代码，但我想知道这家伙说了什么，但我不明白他的答案嗨！请向我们展示您目前的爬行器代码以及您希望访问页面HTML的部分，我相信有人会乐意提供帮助。我还没有完整的爬行器代码，但我想知道这家伙说了什么，但如果这无助于回答张贴的问题，我不理解他的答案，那么请让我知道如何改进我的答案以更好地帮助我。：）很抱歉延迟回复。我想知道，如果我使用TextResponse，会话将仍然使用与请求相同的身份验证，并将发送cookie。或者这个url将是单独的，如果该页面位于登录系统后面，那么我将被重定向到登录page@Talvalin：re:nik-v的代码（在提问者提到的问题中）-如果您可以使用nik-v的工作编辑来编辑您的上述示例，将不胜感激。我一直在尝试，但到目前为止运气不佳。如果这无助于回答张贴的问题，请告诉我如何改进我的答案以更好地帮助我。：）很抱歉延迟回复。我想知道，如果我使用TextResponse，会话将仍然使用与请求相同的身份验证，并将发送cookie。或者这个url将是单独的，如果该页面位于登录系统后面，那么我将被重定向到登录page@Talvalin：re:nik-v的代码（在提问者提到的问题中）-如果您可以使用nik-v的工作编辑来编辑您的上述示例，将不胜感激。我一直在努力，但到目前为止运气不好。