Python 可读性IXML xpath不起作用
当我通过可读性和scrapy阅读一些项目时,我试图检索它们。我编写了以下代码:Python 可读性IXML xpath不起作用,python,scrapy,Python,Scrapy,当我通过可读性和scrapy阅读一些项目时,我试图检索它们。我编写了以下代码: titles = response.xpath("//a[@class='media__link']").extract() #titles = response.xpath('//a/@href').extract() print ("%d links was found" %len(titles)) count=0 for title in titles: item
titles = response.xpath("//a[@class='media__link']").extract()
#titles = response.xpath('//a/@href').extract()
print ("%d links was found" %len(titles))
count=0
for title in titles:
item = TutsplusItem()
item["title"] = title
print("Title is : %s" %title)
yield item
titleInner = Document(title)
link = titleInner.xpath("//a/@href")
link = "http://www.bbc.com" + link
response = requests.get(link)
doc = Document(response)
title=doc.xpath("//title/text()")
headline=doc.xpath("//p[@class='story-body__introduction']/text()")
bodyText=doc.xpath("//div[class='story-body__inner']/text()")
但是,我在这一行的可读性文档上运行xpath时出错:
link = titleInner.xpath("//a/@href)
错误是:
回溯(最近一次呼叫最后一次):iter\u errback中的文件“c:\python27\lib\site packages\scrapy-1.3.1-py2.7.egg\scrapy\utils\defer.py”,第102行
下一步收益率(it)
文件“c:\python27\lib\site packages\scrapy-1.3.1-py2.7.egg\scrapy\spidermiddleware\offsite.py”,第29行,进程中\u spider\u输出
对于结果中的x:
文件“c:\python27\lib\site packages\scrapy-1.3.1-py2.7.egg\scrapy\spidermiddleware\referer.py”,第22行,在
返回(_set_referer(r)表示结果中的r或())
文件“c:\python27\lib\site packages\scrapy-1.3.1-py2.7.egg\scrapy\spidermiddleware\urlength.py”,第37行,在
返回(r表示结果中的r,或()表示过滤器(r))
文件“c:\python27\lib\site packages\scrapy-1.3.1-py2.7.egg\scrapy\spidermiddleware\depth.py”,第58行,在
返回(r表示结果中的r,或()表示过滤器(r))
文件“C:\Users\Mehdi\PycharmProjects\WebCrawler\src\Crawler.py”,第69行,在parse中
link=titleInner.xpath(“//a/@href”)
TypeError:无法序列化类型“”
我不知道问题出在哪里?我在避免可读性,而使用LXML 有什么提示吗?我正在使用Python