Python 刮痧爬虫不';不要跟随链接
我在试图弄清楚为什么我的辅助函数无法完成新链接,然后输出数据时遇到了一些问题。Python 刮痧爬虫不';不要跟随链接,python,html,scrapy,Python,Html,Scrapy,我在试图弄清楚为什么我的辅助函数无法完成新链接,然后输出数据时遇到了一些问题。parse函数工作正常。当它调用parse_puppy时,什么也不会发生。当我检查json输出时,我看到puppy中的所有内容都被成功抓取,但是parse\u puppy中没有任何内容 在第28行,如果我将方法更改为follow,我会得到结果,但结果大约是相同的十几次 代码: 错误: ERROR: Spider must return Request, BaseItem, dict or None, got 'gene
parse
函数工作正常。当它调用parse_puppy
时,什么也不会发生。当我检查json输出时,我看到puppy
中的所有内容都被成功抓取,但是parse\u puppy
中没有任何内容
在第28行,如果我将方法更改为follow
,我会得到结果,但结果大约是相同的十几次
代码:
错误:
ERROR: Spider must return Request, BaseItem, dict or None, got 'generator' in <GET https://ws.petango.com/webservices/adoptablesearch/wsAdoptableAnimals.aspx?species=Dog&gender=A&agegroup=UnderYear&location=&site=&onhold=A&orderby=name&colnum=3&css=http://ws.petango.com/WebServices/adoptablesearch/css/styles.css&authkey=io53xfw8b0k2ocet3yb83666507n2168taf513lkxrqe681kf8&recAmount=&detailsInPopup=No&featuredPet=Include&stageID=&wmode=opaque>
错误:Spider必须返回请求、BaseItem、dict或None,并在中获取“generator”
该行应为
yield from response.follow_all(detail_page, callback=self.parse_puppy)
谢谢你!我已经更新了那一行,并且已经消除了错误,但是我仍然无法从下一页获得结果。我尝试了几件事,因为我注意到在执行GET-on
detail\u页面时,我得到了一个404。我将来自puppy_link
的结果与域和目录连接起来,并更新了第二个函数,以便在调用消息时记录消息,而不是。有什么想法吗?
yield from response.follow_all(detail_page, callback=self.parse_puppy)