Python 刮痧蜘蛛：它是怎么工作的？_Python_Web Crawler_Scrapy

Python 刮痧蜘蛛：它是怎么工作的？

python web-crawler scrapy

Python 刮痧蜘蛛：它是怎么工作的？,python,web-crawler,scrapy,Python,Web Crawler,Scrapy,这是Scrapy教程中的BaseSpider示例： from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from dmoz.items import DmozItem class DmozSpider(BaseSpider): domain_name = "dmoz.org" start_urls = [ "http://www.dmoz.org/Com

这是Scrapy教程中的BaseSpider示例：

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector

from dmoz.items import DmozItem

class DmozSpider(BaseSpider):
   domain_name = "dmoz.org"
   start_urls = [
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
   ]

   def parse(self, response):
       hxs = HtmlXPathSelector(response)
       sites = hxs.select('//ul[2]/li')
       items = []
       for site in sites:
           item = DmozItem()
           item['title'] = site.select('a/text()').extract()
           item['link'] = site.select('a/@href').extract()
           item['desc'] = site.select('text()').extract()
           items.append(item)
       return items

SPIDER = DmozSpider()

我复制了它，并对我的项目进行了更改：

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from firm.items import FirmItem

class Spider1(CrawlSpider):
    domain_name = 'wc2'
    start_urls = ['http://www.whitecase.com/Attorneys/List.aspx?LastName=A']

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        sites = hxs.select('//td[@class="altRow"][1]/a/@href').re('/.a\w+')
        items = []
        for site in sites:
            item = FirmItem
            item['school'] = hxs.select('//td[@class="mainColumnTDa"]').re('(JD)(.*?)(\d+)')
            items.append(item)
        return items

SPIDER = Spider1()

我得到了错误

[wc2] ERROR: Spider exception caught while processing   
<http://www.whitecase.com/Attorneys/List.aspx?LastName=A> (referer: <None>): 
[Failure instance: Traceback: <type 'exceptions.TypeError'>: 
'ItemMeta' object does not support item assignment

[wc2]错误：处理时捕获到爬行器异常
（参考资料：）：
[失败实例：回溯：：
“ItemMeta”对象不支持项分配

如果这里的专家能看一下代码，给我一个关于哪里出错的线索，我将不胜感激

谢谢

您的意思可能是

item=FirmItem（）

而不是

item=FirmItem

？

请注意，如果使用ItemLoader，您会遇到相同的错误（参数item是item实例，而不是item类）