Python csv中存在不匹配的行_Python_Scrapy_Iteration

Python csv中存在不匹配的行

python scrapy

Python csv中存在不匹配的行,python,scrapy,iteration,Python,Scrapy,Iteration,我成功地编写了这个爬行器，用于在此页面中刮表，但问题是当媒体url中有重复的br br以下行时，输出csv中的媒体名称列不匹配，我如何修复此问题 import scrapy from ..items import AbyzItem import itertools from itertools import zip_longest class AbyzrowbyrowSpider(scrapy.Spider): name = 'abyz3' allowed_domains = [

我成功地编写了这个爬行器，用于在此页面中刮表，但问题是当媒体url中有重复的br br以下行时，输出csv中的媒体名称列不匹配，我如何修复此问题

import scrapy
from ..items import AbyzItem
import itertools
from itertools import zip_longest
class AbyzrowbyrowSpider(scrapy.Spider):
    name = 'abyz3'
    allowed_domains = ['abyznewslinks.com']
    start_urls = ['http://www.abyznewslinks.com/argen.htm']

    def parse(self, response):
        for row in response.xpath("(//div)[position()>5 and position()<last()]//table//tr[not(descendant-or-self::b)]"):
            country=response.xpath("/html/body/div[3]/table//td//font/text()[last()]").getall()
            continent=response.xpath("/html/body/div[3]//a[2]/text()").getall()
            region=response.xpath("/html/body/div[3]//a[3]/text()").getall()
            country_region= row.xpath("td[1]/font/text()").getall()
            media_url= row.xpath("td[2]/font/a/@href").getall()
            media_name = row.xpath("td[2]/font/a/text()").getall()
            media_type = row.xpath("td[3]/font/text()").getall()
            media_focus = row.xpath("td[4]/font/text()").getall()
            language = row.xpath("td[5]/font/text()").getall()
            media_format = row.xpath("td[6]/font/text()").getall()
            list_list=[country_region,media_name,media_url,media_type,media_focus,language,media_format]
            results=[list(row) for row in zip_longest(*list_list,fillvalue='')]
            for country_region,media_name,media_url,media_type,media_focus,language,media_format in results:
                item=AbyzItem()
                item['country_region'] = country_region
                item['media_url'] = media_url
                item['media_name'] = media_name
                item['media_type'] = media_type
                item['media_focus'] = media_focus
                item['language'] = language
                item['media_format'] = media_format
                yield item

import scrapy
从..项目导入AbyzItem
进口itertools
从itertools导入zip\u
AbyzrowbyrowSpider类（刮毛蜘蛛）：
名称='abyz3'
允许的_域=['abyznewslinks.com']
起始URL=['http://www.abyznewslinks.com/argen.htm']
def解析（自我，响应）：
对于response.xpath（“（//div）[position（）>5和position（），请使用询问此类问题。请参阅。