Python Scrapy:覆盖上一个导出文件的命令
设置 我通过终端(Mac OS)中的标准命令将数据导出到.csv文件,例如Python Scrapy:覆盖上一个导出文件的命令,python,scrapy,export,overwrite,Python,Scrapy,Export,Overwrite,设置 我通过终端(Mac OS)中的标准命令将数据导出到.csv文件,例如 问题 导出新的spider_output.csvScrapy时,会将其附加到现有的spider_output.csv 我可以想出两个解决办法 命令Scrapy覆盖而不是追加 命令终端在爬行之前删除现有的spider_output.csv 我读过(让我惊讶的是)Scrapy现在要做1。有些人向我求婚了,但我似乎无法上班 我已找到解决方案2,但也无法使其工作 有人能帮我吗?也许还有第三种解决方案我还没有想到?对于此功能,s
问题 导出新的
spider_output.csv
Scrapy时,会将其附加到现有的spider_output.csv
我可以想出两个解决办法
spider_output.csv
有人能帮我吗?也许还有第三种解决方案我还没有想到?对于此功能,scrapy存在一个公开问题: 问题线程中提出了一些解决方案:
scrapy runspider spider.py -t json --nolog -o - > out.json
或者在运行scrapy spider之前删除输出:
rm data.jl; scrapy crawl myspider -o data.jl
选项
-t
定义json、csv等文件格式
选项-o FILE
将刮取的项目转储到文件中(使用stdout的-
)
>filename
将输出管道传输到filename
覆盖上一个导出文件得到的结果:
替换输出文件而不是追加:
爬行爬行爬行器-t csv-o->spider.csv
或对于json格式:
scrapy crawl spider-t json-o->spider.json
谢谢你的回答。我尝试过删除您的行,效果很好!:)@很好,如果它回答了你的问题,别忘了点击答案左边的“接受答案”按钮。
rm data.jl; scrapy crawl myspider -o data.jl