Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/77.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 刮痧:';返回';纯文本到项目(字段)_Python_Html_Beautifulsoup_Scrapy - Fatal编程技术网

Python 刮痧:';返回';纯文本到项目(字段)

Python 刮痧:';返回';纯文本到项目(字段),python,html,beautifulsoup,scrapy,Python,Html,Beautifulsoup,Scrapy,我正在刮地。控制台上的所有字段都正确地“返回”,带有常见的HTML标记。我需要将这些字段通过管道传输到CSV文件(CSViteExporter)。如果我尝试将html响应放入临时寄存器中,并在第二步分配给item字段时应用converter操作,则会得到一组单独的错误消息 我尝试了BeautifulSoup get_text和html2text中的解决方案,如和。其中的解决方案“打印”良好,但无法分配到相应的字段 响应函数(converter(response+extract))上的任何转换器操

我正在刮地。控制台上的所有字段都正确地“返回”,带有常见的HTML标记。我需要将这些字段通过管道传输到CSV文件(CSViteExporter)。如果我尝试将html响应放入临时寄存器中,并在第二步分配给item字段时应用converter操作,则会得到一组单独的错误消息

我尝试了BeautifulSoup get_text和html2text中的解决方案,如和。其中的解决方案“打印”良好,但无法分配到相应的字段

响应函数(converter(response+extract))上的任何转换器操作都会导致错误,例如“str对象没有属性‘get_text’”(html2text)或返回插入了随机\r\n项的文本(BeautifulSoup)。
我怀疑这是因为原始文本中的硬CRs,原始作者可能为了保持内容一致而使用了硬CRs。我该如何避开这个问题?Win 32上的Python 2.7。

请发布用于获取错误的特定字段html。@Vikas:以下是相关日志:调试:从{'q_date':[u'30.04.2015'],'q_house':u'LOK SABHA','q_main':u'(a)中刮取各邦电力委员会和电力公司对印度煤炭有限公司及其子公司向其供应的煤炭是否有巨额欠款;\r\n\r\n,“q_部”:[u'coal'],“q_名称”:[u'Poddar Smt.Aparupa'],“q_编号”:[u'6107'],“q_主题”:[u'未付税费'],“q_类型”:[u'UNSTARRED']请注意\r\n字段q_main。这是另一页的日志:从{'q_date':[u'08.05.2015'],'q_house':u'LOK SABHA','q_main':u'(a)政府是否已经通知了电视收视率的全面监管框架;',}结束,这是源html(文本):(a)政府是否已通知电视评级机构一个全面的监管框架;证实了我对源文本中存在硬回车(格式错误的html)的怀疑。如何处理?(a) 政府是否已通知电视评级机构一个全面的监管框架;