Python 2.7 熊猫坏线警告捕捉

Python 2.7 熊猫坏线警告捕捉,python-2.7,pandas,Python 2.7,Pandas,Pandas中是否有任何方法可以捕获通过设置error\u bad\u lines=False和warn\u bad\u lines=True产生的警告?例如,以下脚本: import pandas as pd from StringIO import StringIO data = StringIO("""a,b,c 1,2,3 4,5,6 6,7,8,9

Pandas中是否有任何方法可以捕获通过设置error\u bad\u lines=False和warn\u bad\u lines=True产生的警告?例如,以下脚本:

import pandas as pd
from StringIO import StringIO
data = StringIO("""a,b,c
                   1,2,3
                   4,5,6
                   6,7,8,9
                   1,2,5
                   3,4,5""")
pd.read_csv(data, warn_bad_lines=True, error_bad_lines=False)
生成警告:

Skipping line 4: expected 3 fields, saw 4
我希望将此输出存储为字符串,以便最终将其写入日志文件,以跟踪被跳过的记录

我尝试使用警告模块,但它看起来不像是传统意义上的“警告”。我正在使用Python 2.7和Pandas 0.16


任何帮助都将不胜感激。

我认为这并没有落实到熊猫身上。
,

我的解决方案:

1。处理前或处理后

import pandas as pd
import csv      

df = pd.read_csv('data.csv', warn_bad_lines=True, error_bad_lines=False)

#compare length of rows by recommended value:
RECOMMENDED = 3

with open('data.csv') as csv_file:
    reader = csv.reader(csv_file, delimiter=',')
    for row in reader:
        if (len(row) != RECOMMENDED):
            print ("Length of row is: %r" % len(row) )
            print row

#compare length of rows by length of columns in df
lencols = len(df.columns)
print lencols

with open('data.csv') as csv_file:
    reader = csv.reader(csv_file, delimiter=',')
    for row in reader:
        if (len(row) != lencols):
            print ("Length of row is: %r" % len(row) )
            print row
2。替换系统标准输出

import pandas as pd
import os
import sys

class RedirectStdStreams(object):
    def __init__(self, stdout=None, stderr=None):
        self._stdout = stdout or sys.stdout
        self._stderr = stderr or sys.stderr

    def __enter__(self):
        self.old_stdout, self.old_stderr = sys.stdout, sys.stderr
        self.old_stdout.flush(); self.old_stderr.flush()
        sys.stdout, sys.stderr = self._stdout, self._stderr

    def __exit__(self, exc_type, exc_value, traceback):
        self._stdout.flush(); self._stderr.flush()
        sys.stdout = self.old_stdout
        sys.stderr = self.old_stderr


if __name__ == '__main__':

    devnull = open('log.txt', 'w')

    #replaces sys.stdout, sys.stderr, see http://stackoverflow.com/a/6796752/2901002
    with RedirectStdStreams(stdout=devnull, stderr=devnull):
        df = pd.read_csv('data.csv', warn_bad_lines=True, error_bad_lines=False)

我无法帮助您使用Python 3之前的版本,但我在以下方面取得了非常好的成功:

import pandas as pd
from contextlib import redirect_stderr
import io

# Redirect stderr to something we can report on.
f = io.StringIO()
with redirect_stderr(f):
    df = pd.read_csv(
        new_file_name, header=None, error_bad_lines=False, warn_bad_lines=True, dtype=header_types
    )
if f.getvalue():
    logger.warning("Had parsing errors: {}".format(f.getvalue()))

我搜索了好几次这个问题,一直被指向这个问题。希望以后能对其他人有所帮助。

谢谢!我可能会选择第二种解决方案,因为我需要迭代多个文件,不幸的是,我们使用的是这种格式。有可能打印错误行吗?你能定义
记录器吗?
?发布了一个编辑@scottlittle,将
记录器.警告
替换为
打印