Pandas 从多个DICT创建数据帧

Pandas 从多个DICT创建数据帧,pandas,Pandas,我刚接触熊猫,这是我关于stackoverflow的第一个问题,我正在尝试对熊猫做一些分析 我有一些带有数据记录的文本文件要处理。文件的每一行都与一条记录相匹配,该记录中的字段位于固定位置,长度为固定字符数。同一文件上有不同类型的记录,所有记录共享第一个字段,该字段是两个字符,具体取决于记录的类型。例如: Some file: 01Jhon Smith 555-1234 03Cow

我刚接触熊猫,这是我关于stackoverflow的第一个问题,我正在尝试对熊猫做一些分析

我有一些带有数据记录的文本文件要处理。文件的每一行都与一条记录相匹配,该记录中的字段位于固定位置,长度为固定字符数。同一文件上有不同类型的记录,所有记录共享第一个字段,该字段是两个字符,具体取决于记录的类型。例如:

Some file:
01Jhon      Smith     555-1234                                        
03Cow            Bos primigenius taurus        00401                  
01Jannette  Jhonson           00100000000                             
...


field    start  length   
type         1       2   *common to all records, example: 01 = person, 03 = animal
name         3      10
surname     13      10
phone       23       8
credit      31      11
fill of spaces
我正在编写一些代码将一条记录转换为字典:

person1 = {'type': 01, 'name': = 'Jhon', 'surname': = 'Smith', 'phone': '555-1234'}
person2 = {'type': 01, 'name': 'Jannette', 'surname': 'Jhonson', 'credit': 1000000.00}
animal1 = {'type': 03, 'cname': 'cow', 'sciname': 'Bos....', 'legs': 4, 'tails': 1 }
如果某个字段为空(用空格填充),则字典中不会有空格)

对于一种类型的所有记录,我想创建一个以dicts键作为列名的pandas数据框,我尝试了pandas.DataFrame.from_dict()但没有成功


我的问题来了:有没有办法用pandas做到这一点,让dict键变成列名?处理此类文件还有其他标准方法吗?

要从字典生成数据帧,可以传递字典列表:

>>> person1 = {'type': 01, 'name': 'Jhon', 'surname': 'Smith', 'phone': '555-1234'}
>>> person2 = {'type': 01, 'name': 'Jannette', 'surname': 'Jhonson', 'credit': 1000000.00}
>>> animal1 = {'type': 03, 'cname': 'cow', 'sciname': 'Bos....', 'legs': 4, 'tails': 1 }
>>> pd.DataFrame([person1])
   name     phone surname  type
0  Jhon  555-1234   Smith     1
>>> pd.DataFrame([person1, person2])
    credit      name     phone  surname  type
0      NaN      Jhon  555-1234    Smith     1
1  1000000  Jannette       NaN  Jhonson     1
>>> pd.DataFrame.from_dict([person1, person2])
    credit      name     phone  surname  type
0      NaN      Jhon  555-1234    Smith     1
1  1000000  Jannette       NaN  Jhonson     1
对于两个不同格式的文件混合的更基本的问题,假设文件不是太大以至于我们无法读取它们并将它们存储在内存中,我会使用
StringIO
创建一个类似于文件但只有我们想要的行的对象,然后使用
read\u fwf
(固定宽度文件)。例如:

from StringIO import StringIO

def get_filelike_object(filename, line_prefix):
    s = StringIO()
    with open(filename, "r") as fp:
        for line in fp:
            if line.startswith(line_prefix):
                s.write(line)
    s.seek(0)
    return s
然后

>>> type01 = get_filelike_object("animal.dat", "01")
>>> df = pd.read_fwf(type01, names="type name surname phone credit".split(), 
                     widths=[2, 10, 10, 8, 11], header=None)
>>> df
   type      name  surname     phone     credit
0     1      Jhon    Smith  555-1234        NaN
1     1  Jannette  Jhonson       NaN  100000000

应该有用。当然,您也可以在熊猫看到文件之前将文件分成不同的类型,这可能是最简单的。

谢谢,dict列表是关键。文件经过数百Mbs gzip压缩和数Gbs未压缩,因此将逐行读取并附加到相应的数据帧中。请特别参阅链接副本