Python 熊猫:重塑数据
我有一个熊猫系列,目前看起来像这样:Python 熊猫:重塑数据,python,pandas,categories,vectorization,Python,Pandas,Categories,Vectorization,我有一个熊猫系列,目前看起来像这样: 14 [Yellow, Pizza, Restaurants] ... 160920 [Automotive, Auto Parts & Supplies] 160921 [Lighting Fixtures & Equipment, Home Services] 160922 [Food, Pizza, Candy Stores] 160923
14 [Yellow, Pizza, Restaurants]
...
160920 [Automotive, Auto Parts & Supplies]
160921 [Lighting Fixtures & Equipment, Home Services]
160922 [Food, Pizza, Candy Stores]
160923 [Hair Removal, Nail Salons, Beauty & Spas]
160924 [Hair Removal, Nail Salons, Beauty & Spas]
我想从根本上把它改造成一个看起来像这样的数据框架
Yellow Automotive Pizza
14 1 0 1
…
160920 0 1 0
160921 0 0 0
160922 0 0 1
160923 0 0 0
160924 0 0 0
即,一种逻辑结构,说明每个观察(行)属于哪一类
我能够编写基于循环的代码来解决这个问题,但是考虑到我需要处理大量的行,这将非常缓慢
有人知道这类问题的矢量化解决方案吗?我将非常感激
编辑:共有509个类别,我确实有一个列表。先生,这非常非常聪明。祝贺您获得金牌!你能解释一下这是怎么回事吗?当我查看创建的单个序列时,例如序列(1,index=s[1]),序列索引是列表中的字母(正如我所期望的)。但s.apply()会生成一个以系列索引作为列的数据帧。pivot是如何发生的?当apply的结果返回时,会有一些推断。例如,如果返回标量,则返回一个序列,这里的形状是“向上投射”到数据帧。
In [9]: s = Series([list('ABC'),list('DEF'),list('ABEF')])
In [10]: s
Out[10]:
0 [A, B, C]
1 [D, E, F]
2 [A, B, E, F]
dtype: object
In [11]: s.apply(lambda x: Series(1,index=x)).fillna(0)
Out[11]:
A B C D E F
0 1 1 1 0 0 0
1 0 0 0 1 1 1
2 1 1 0 0 1 1