Python 熊猫：重塑数据_Python_Pandas_Categories_Vectorization

Python 熊猫：重塑数据

python pandas

Python 熊猫：重塑数据,python,pandas,categories,vectorization,Python,Pandas,Categories,Vectorization,我有一个熊猫系列，目前看起来像这样： 14 [Yellow, Pizza, Restaurants] ... 160920 [Automotive, Auto Parts & Supplies] 160921 [Lighting Fixtures & Equipment, Home Services] 160922 [Food, Pizza, Candy Stores] 160923

我有一个熊猫系列，目前看起来像这样：

14    [Yellow, Pizza, Restaurants]
...
160920                  [Automotive, Auto Parts & Supplies]
160921       [Lighting Fixtures & Equipment, Home Services]
160922                 [Food, Pizza, Candy Stores]
160923           [Hair Removal, Nail Salons, Beauty & Spas]
160924           [Hair Removal, Nail Salons, Beauty & Spas]

我想从根本上把它改造成一个看起来像这样的数据框架

      Yellow  Automotive  Pizza
14       1         0        1
…           
160920   0         1        0
160921   0         0        0
160922   0         0        1
160923   0         0        0
160924   0         0        0

即，一种逻辑结构，说明每个观察（行）属于哪一类

我能够编写基于循环的代码来解决这个问题，但是考虑到我需要处理大量的行，这将非常缓慢

有人知道这类问题的矢量化解决方案吗？我将非常感激

编辑：共有509个类别，我确实有一个列表。

先生，这非常非常聪明。祝贺您获得金牌！你能解释一下这是怎么回事吗？当我查看创建的单个序列时，例如序列（1，index=s[1]），序列索引是列表中的字母（正如我所期望的）。但s.apply（）会生成一个以系列索引作为列的数据帧。pivot是如何发生的？当apply的结果返回时，会有一些推断。例如，如果返回标量，则返回一个序列，这里的形状是“向上投射”到数据帧。

In [9]: s = Series([list('ABC'),list('DEF'),list('ABEF')])

In [10]: s
Out[10]: 
0       [A, B, C]
1       [D, E, F]
2    [A, B, E, F]
dtype: object

In [11]: s.apply(lambda x: Series(1,index=x)).fillna(0)
Out[11]: 
   A  B  C  D  E  F
0  1  1  1  0  0  0
1  0  0  0  1  1  1
2  1  1  0  0  1  1