如何在Python中为顺序数据编码伪变量，以便始终保持相同的顺序？_Python_Sequential_One Hot Encoding_Dummy Variable

如何在Python中为顺序数据编码伪变量，以便始终保持相同的顺序？

python

如何在Python中为顺序数据编码伪变量，以便始终保持相同的顺序？,python,sequential,one-hot-encoding,dummy-variable,Python,Sequential,One Hot Encoding,Dummy Variable,一个简单的问题是，我有一个数据集太大，无法保存在内存中，因此必须加载它，然后依次对其执行机器学习。我的功能之一是分类，我想将其转换为虚拟变量，但我有两个问题： 1）并非所有类别都在拼接过程中出现。因此，我想添加额外的类别，即使它们没有出现在当前切片中 2）这些列必须保持与以前相同的顺序这是问题的一个例子： In[1]: import pandas as pd splice1 = pd.Series(list('bdcccb')) Out[1]: 0 b

一个简单的问题是，我有一个数据集太大，无法保存在内存中，因此必须加载它，然后依次对其执行机器学习。我的功能之一是分类，我想将其转换为虚拟变量，但我有两个问题：

1）并非所有类别都在拼接过程中出现。因此，我想添加额外的类别，即使它们没有出现在当前切片中

2）这些列必须保持与以前相同的顺序

这是问题的一个例子：

In[1]: import pandas as pd
        splice1 = pd.Series(list('bdcccb'))
Out[1]: 0    b
        1    d
        2    c
        3    c
        4    c
        5    b 
        dtype: object

In[2]: splice2 = pd.Series(list('accd'))
Out[2]: 0    a
        1    c
        2    c
        3    d
        dtype: object

In[3]: splice1_dummy = pd.get_dummies(splice1)
Out[3]:     b   c   d
          0 1   0   0
          1 0   0   1
          2 0   1   0
          3 0   1   0
          4 0   1   0
          5 1   0   0

In[4]: splice2_dummy = pd.get_dummies(splice2)
Out[4]:     a   c   d
          0 1   0   0
          1 0   1   0
          2 0   1   0
          3 0   0   1

编辑：如何处理N-1规则。必须删除虚拟变量，但要删除哪一个？每一个新的拼接都会包含不同的分类变量。

因此，如果你按照你想要的确切顺序传递分类，那么get\u dummies将保持它。代码显示了它是如何完成的

In[1]: from pandas.api.types import CategoricalDtype

       splice1 = pd.Series(list('bdcccb'))
       splice1 = splice1.astype(CategoricalDtype(categories=['a','c','b','d']))

       splice2 = pd.Series(list('accd'))
       splice2 = splice2.astype(CategoricalDtype(categories=['a','c','b','d']))

In[2]: splice1_dummy = pd.get_dummies(splice1)
Out[2]:     a   c   b   d
        0   0   0   1   0
        1   0   0   0   1
        2   0   1   0   0
        3   0   1   0   0
        4   0   1   0   0
        5   0   0   1   0

In[3]:  splice2_dummy = pd.get_dummies(splice2)
Out[3]:     a   c   b   d
        0   1   0   0   0
        1   0   1   0   0
        2   0   1   0   0
        3   0   0   0   1

尽管如此，我仍然没有解决要删除哪个变量的问题。

因此，如果您按照所需的确切顺序传递类别，get\u dummies将保持它。代码显示了它是如何完成的

In[1]: from pandas.api.types import CategoricalDtype

       splice1 = pd.Series(list('bdcccb'))
       splice1 = splice1.astype(CategoricalDtype(categories=['a','c','b','d']))

       splice2 = pd.Series(list('accd'))
       splice2 = splice2.astype(CategoricalDtype(categories=['a','c','b','d']))

In[2]: splice1_dummy = pd.get_dummies(splice1)
Out[2]:     a   c   b   d
        0   0   0   1   0
        1   0   0   0   1
        2   0   1   0   0
        3   0   1   0   0
        4   0   1   0   0
        5   0   0   1   0

In[3]:  splice2_dummy = pd.get_dummies(splice2)
Out[3]:     a   c   b   d
        0   1   0   0   0
        1   0   1   0   0
        2   0   1   0   0
        3   0   0   0   1

尽管如此，我仍然没有解决掉哪个变量的问题。