Python pandas.get_dummies在处理具有不同值顺序的二维数组时会生成重复的字段名
例如,我有以下DF:缺少值的DF或具有不同长度和不同值顺序的数组在每个二维数组中 当我使用pandas.get_dummies将其转换为onehot时,我在下面的onehot矩阵中收到一个重复的列名。不接收唯一列名的解决方案是什么? 注意:我有超过1500万次观测的数据和大约35000个唯一的字段名,所以我需要一个解决方案,它也可以在我的内存中处理Python pandas.get_dummies在处理具有不同值顺序的二维数组时会生成重复的字段名,python,arrays,pandas,duplicates,Python,Arrays,Pandas,Duplicates,例如,我有以下DF:缺少值的DF或具有不同长度和不同值顺序的数组在每个二维数组中 当我使用pandas.get_dummies将其转换为onehot时,我在下面的onehot矩阵中收到一个重复的列名。不接收唯一列名的解决方案是什么? 注意:我有超过1500万次观测的数据和大约35000个唯一的字段名,所以我需要一个解决方案,它也可以在我的内存中处理 pd.get_假人(pd.DataFrame(path_id[0:10]),前缀='path_u') 我试图提供“columns”参数来提供
pd.get_假人(pd.DataFrame(path_id[0:10]),前缀='path_u')
我试图提供“columns”参数来提供唯一的列名。
我也尝试过在小批量上创建它们,但它也不起作用,因为在每个小批量中,它都会生成不同的列名“重复的一个或缺少的一个”,并且它不能用不同的列或列名追加或合并两个生成的DF
tensorflow onehot也不适合我