Python 处理具有多个值的列以进行数据分析

Python 处理具有多个值的列以进行数据分析,python,pandas,data-science,Python,Pandas,Data Science,我有一个以“流派”为列的数据框架。在此列中,每个条目都有多个值。例如,一部电影《哈利·波特》的类型栏中可能会有幻想、冒险。在我进行数据分析和探索时,我不知道如何用多个值来表示本专栏,以显示电影和/或流派之间的任何关系 我想用图表分析来表示关系,但我想探索其他的方法我可以考虑, < p>你可以用新的指示栏: df = pd.DataFrame({'Movies': ['Harry Potter', 'Toy Story'], 'Genres': ['fanta

我有一个以“流派”为列的数据框架。在此列中,每个条目都有多个值。例如,一部电影《哈利·波特》的类型栏中可能会有幻想、冒险。在我进行数据分析和探索时,我不知道如何用多个值来表示本专栏,以显示电影和/或流派之间的任何关系

我想用图表分析来表示关系,但我想探索其他的方法我可以考虑,

< p>你可以用新的指示栏:
df = pd.DataFrame({'Movies': ['Harry Potter', 'Toy Story'],
                   'Genres': ['fantasy,adventure', 
                              'adventure,animation,children,comedy,fantasy']})

#print (df)


df = df.set_index('Movies')['Genres'].str.get_dummies(',')
print (df)
              adventure  animation  children  comedy  fantasy
Movies                                                       
Harry Potter          1          0         0       0        1
Toy Story             1          1         1       1        1
您可以按类型为新的指示符列使用:

df = pd.DataFrame({'Movies': ['Harry Potter', 'Toy Story'],
                   'Genres': ['fantasy,adventure', 
                              'adventure,animation,children,comedy,fantasy']})

#print (df)


df = df.set_index('Movies')['Genres'].str.get_dummies(',')
print (df)
              adventure  animation  children  comedy  fantasy
Movies                                                       
Harry Potter          1          0         0       0        1
Toy Story             1          1         1       1        1

如果您能够提供一小部分数据样本和一些所需的输出,您的问题将得到很大改进。不幸的是,我们无法决定哪种方法最适合您的需要。这是基于观点的,高度依赖于你的目标。我完全同意你的观点。在这一点上,我想征求该领域专家的意见,以接近这个数据集。耶兹雷尔提供了一个很好的数据样本。谢谢@jezrael。如果您能够提供一小部分数据样本和一些所需的输出,您的问题将得到很大改进。不幸的是,我们无法决定哪种方法最适合您的需要。这是基于观点的,高度依赖于你的目标。我完全同意你的观点。在这一点上,我想征求该领域专家的意见,以接近这个数据集。耶兹雷尔提供了一个很好的数据样本。谢谢@jezrael。谢谢@jezrael的回答。也许,我应该包括我确实考虑过这个方法。然而,我想不出我怎样才能想象出每部电影类型之间的关系。我考虑了所有电影的x轴,以及每种类型的彩色编码点,但y会是什么?@Zoozoo-不太容易,但正在努力。@Zoozoo-我想需要这些@Zoozoo-但它仍然取决于电影的数量,如果数据较大,则速度较慢或其他性能问题。谢谢@jezrael的回答。也许,我应该包括我确实考虑过这个方法。然而,我想不出我怎样才能想象出每部电影类型之间的关系。我考虑了所有电影的x轴,以及每种类型的彩色编码点,但y是什么?@Zoozoo-不太容易,但正在努力。@Zoozoo-我认为需要这些@Zoozoo-但它仍然取决于电影的数量,如果数据较大,则速度较慢或其他性能问题。