Python 大熊猫:相似性分组
目前我有这样的数据:Python 大熊猫:相似性分组,python,pandas,Python,Pandas,目前我有这样的数据: Item Properties A C001 A C002 A C003 B C001 B C003 C C001 我想把这些项目组合成这样的东西 A C001, C002, C003 B C001, C003 C C001 然后,我想根据属性相似性匹配这些项目: A B 2 A C 1 B C 1 如何使用pandas修改此数据帧?我确实使用了groupby方法,但它显示的是属性数,而不是属性名数组。
Item Properties
A C001
A C002
A C003
B C001
B C003
C C001
我想把这些项目组合成这样的东西
A C001, C002, C003
B C001, C003
C C001
然后,我想根据属性相似性匹配这些项目:
A B 2
A C 1
B C 1
如何使用pandas修改此数据帧?我确实使用了groupby方法,但它显示的是属性数,而不是属性名数组。分组数据框的列类型是什么?
C001、C002、C003的类型是什么?@AnandSKumar对于组数据框,第一列应该是项目列表,第二列应该是属于各个项目的属性列表我想Anand是在问您df.properties.dtype
的结果。您对中间输出(项目分组)感兴趣吗或者仅在最终输出中(项目匹配)?@我对最终输出感兴趣。我刚刚使用groups
获得的第一个输出看起来很有希望,我会先尝试一下,几乎像我想要的那样。我接受这个答案。
import pandas as pd
selfjoin = pd.merge(df, df, on = 'Property')
similarity = selfjoin.groupby(('Item_x', 'Item_y'), as_index=False).size()