Python 熊猫-dataframeB的特定行是dataframeB的特定行的子集吗？_Python_Pandas

Python 熊猫-dataframeB的特定行是dataframeB的特定行的子集吗？

python pandas

Python 熊猫-dataframeB的特定行是dataframeB的特定行的子集吗？,python,pandas,Python,Pandas,我有两个数据帧dfA和dfB，如下所示： dfA = entityId entityName property value 0 1 bob propA a 1 1 bob propB b 2 1 bob propC c 3 2 dave propA aa 4 2 dave propC

我有两个数据帧dfA和dfB，如下所示：

dfA = 
   entityId entityName property value
0         1        bob    propA     a
1         1        bob    propB     b
2         1        bob    propC     c
3         2       dave    propA    aa
4         2       dave    propC     c
5         3        bob    propA     a
6         3        bob    propB    bb
7         3        bob    propD     d
8         4       alex    propE    ee
9         4       alex    propF   fff

dfB = 
   entityId entityValid property value propValid  propId
0       123         yes    propA     a       yes  1
1       123         yes    propB     b       yes  2
2       123         yes    propC     c       yes  3
3       124          no    propA    aa        no  4
4       124          no    propC     c       yes  3
5       125    not sure    propA     a       yes  1
6       125    not sure    propB    bb       yes  5
7       125    not sure    propD     d       yes  6
8       126          no    propE    ee       yes  7
9       126          no    propF    FF       yes  8

我想知道的是，在属性和值列方面，dfA中的实体是否和dfB中的实体完全匹配

首先取消数据帧的堆栈并将每个实体表示在一行中最有意义吗？最终的结果，我期待将是这样的东西，然而，任何关于如何处理这个问题的意见是赞赏的

resultDf =
      entityId entityName  dfBEntityIdMatch  valid    invalidProps
0            1        bob  123               yes      ()
1            2       dave  124               no       (4)
2            3        bob  125               not sure ()
3            4       alex  '---'             '---'    '---'

提前谢谢

生成数据帧的代码：

import pandas as pd
pd.set_option('display.max_columns',20)

dfA = pd.DataFrame([[1, 'bob', 'propA', 'a'],
                    [1, 'bob', 'propB', 'b' ],
                    [1, 'bob', 'propC', 'c' ],
                    [2, 'dave', 'propA', 'aa' ],
                    [2, 'dave', 'propC', 'c' ],
                    [3, 'bob', 'propA', 'a' ],
                    [3, 'bob', 'propB', 'bb' ],
                    [3, 'bob', 'propD', 'd' ],
                    [4, 'alex', 'propE', 'ee' ],
                    [4, 'alex', 'propF', 'fff' ]],
                   columns=['entityId', 'entityName', 'property', 'value'])

dfB = pd.DataFrame([[123, 'yes', 'propA', 'a', 'yes', 1],
                    [123, 'yes', 'propB', 'b', 'yes', 2],
                    [123, 'yes', 'propC', 'c', 'yes', 3],
                    [124, 'no', 'propA', 'aa', 'no', 4],
                    [124, 'no', 'propC', 'c', 'yes', 3],
                    [125, 'not sure', 'propA', 'a', 'yes', 1 ],
                    [125, 'not sure', 'propB', 'bb', 'yes', 5 ],
                    [125, 'not sure', 'propD', 'd', 'yes', 6 ],
                    [126, 'no', 'propE', 'ee', 'yes', 7],
                    [126, 'no', 'propF', 'FF', 'yes', 8 ]],
                   columns=['entityId', 'entityValid', 'property', 'value', 'propValid', 'propId'])

这里有一种方法可以获得与预期输出类似的结果，至少在您提供的数据上是如此。首先在dfB中创建“InvalidDrops”列

dfB.loc[dfB['propValid'] == 'no','invalidProps'] = dfB.loc[dfB['propValid'] == 'no','propId']
dfB['invalidProps'] = dfB['invalidProps'].fillna('')

现在，您可以独立地使用数据帧和使用不同方法的

groupby

。如果实际数据在数据帧之间的顺序不同，则需要首先按“属性”和“值”对值进行排序

dfA_g = (dfA.sort_values(['property', 'value'])
              .groupby(['entityId','entityName'],as_index=False).agg(tuple))
dfB_g = (dfB.sort_values(['property', 'value'])
              .groupby(['entityId','entityValid'],as_index=False)
               .agg({'property':lambda x: tuple(x), 
                     'value':lambda x: tuple(x), 
                     'invalidProps':lambda x: tuple(filter(None,x))}))

现在，您可以对“属性”和“值”进行

merge

，并使用

fillna

替换nan值，

drop

不必要的列和

rename

要保留的列：

resultDf  = (dfA_g.merge(dfB_g, how='left', on=['property', 'value'],suffixes=('','_'))
                  .fillna('---').drop(['property', 'value'],1)
                  .rename(columns={'entityId_':'dfBEntityIdMatch', 'entityValid':'valid'}))

你会得到这样的结果：

   entityId entityName dfBEntityIdMatch     valid invalidProps
0         1        bob              123       yes           ()
1         2       dave              124        no       (4.0,)
2         3        bob              125  not sure           ()
3         4       alex              ---       ---          ---

“我想知道的是，在属性和值列方面，dfA中的实体是否和dfB中的实体完全匹配。”但实体和值之间并没有1-1关系。那么你想比较什么呢？是否要在A中查找与B具有相同值集的实体？与值相同的列表？非零交集？因为dfA中的实体1有3个属性值对：[（propA，a）、（propB，b）、（propC，c）]，所以我试图查看dfB中是否有一个实体具有这些相同的属性值对。因此，如果dfB中的一个实体拥有所有这些和更多，那么它就不是匹配的。如果一个实体拥有

[（propA，a），（propB，b），（propC，c）]

，而另一个实体拥有

[（propA，a），（propB，b），（propC，c），（propA，a）]

，那该怎么办？太棒了！非常感谢Ben.T