折叠Python列表，保留唯一列和最高值_Python_Python 2.7_List_Pandas

折叠Python列表，保留唯一列和最高值

python python-2.7 list pandas

折叠Python列表，保留唯一列和最高值,python,python-2.7,list,pandas,Python,Python 2.7,List,Pandas,我有一份清单 data = [ ['fruit', 'apple', 'v1', 'data 1'], ['fruit', 'apple', 'v2', 'data 2'], ['fruit', 'apple', 'v3', 'data 3'], ['fruit', 'banana', 'v1', 'data 4'], ['fruit', 'banana', 'v2', 'data 5'], ['anima

我有一份清单

data = [ ['fruit', 'apple', 'v1', 'data 1'],
         ['fruit', 'apple', 'v2', 'data 2'],
         ['fruit', 'apple', 'v3', 'data 3'],
         ['fruit', 'banana', 'v1', 'data 4'],
         ['fruit', 'banana', 'v2', 'data 5'],
         ['animal', 'dog', 'v1', 'data 6'] ]

如何基于前2列并使用来自最高v的数据进行折叠

result = [ ['fruit', 'apple', 'v3', 'data 3'],
           ['fruit', 'banana', 'v2', 'data 5'],
           ['animal', 'dog', 'v1', 'data 6'] ]

列表已在第一列中排序，但第二列未排序。我的解决方案是基于这样一个假设，即两列都已排序，所以它不起作用，我不知道从这里可以走到哪里

previous = []
result = []
for a, b, c, d in data:
    if not all(x in previous for x in [a, b]):
        final.append([a, b, c, d])
        previous = [a, b, c, d]
    else:
        if previous[2] < c:
            final[-1][2] = c
            final[-1][3] = d
            previous = [a, b, c, d]
print result

这是一种方式

import pandas as pd

data = [ ['fruit', 'apple', 'v1', 'data 1'],
         ['fruit', 'apple', 'v2', 'data 2'],
         ['fruit', 'apple', 'v3', 'data 3'],
         ['fruit', 'banana', 'v1', 'data 4'],
         ['fruit', 'banana', 'v2', 'data 5'],
         ['animal', 'dog', 'v1', 'data 6'] ]

df = pd.DataFrame(data, columns=['Col1', 'Col2', 'Col3', 'Col4'])
df['Grouper'] = df['Col1'] + df['Col2']
df['Order'] = df['Col3'].map(lambda x: int(x[-1]))

df = df.sort_values(['Grouper', 'Order'], ascending=[True, False])\
       .drop_duplicates('Grouper')\
       .drop(['Grouper', 'Order'], 1)

lst = df.values.tolist()

# [['animal', 'dog', 'v1', 'data 6'],
#  ['fruit', 'apple', 'v3', 'data 3'],
#  ['fruit', 'banana', 'v2', 'data 5']]

这是一种方式

import pandas as pd

data = [ ['fruit', 'apple', 'v1', 'data 1'],
         ['fruit', 'apple', 'v2', 'data 2'],
         ['fruit', 'apple', 'v3', 'data 3'],
         ['fruit', 'banana', 'v1', 'data 4'],
         ['fruit', 'banana', 'v2', 'data 5'],
         ['animal', 'dog', 'v1', 'data 6'] ]

df = pd.DataFrame(data, columns=['Col1', 'Col2', 'Col3', 'Col4'])
df['Grouper'] = df['Col1'] + df['Col2']
df['Order'] = df['Col3'].map(lambda x: int(x[-1]))

df = df.sort_values(['Grouper', 'Order'], ascending=[True, False])\
       .drop_duplicates('Grouper')\
       .drop(['Grouper', 'Order'], 1)

lst = df.values.tolist()

# [['animal', 'dog', 'v1', 'data 6'],
#  ['fruit', 'apple', 'v3', 'data 3'],
#  ['fruit', 'banana', 'v2', 'data 5']]

您可以使用：

-根据前2个值对外部列表元素进行分组，例如水果、香蕉 -为了得到一个这样的组的最大值，根据它们的第三个元素，第一个字母V+它后面的数字，将其固定，以处理具有多个数字的数字 -指定分组条件的步骤或者，您可以使用老式的手动方式，例如使用帮助器字典：

您可以使用：

另一种可能的办法：

1创建一个映射第一列和第二列索引的字典，并映射每对的最新索引。这允许数据在最后正确排序

2创建第一列和第二列的所有不同分组的列表

3从2中找出每个分组的最大v值，并将其与其余元素组合。这将作为折叠列表返回

4根据1对折叠的列表进行排序

示例代码：

输出：