Python Pandas：返回多行和多列的Apply函数_Python_Pandas

Python Pandas：返回多行和多列的Apply函数

python pandas

Python Pandas：返回多行和多列的Apply函数,python,pandas,Python,Pandas,我有一个具有以下结构的数据帧路由： id nodes traveltimes 0 id-1 [node-A, node-B] [6.0] 1 id-2 [node-A, n

我有一个具有以下结构的数据帧

路由

：

      id                                             nodes                            traveltimes
0   id-1                                  [node-A, node-B]                                  [6.0]
1   id-2                  [node-A, node-C, node-D, node-E]                      [4.0, 80.0, 38.0]
2   id-3                                  [node-B, node-D]                                 [90.0]
3   id-4                                          [node-A]                                     []
4   id-5  [node-A, node-B, node-C, node-D, node-E, node-D]         [35.0, 30.0, 110.0, 20.0, 5.0]
..                                                 ...                                    ...

节点

列中的值列表是图形的节点，

旅行时间

列中的值是两个节点之间的时间。与图形中的

路线

相对应的每一行

我想将我的

路线

分割为

旅行时间

的阈值。例如，对于70的阈值，我希望得到以下结果：

      id     route_id                            nodes                            traveltimes
0     id-1          0                 [node-A, node-B]                                  [6.0]
1     id-2          0                 [node-A, node-C]                                  [4.0]        
2     id-2          1                 [node-D, node-E]                                 [38.0]
3     id-3          0                         [node-B]                                     []
4     id-3          1                         [node-D]                                     []
5     id-4          0                         [node-A]                                     []
6     id-5          0         [node-A, node-B, node-C]                           [35.0, 30.0]
7     id-5          1         [node-D, node-E, node-D]                            [20.0, 5.0]
..                                                 ...                                    ...

我做了下面的代码，做了我想做的，但是效率很低

我有一个拆分路由的函数：

def split_routes(row):
    newrow = row.copy()

    threshold = 70

    nodes = newrow['nodes']
    traveltimes = newrow['traveltimes']

    rows = []
    route_id = 0
    route_nodes = []
    route_traveltimes = []

    route_nodes.append(nodes[0])

    for i in range(1, len(nodes)):
        if(traveltimes[i-1]<threshold):
            route_traveltimes.append(traveltimes[i-1])
            route_nodes.append(nodes[i])
        else : 
            # Route route_id completed, starting a new one
            newrow['route_id'] = route_id
            newrow['nodes'] = route_nodes
            newrow['traveltimes'] = route_traveltimes
            rows.append(newrow)

            newrow = row.copy()
            route_nodes = []
            route_traveltimes = []
            route_id+=1
            route_nodes.append(nodes[i])

    # Route route_id completed     
    newrow['route_id'] = route_id
    newrow['nodes'] = route_nodes
    newrow['traveltimes'] = route_traveltimes
    rows.append(newrow)

    df = pd.DataFrame(rows)
    return df

我想我可以做一些更有效率的事情，而不用自己迭代行。但是我不知道如何使用

apply

同时返回多个行和列

有人能给我一些提示吗？

要分解多个列，唯一的先决条件是在所有要分解的列的列表中有相同数量的元素。这可以通过以下方式实现：

def get_nodes(x):
    if(len(x)<2):
        return []
    return [[x[i], x[i+1]] for i in range(len(x)-1)]

df['nodes'] = df['nodes'].apply(lambda x: get_nodes(x))

要查找所有行程时间大于70.0的路线，我们只需执行以下操作：

df[df['traveltimes']>70]

这可能会帮助你，我想这接近于解决我的问题。但是当我用这个的时候，我得到了一个奇怪的结果

splitted_routes=routes.apply（split_routes，axis=1）

给我一个序列作为输出，其中每个元素似乎都包含一个数据帧。您可以尝试使用stack（）并按照答案中的建议重置_index（）。

df = df.set_index('id').apply(lambda x: x.apply(pd.Series).stack()).reset_index().rename(columns={'level_1':'route_id'})

df[df['traveltimes']>70]