Python 将每个项与行中最后一个非空值配对_Python_Pandas_Dataframe_Melt

Python 将每个项与行中最后一个非空值配对

python pandas dataframe

Python 将每个项与行中最后一个非空值配对,python,pandas,dataframe,melt,Python,Pandas,Dataframe,Melt,我正在尝试做一个函数，在这里我向它提供一个URL列表，这些URL经过301跃点，它为我将其展平。我想将结果列表保存为CSV，这样我就可以将它交给开发人员，他们可以实现它并消除301跳例如，我的爬虫程序将生成301个跃点的列表： URL1 | URL2 | URL3 | URL4 example.com/url1 | example.com/url2 | | example.c

我正在尝试做一个函数，在这里我向它提供一个URL列表，这些URL经过301跃点，它为我将其展平。我想将结果列表保存为CSV，这样我就可以将它交给开发人员，他们可以实现它并消除301跳

例如，我的爬虫程序将生成301个跃点的列表：

    URL1          | URL2              | URL3              | URL4
example.com/url1  | example.com/url2  |                   | 
example.com/url3  | example.com/url4  | example.com/url5  | 
example.com/url6  | example.com/url7  | example.com/url8  | example.com/10
example.com/url9  | example.com/url7  | example.com/url8  | 
example.com/url23 | example.com/url10 |                   | 
example.com/url24 | example.com/url45 | example.com/url46 | 
example.com/url25 | example.com/url45 | example.com/url46 | 
example.com/url26 | example.com/url45 | example.com/url46 | 
example.com/url27 | example.com/url45 | example.com/url46 | 
example.com/url28 | example.com/url45 | example.com/url46 | 
example.com/url29 | example.com/url45 | example.com/url46 | 
example.com/url30 | example.com/url45 | example.com/url46 |

我想得到的结果是

URL1              | URL2 
example.com/url1  | example.com/url2
example.com/url3  | example.com/url5
example.com/url4  | example.com/url5
example.com/url6  | example.com/10
example.com/url7  | example.com/10
example.com/url8  | example.com/10
example.com/url23 | example.com/url10
...

我已使用以下代码将Pandas数据框转换为列表列表：

import pandas as pd
import numpy as np

csv1 = pd.read_csv('Example_301_sheet.csv', header=None)
outlist = []

def link_flat(csv):

    for row in csv.iterrows():
        index, data = row
        outlist.append(data.tolist())

    return outlist

这会将每一行作为列表返回，并且它们都嵌套在一个列表中，如下所示：

[['example.com/url1', 'example.com/url2', nan, nan],
 ['example.com/url3', 'example.com/url4', 'example.com/url5', nan],
 ['example.com/url6',
  'example.com/url7',
  'example.com/url8',
  'example.com/10'],
 ['example.com/url9', 'example.com/url7', 'example.com/url8', nan],
 ['example.com/url23', 'example.com/url10', nan, nan],
 ['example.com/url24', 'example.com/url45', 'example.com/url46', nan],
 ['example.com/url25', 'example.com/url45', 'example.com/url46', nan],
 ['example.com/url26', 'example.com/url45', 'example.com/url46', nan],
 ['example.com/url27', 'example.com/url45', 'example.com/url46', nan],
 ['example.com/url28', 'example.com/url45', 'example.com/url46', nan],
 ['example.com/url29', 'example.com/url45', 'example.com/url46', nan],
 ['example.com/url30', 'example.com/url45', 'example.com/url46', nan]]

如何将每个嵌套列表中的每个URL与同一列表中的最后一个URL进行匹配以生成上述列表？

您需要使用

groupby

last

确定每行的最后一个有效项，然后使用

melt

重塑数据框并构建两列映射

df.columns = range(len(df.columns))
df = (
    df.assign(URL2=df.stack().groupby(level=0).last())
      .melt('URL2', value_name='URL1')  
      .drop('variable', 1)
      .dropna()
      .drop_duplicates()
      .query('URL1 != URL2')
      .sort_index(axis=1)
      .reset_index(drop=True)
)

介意再解释一下你是如何得到这个输出的吗？什么是跃点？跃点是指URL被重定向到自身重定向的URL。在上面的列表中，如果用户或爬虫程序单击第一个链接，它们将被重定向到该行中的所有URL，直到到达在200中解析的列中的最后一个URL。这里的目的是“展平”重定向，因此，如果用户单击某个URL，它会直接重定向到第三行的200 URL，不是应该是

example.com/url6->example.com/10

？第三行应该是

example.com/url4->/example.comurl5

，因为我还需要包含不跳跃的URL以避免混淆。此外，我认为将这些内容包括在报告中会更容易。不管输出CSV中是否有重复项，或者是否包含现有的301sAhhhh，我最终得到了它。谢谢，太好了！非常感谢。

df
                 URL1               URL2
0    example.com/url1   example.com/url2
1    example.com/url3   example.com/url5
2    example.com/url6     example.com/10
3    example.com/url9   example.com/url8
4   example.com/url23  example.com/url10
5   example.com/url24  example.com/url46
6   example.com/url25  example.com/url46
7   example.com/url26  example.com/url46
8   example.com/url27  example.com/url46
9   example.com/url28  example.com/url46
10  example.com/url29  example.com/url46
11  example.com/url30  example.com/url46
12   example.com/url4   example.com/url5
13   example.com/url7     example.com/10
14   example.com/url7   example.com/url8
15  example.com/url45  example.com/url46
16   example.com/url8     example.com/10