Python 使用熊猫将行拆分为多行_Python_Pandas_Dataframe_Reshape

Python 使用熊猫将行拆分为多行

python pandas dataframe

Python 使用熊猫将行拆分为多行,python,pandas,dataframe,reshape,Python,Pandas,Dataframe,Reshape,我有一个以下格式的数据集。它有48列和大约200000行 slot1,slot2,slot3,slot4,slot5,slot6...,slot45,slot46,slot47,slot48 1,2,3,4,5,6,7,......,45,46,47,48 3.5,5.2,2,5.6,............... 我想将这个数据集重塑为如下所示，其中N小于48（可能是24或12等…）列标题并不重要。当N=4时 slotNew1,slotNew2,slotNew3,slotNew4 1,2,

我有一个以下格式的数据集。它有48列和大约200000行

slot1,slot2,slot3,slot4,slot5,slot6...,slot45,slot46,slot47,slot48
1,2,3,4,5,6,7,......,45,46,47,48
3.5,5.2,2,5.6,...............

我想将这个数据集重塑为如下所示，其中N小于48（可能是24或12等…）列标题并不重要。当N=4时

slotNew1,slotNew2,slotNew3,slotNew4 1,2,3,4 5,6,7,8 ...... 45,46,47,48 3.5,5.2,2,5.6 ............
我可以逐行读取，然后拆分每一行并附加到新的数据帧。但这是非常低效的。有没有更有效更快的方法呢？
你可以试试这个

N = 4 df_new = pd.DataFrame(df_original.values.reshape(-1, N)) df_new.columns = ['slotNew{:}'.format(i + 1) for i in range(N)]
代码将数据提取到
numpy.ndarray
中，对其进行重塑，并创建所需维度的新数据集
例如：

import numpy as np import pandas as pd df0 = pd.DataFrame(np.arange(48 * 3).reshape(-1, 48)) df0.columns = ['slot{:}'.format(i + 1) for i in range(48)] print(df0) # slot1 slot2 slot3 slot4 ... slot45 slot46 slot47 slot48 # 0 0 1 2 3 ... 44 45 46 47 # 1 48 49 50 51 ... 92 93 94 95 # 2 96 97 98 99 ... 140 141 142 143 # # [3 rows x 48 columns] N = 4 df = pd.DataFrame(df0.values.reshape(-1, N)) df.columns = ['slotNew{:}'.format(i + 1) for i in range(N)] print(df.head()) # slotNew1 slotNew2 slotNew3 slotNew4 # 0 0 1 2 3 # 1 4 5 6 7 # 2 8 9 10 11 # 3 12 13 14 15 # 4 16 17 18 19

另一种方法

N = 4 df1 = df0.stack().reset_index() df1['i'] = df1['level_1'].str.replace('slot', '').astype(int) // N df1['j'] = df1['level_1'].str.replace('slot', '').astype(int) % N df1['i'] -= (df1['j'] == 0) - df1['level_0'] * 48 / N df1['j'] += (df1['j'] == 0) * N df1['j'] = 'slotNew' + df1['j'].astype(str) df1 = df1[['i', 'j', 0]] df = df1.pivot(index='i', columns='j', values=0)
你可以试试这个

N = 4 df_new = pd.DataFrame(df_original.values.reshape(-1, N)) df_new.columns = ['slotNew{:}'.format(i + 1) for i in range(N)]
代码将数据提取到
numpy.ndarray
中，对其进行重塑，并创建所需维度的新数据集
例如：

import numpy as np import pandas as pd df0 = pd.DataFrame(np.arange(48 * 3).reshape(-1, 48)) df0.columns = ['slot{:}'.format(i + 1) for i in range(48)] print(df0) # slot1 slot2 slot3 slot4 ... slot45 slot46 slot47 slot48 # 0 0 1 2 3 ... 44 45 46 47 # 1 48 49 50 51 ... 92 93 94 95 # 2 96 97 98 99 ... 140 141 142 143 # # [3 rows x 48 columns] N = 4 df = pd.DataFrame(df0.values.reshape(-1, N)) df.columns = ['slotNew{:}'.format(i + 1) for i in range(N)] print(df.head()) # slotNew1 slotNew2 slotNew3 slotNew4 # 0 0 1 2 3 # 1 4 5 6 7 # 2 8 9 10 11 # 3 12 13 14 15 # 4 16 17 18 19

另一种方法

N = 4 df1 = df0.stack().reset_index() df1['i'] = df1['level_1'].str.replace('slot', '').astype(int) // N df1['j'] = df1['level_1'].str.replace('slot', '').astype(int) % N df1['i'] -= (df1['j'] == 0) - df1['level_0'] * 48 / N df1['j'] += (df1['j'] == 0) * N df1['j'] = 'slotNew' + df1['j'].astype(str) df1 = df1[['i', 'j', 0]] df = df1.pivot(index='i', columns='j', values=0)

使用熊猫。制作块后分解。给定的
df
：

import pandas as pd df = pd.DataFrame([np.arange(1, 49)], columns=['slot%s' % i for i in range(1, 49)]) print(df) slot1 slot2 slot3 slot4 slot5 slot6 slot7 slot8 slot9 slot10 ... \ 0 1 2 3 4 5 6 7 8 9 10 ... slot39 slot40 slot41 slot42 slot43 slot44 slot45 slot46 slot47 \ 0 39 40 41 42 43 44 45 46 47 slot48 0 48
使用
块
划分：

def chunks(l, n): """Yield successive n-sized chunks from l. Source: https://stackoverflow.com/questions/312443/how-do-you-split-a-list-into-evenly-sized-chunks """ n_items = len(l) if n_items % n: n_pads = n - n_items % n else: n_pads = 0 l = l + [np.nan for _ in range(n_pads)] for i in range(0, len(l), n): yield l[i:i + n] N = 4 new_df = pd.DataFrame(list(df.apply(lambda x: list(chunks(list(x), N)), 1).explode())) print(new_df)
输出：

0 1 2 3 0 1 2 3 4 1 5 6 7 8 2 9 10 11 12 3 13 14 15 16 4 17 18 19 20 ...

0 1 2 3 4 5 6 0 1 2 3 4 5 6 7.0 1 8 9 10 11 12 13 14.0 2 15 16 17 18 19 20 21.0 3 22 23 24 25 26 27 28.0 4 29 30 31 32 33 34 35.0 5 36 37 38 39 40 41 42.0 6 43 44 45 46 47 48 NaN
与
numpy.reformate
相比，这种方法的优势在于，当
N
不是一个因素时，它可以处理：

N = 7 new_df = pd.DataFrame(list(df.apply(lambda x: list(chunks(list(x), N)), 1).explode())) print(new_df)
输出：

0 1 2 3 0 1 2 3 4 1 5 6 7 8 2 9 10 11 12 3 13 14 15 16 4 17 18 19 20 ...

0 1 2 3 4 5 6 0 1 2 3 4 5 6 7.0 1 8 9 10 11 12 13 14.0 2 15 16 17 18 19 20 21.0 3 22 23 24 25 26 27 28.0 4 29 30 31 32 33 34 35.0 5 36 37 38 39 40 41 42.0 6 43 44 45 46 47 48 NaN

使用熊猫。制作块后分解。给定的
df
：

import pandas as pd df = pd.DataFrame([np.arange(1, 49)], columns=['slot%s' % i for i in range(1, 49)]) print(df) slot1 slot2 slot3 slot4 slot5 slot6 slot7 slot8 slot9 slot10 ... \ 0 1 2 3 4 5 6 7 8 9 10 ... slot39 slot40 slot41 slot42 slot43 slot44 slot45 slot46 slot47 \ 0 39 40 41 42 43 44 45 46 47 slot48 0 48
使用
块
划分：

def chunks(l, n): """Yield successive n-sized chunks from l. Source: https://stackoverflow.com/questions/312443/how-do-you-split-a-list-into-evenly-sized-chunks """ n_items = len(l) if n_items % n: n_pads = n - n_items % n else: n_pads = 0 l = l + [np.nan for _ in range(n_pads)] for i in range(0, len(l), n): yield l[i:i + n] N = 4 new_df = pd.DataFrame(list(df.apply(lambda x: list(chunks(list(x), N)), 1).explode())) print(new_df)
输出：

0 1 2 3 0 1 2 3 4 1 5 6 7 8 2 9 10 11 12 3 13 14 15 16 4 17 18 19 20 ...

0 1 2 3 4 5 6 0 1 2 3 4 5 6 7.0 1 8 9 10 11 12 13 14.0 2 15 16 17 18 19 20 21.0 3 22 23 24 25 26 27 28.0 4 29 30 31 32 33 34 35.0 5 36 37 38 39 40 41 42.0 6 43 44 45 46 47 48 NaN
与
numpy.reformate
相比，这种方法的优势在于，当
N
不是一个因素时，它可以处理：

N = 7 new_df = pd.DataFrame(list(df.apply(lambda x: list(chunks(list(x), N)), 1).explode())) print(new_df)
输出：

0 1 2 3 0 1 2 3 4 1 5 6 7 8 2 9 10 11 12 3 13 14 15 16 4 17 18 19 20 ...

0 1 2 3 4 5 6 0 1 2 3 4 5 6 7.0 1 8 9 10 11 12 13 14.0 2 15 16 17 18 19 20 21.0 3 22 23 24 25 26 27 28.0 4 29 30 31 32 33 34 35.0 5 36 37 38 39 40 41 42.0 6 43 44 45 46 47 48 NaN

每一行都是连接的字符串吗？或者已经分割的单元格？已经分割的单元格：）我没有分割任何单元格。
N
是否总是ncols的因子？嗯，这不是必须的。但是我可以假设iN是一个因子，每行是一个连接的字符串吗？或者已经分割的单元格？已经分割的单元格：）我没有分割任何单元格。
N
是否总是ncols的因子？嗯，这不是必须的。但我可以假设这是我的错误。在重塑之前，我没有删除不需要的列。当我删除不需要的列时，您的解决方案会起作用。谢谢，那是我的错。在重塑之前，我没有删除不需要的列。当我删除不需要的列时，您的解决方案会起作用。谢谢（y）我标记了kitman的答案，因为当N是48的因子时它是直接的。但即使N不是一个因子，你的答案也适用。谢谢：）我标记了kitman的答案，因为当N是48的因子时它是直接的。但即使N不是一个因子，你的答案也适用。谢谢：）