Python 使用无组织词典拆分列表_Python_Pandas

Python 使用无组织词典拆分列表

python pandas

Python 使用无组织词典拆分列表,python,pandas,Python,Pandas,我有一个这样的数据帧 id Merchant ID Date App Details 601179aa 1 27/01/21 20:03 [{:appName "FAU-G", :packageName "com.ncoregames.faug"} {:appName "Truecaller", :packageName "com.t

我有一个这样的数据帧

id            Merchant ID  Date                 App Details
601179aa      1           27/01/21 20:03  
[{:appName "FAU-G", :packageName "com.ncoregames.faug"} 
 {:appName "Truecaller", :packageName "com.truecaller"}]

id           Merchant ID  Date                 App Name  Package Name
601179aa          1          27/01/21 20:03        FAU-G com.ncoreagames.faug
601179aa          1          27/01/21 20:03.   True Caller com.truecaller

我想要这样的输出

id            Merchant ID  Date                 App Details
601179aa      1           27/01/21 20:03  
[{:appName "FAU-G", :packageName "com.ncoregames.faug"} 
 {:appName "Truecaller", :packageName "com.truecaller"}]

id           Merchant ID  Date                 App Name  Package Name
601179aa          1          27/01/21 20:03        FAU-G com.ncoreagames.faug
601179aa          1          27/01/21 20:03.   True Caller com.truecaller

我试过了

df['App Details'] = df['App Details'].str.replace(r"\[","")
df['App Details'] = df['App Details'].str.replace(r"\]","")
foo = lambda x: pd.Series([i for i in (x.split(' '))])
app_df = df['App Details'].apply(foo)

列表中的词典数量不断变化。

您可以使用正则表达式：

df=pd.DataFrame({'id': {0: '601179aa'},
 'Merchant': {0: 1},
 'ID': {0: '27/01/21'},
 'Date': {0: '20:03'},
 'App Details': {0: '[{:appName"FAU-G".:packageName"com.ncoreagames.faug"}{:appName"Truecaller",:packageName"com.truecaller"}]'}})

import re

df['App Details']=df['App Details'].str.split("}{")

    
df=df.explode('App Details')

df['App Name']=df['App Details'].apply(lambda x:re.findall('appName"(.+?)"',x)).explode()
df['Package Name']=df['App Details'].apply(lambda x:re.findall('packageName"(.+?)"',x)).explode()


     App Name          Package Name
0       FAU-G  com.ncoreagames.faug
0  Truecaller        com.truecaller

可以使用正则表达式执行此操作：

df=pd.DataFrame({'id': {0: '601179aa'},
 'Merchant': {0: 1},
 'ID': {0: '27/01/21'},
 'Date': {0: '20:03'},
 'App Details': {0: '[{:appName"FAU-G".:packageName"com.ncoreagames.faug"}{:appName"Truecaller",:packageName"com.truecaller"}]'}})

import re

df['App Details']=df['App Details'].str.split("}{")

    
df=df.explode('App Details')

df['App Name']=df['App Details'].apply(lambda x:re.findall('appName"(.+?)"',x)).explode()
df['Package Name']=df['App Details'].apply(lambda x:re.findall('packageName"(.+?)"',x)).explode()


     App Name          Package Name
0       FAU-G  com.ncoreagames.faug
0  Truecaller        com.truecaller

你可以从以下几点开始：

将单元格展开为多行：

要获取此信息（请注意列名的更改）：

将新行字符串拆分为多列：在这里，代码还获取列的名称并对它们进行适当的重命名（假设所有行都以：appName或：packageName开头-以其他方式调整

findall

步骤中的正则表达式）

使用新的列名将所有内容放在一起：

你可以从以下几点开始：

将单元格展开为多行：

要获取此信息（请注意列名的更改）：

将新行字符串拆分为多列：在这里，代码还获取列的名称并对它们进行适当的重命名（假设所有行都以：appName或：packageName开头-以其他方式调整

findall

步骤中的正则表达式）

使用新的列名将所有内容放在一起：

您的字符串看起来非常类似于json。一种方法可能是将字符串转换为有效的json并读取为dict。然后

分解

，并使用

json\u normalize

提取信息，最后将索引设置为正确的值

与公认的答案相比，这种方法的一个好处是它更具普遍性。如果您的结构不容易转换为json，这种方法可能会失败

在本例中，我假设键都是单词，记录之间没有

，

，但可能有几个空格（实际上是非字母字符）

df3输出：

         id  Merchant ID            Date     appName           packageName
0  601179aa            1  27/01/21 20:03       FAU-G  com.ncoreagames.faug
1  601179aa            1  27/01/21 20:03  Truecaller        com.truecaller