Python 如何提取dataframe列中的字符串部分

Python 如何提取dataframe列中的字符串部分,python,pandas,numpy,Python,Pandas,Numpy,我有一个数据框df,我希望在我的列中用特定的值分隔来显示第一个单词和数字以及它的'T'值。我想要第一个用“-”分隔的'word',以及它的#T值。除了“Azure”大小写之外,第一个单词用“#”分隔。 这是一个棘手的问题,因为一些#T值用“-”分隔,而另一些则用“-”分隔 '.' 例如,其中一个值中的-12T,以及另一个值中的\u 14T 我想在type列中保留原始值 样本数据 data={'type':“天蓝”标准E6 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4

我有一个数据框df,我希望在我的列中用特定的值分隔来显示第一个单词和数字以及它的'T'值。我想要第一个用“-”分隔的'word',以及它的#T值。除了“Azure”大小写之外,第一个单词用“#”分隔。

这是一个棘手的问题,因为一些#T值用“-”分隔,
而另一些则用“-”分隔 '.' 例如,其中一个值中的-12T,以及另一个值中的\u 14T 我想在type列中保留原始值

样本数据
data={'type':“天蓝”标准E6 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 T490-NET_14T-A.0','AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A','AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A','free':[6,5,10,5,1,2,10,7,6,3,0],'use':[1,1,10,1,4,1,0,4,3,0,0],'total':[7,6,20,6,6,6,6,6,5,10,2,3,20])
df=pd.DataFrame(数据)
免费使用类型总数
0 Azure_标准_E64是_v4_特殊_DB-A.0 6 1 7
1 Azure_标准_E64是_v4_特殊_DB-A.0 5 1 6
2 Hello-Hell-HE-A6123-123A-12T_类型-v.A 10 20
3 Hello-Hell-HE-A6123-123A-12T_TYPE-v.E 5 1 6
4 Hello-Hell-HE-A6123-123A-50T_类型-v.C 1 4 5
5 Hello-Hell-HE-A6123-123A-50T_类型-v.A 2 1
6 Happy-HAP-HA-R650-570A-90T_版本-v.A 10 0 10
7 Kind-KIN-KI-T490-NET_14T-A.0 7 4 3
8 Kind-KI-T490-NET_14T-A.0 6 3 2
9 AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A 3 0 3
10 AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A 0 20
所需:

   Name                                          type                free   use  total
  
   Azure_Standard_E64is_v4_SPECIAL_DB-A.0        Azure               6       1    7       
   Azure_Standard_E64is_v4_SPECIAL_DB-A.0        Azure               5       1    6                                       
   Hello-HEL-HE-A6123-123A-12T_TYPE-v.A          Hello   12T         10      10  20
   Hello-HEL-HE-A6123-123A-12T_TYPE-v.E          Hello   12T         5       1    6
   Hello-HEL-HE-A6123-123A-50T_TYPE-v.C          Hello   50T         1       4    5
   Hello-HEL-HE-A6123-123A-50T_TYPE-v.A          Hello   50T         2       1    1
   Happy-HAP-HA-R650-570A-90T_version-v.A        Happy   90T         10      0   10
   Kind-KIN-KI-T490-NET_14T-A.0                  Kind    14T         7      4    3
   Kind-KIN-KI-T490-NET_14T-A.0                  Kind    14T         6      3    2
   AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A           AY14.5  6.4T        3      0    3
   AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A           AY14.5  6.4T        0      20   20
        
df['type']= df['type'].str.extract(r'(^\w+.\d|^\w+)')+' '+df['type'].str.extract(r'(\d.\d+T|\d+T)')
正在做:

   Name                                          type                free   use  total
  
   Azure_Standard_E64is_v4_SPECIAL_DB-A.0        Azure               6       1    7       
   Azure_Standard_E64is_v4_SPECIAL_DB-A.0        Azure               5       1    6                                       
   Hello-HEL-HE-A6123-123A-12T_TYPE-v.A          Hello   12T         10      10  20
   Hello-HEL-HE-A6123-123A-12T_TYPE-v.E          Hello   12T         5       1    6
   Hello-HEL-HE-A6123-123A-50T_TYPE-v.C          Hello   50T         1       4    5
   Hello-HEL-HE-A6123-123A-50T_TYPE-v.A          Hello   50T         2       1    1
   Happy-HAP-HA-R650-570A-90T_version-v.A        Happy   90T         10      0   10
   Kind-KIN-KI-T490-NET_14T-A.0                  Kind    14T         7      4    3
   Kind-KIN-KI-T490-NET_14T-A.0                  Kind    14T         6      3    2
   AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A           AY14.5  6.4T        3      0    3
   AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A           AY14.5  6.4T        0      20   20
        
df['type']= df['type'].str.extract(r'(^\w+.\d|^\w+)')+' '+df['type'].str.extract(r'(\d.\d+T|\d+T)')
这在下面起作用但是,“AZURE”值会消失,并且原始值不会保持。 我仍在对此进行研究,非常感谢您的帮助。

您可以使用with和last add,也可以将
expand=False
添加到
系列

对于新列,使用第二个位置

感谢@Trenton McKinney提供另一种解决方案-拆分值并获取列表的第一个值:

s = (df['type'].str.split('_|-')
               .str[0]
               .str.cat(df['type'].str.extract(r'(\d.\d+T|\d+T)', expand=False), 
                        sep=' ', 
                        na_rep='')
               .str.strip())

df = df.rename(columns={'type': 'Name'})
df.insert(1, 'type', s)
print (df)
                                      Name         type  free  use  total
0   Azure_Standard_E64is_v4_SPECIAL_DB-A.0        Azure     6    1      7
1   Azure_Standard_E64is_v4_SPECIAL_DB-A.0        Azure     5    1      6
2     Hello-HEL-HE-A6123-123A-12T_TYPE-v.A    Hello 12T    10   10     20
3     Hello-HEL-HE-A6123-123A-12T_TYPE-v.E    Hello 12T     5    1      6
4     Hello-HEL-HE-A6123-123A-50T_TYPE-v.C    Hello 50T     1    4      5
5     Hello-HEL-HE-A6123-123A-50T_TYPE-v.A    Hello 50T     2    1      1
6   Happy-HAP-HA-R650-570A-90T_version-v.A    Happy 90T    10    0     10
7             Kind-KIN-KI-T490-NET_14T-A.0     Kind 14T     7    4      3
8             Kind-KIN-KI-T490-NET_14T-A.0     Kind 14T     6    3      2
9      AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A  AY14.5 6.4T     3    0      3
10     AY14.5-fyy-FY-R770-256G-6.4T-R1-v.A  AY14.5 6.4T     0   20     20

好的,谢谢-有没有办法保持该类型列中的原始值?我将尝试此
df['type'].str.replace('''u'','-').str.split('-',expand=True)[0]
也适用于第一种情况part@TrentonMcKinney-谢谢你,我稍微改变了一下,但是你的想法被使用了。@Lynn很遗憾你不需要
'DA'
。我注意到如果你拆分字符串,你想要的那组单词总是在索引5处。所以整件事情可能类似于
df['type'].str.split(“|-”,expand=True)。iloc[:,[0,5]]
。然而,jezrael给你的完美答案正是你想要的。感谢你的帮助-我现在正在尝试使用
df['type'].str.extract(r'(\d.\d+T\d+T'))。fillna('')
而不是
df['type']。str.extract(r'(\d.\d+T\d+T)
),则“AZURE”值不会消失。