Regex 在数据框中添加“id”
我有一个数据框,文档ID是唯一的ID,它将包含WORD列中的多个单词。我需要为文档中的每个单词添加ID 我需要补充一点Regex 在数据框中添加“id”,regex,pandas,numpy,Regex,Pandas,Numpy,我有一个数据框,文档ID是唯一的ID,它将包含WORD列中的多个单词。我需要为文档中的每个单词添加ID 我需要补充一点 DOCUMENT_ID WORD COUNT 0 262056708396949504 4 1 262056708396949504 DVD 1 2 262056708396949504 Girls 1 3 262056708396949504 Gone 1 4 262056708396
DOCUMENT_ID WORD COUNT
0 262056708396949504 4
1 262056708396949504 DVD 1
2 262056708396949504 Girls 1
3 262056708396949504 Gone 1
4 262056708396949504 Gras 1
5 262056708396949504 Hurricane 1
6 262056708396949504 Katrina 1
7 262056708396949504 Mardi 1
8 262056708396949504 Wild 1
10 262056708396949504 donated 1
11 262056708396949504 generated 1
13 262056708396949504 revenues 1
15 262056708396949504 themed 1
17 262056708396949504 torwhore 1
18 262056708396949504 victims 1
20 262167541718319104 18
21 262167541718319104 CCUFoodMan 1
22 262167541718319104 CCUinvolved 1
23 262167541718319104 Congrats 1
24 262167541718319104 Having 1
25 262167541718319104 K 1
29 262167541718319104 blast 1
30 262167541718319104 blasty 1
31 262167541718319104 carebrighton 1
32 262167541718319104 hurricane 1
34 262167541718319104 started 1
37 262197573421502464 21
我的预期结果:
DOCUMENT_ID WORD COUNT WORD_ID
0 262056708396949504 4 1
1 262056708396949504 DVD 1 2
2 262056708396949504 Girls 1 3
3 262056708396949504 Gone 1
4 262056708396949504 Gras 1
.........
20 262167541718319104 18 1
21 262167541718319104 CCUFoodMan 1 2
22 262167541718319104 CCUinvolved 1 3
我也添加了空单元格,但可以忽略 答案
df['WORD\u ID']=df.groupby['DOCUMENT\u ID'].cumcount+1
解释
让我们构建一个数据框架。
作为pd进口熊猫
df
鉴于您的单词嵌套在唯一的文档ID中,我们需要一个分组操作。
df['WORD\u ID']=df.groupby['DOCUMENT\u ID'].cumcount+1
输出:
DOCUMENT_ID WORD WORD_ID
0 262056708396949504 DVD 1
1 262056708396949504 Girls 2
2 262056708396949504 Gras 3
3 262056708396949504 Gone 4
4 262167541718319104 DVD 1
5 262167541718319104 Girls 2
6 262167541718319104 Gone 3
DOCUMENT_ID WORD
0 262056708396949504 DVD
1 262056708396949504 Girls
2 262056708396949504 Gras
3 262056708396949504 Gone
4 262167541718319104 DVD
5 262167541718319104 Girls
6 262167541718319104 Gone
DOCUMENT_ID WORD WORD_ID
0 262056708396949504 DVD 1
1 262056708396949504 Girls 2
2 262056708396949504 Gras 3
3 262056708396949504 Gone 4
4 262167541718319104 DVD 1
5 262167541718319104 Girls 2
6 262167541718319104 Gone 3