在Python中,有没有一种方法可以在过滤不需要的单词时对列进行字数计算?
我们的想法是在一列中计算每个世界,但问题是我在有意义的词上面有诸如“and”、“or”、“to”、“The”等词。有什么方法可以过滤它吗 到目前为止,我在这里:在Python中,有没有一种方法可以在过滤不需要的单词时对列进行字数计算?,python,pandas,filter,count,word-count,Python,Pandas,Filter,Count,Word Count,我们的想法是在一列中计算每个世界,但问题是我在有意义的词上面有诸如“and”、“or”、“to”、“The”等词。有什么方法可以过滤它吗 到目前为止,我在这里: JobsADS = pd.read_csv (r'C:\...\monster_com-job_sample.csv') job_description = JobsADS['job_description'] JobsADS.job_description.str.split(expand=True).stack().value_co
JobsADS = pd.read_csv (r'C:\...\monster_com-job_sample.csv')
job_description = JobsADS['job_description']
JobsADS.job_description.str.split(expand=True).stack().value_counts()
顺便说一下,这些常用词通常被称为停止词。但一般来说,由于您使用的是Pandas,所以在调用
value\u counts()
之前只需过滤数据帧即可。您的问题是什么?
JobsADS.job_description.str.split(expand=True).stack().value_counts()
Out[14]:
and 435368
to 239437
the 194229
of 176424
in 126946
a 125984
with 95454
for 91456
is 60683
or 60657
as 50879
be 41531
are 35433
on 34621
work 33693
an 31349
will 30128
by 29714
experience 29031
our 28916
all 28459
...
mechanical/ 1
•Machines 1
Moppet 1
unlinked, 1
skills.-Proven 1
advice.Assist 1
DNCS, 1
reports.Apply 1
partner-level 1
CSmith@platinumhrm.comSubject: 1
plus.Requires 1
implementationMust 1
95123Job 1
FULL-SERVICE 1
calculation.Analyzing 1
800-53). 1
requirements.Monitors 1
(ADR) 1
Smartsheets 1
quality•Print, 1
Monticello, 1
workforce.Warehouse 1
DescriptionSummary:The 1