Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/ruby-on-rails-4/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在Python中从字符串列中删除停止字_Python_Python 3.x_Nlp_Nltk_Stop Words - Fatal编程技术网

在Python中从字符串列中删除停止字

在Python中从字符串列中删除停止字,python,python-3.x,nlp,nltk,stop-words,Python,Python 3.x,Nlp,Nltk,Stop Words,我正在做一个项目,阅读课文并预测结果。作为清理数据的一部分,我正在尝试删除所有停止字。当我尝试这样做时,我需要输出为datafram格式,但我遇到了一些问题 所以,经过多次清理,我得到了数据,它看起来像这样。 标签位于不同的数据框中,我必须合并,但这不是重点 我现在要做的是从每行的每个字符串中删除所有的停止字 经过一些研究,我使用的代码如下所示: import nltk from nltk.corpus import stopwords nltk.download('stopwords') s

我正在做一个项目,阅读课文并预测结果。作为清理数据的一部分,我正在尝试删除所有停止字。当我尝试这样做时,我需要输出为datafram格式,但我遇到了一些问题

所以,经过多次清理,我得到了数据,它看起来像这样。

标签位于不同的数据框中,我必须合并,但这不是重点

我现在要做的是从每行的每个字符串中删除所有的停止字

经过一些研究,我使用的代码如下所示:

import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))
ht_comments_only_no_stop['All_Comments'] = ht_comments_only_summary['All_Comments'].apply(lambda x: [item for item in x if item not in stop_words])
ht_评论_only_摘要基本上就是您在上面第一张图片中看到的内容

问题是,现在当我尝试查看“ht\u评论\u仅\u无\u停止”时,我看到:

但我需要的是输出看起来就像数据帧格式的第一张图片减去“all_Comments”列下的所有stopwords

任何帮助都将不胜感激。

好的,我知道了

首先,有一个不同的问题,我需要将字符串分解成一个单词列表

然后,我可以成功地删除停止字

最后,我能够将输出转换回数据帧

最好的

好的,我知道了

首先,有一个不同的问题,我需要将字符串分解成一个单词列表

然后,我可以成功地删除停止字

最后,我能够将输出转换回数据帧

最好的