在Python中从字符串列中删除停止字_Python_Python 3.x_Nlp_Nltk_Stop Words

在Python中从字符串列中删除停止字

python python-3.x nlp

在Python中从字符串列中删除停止字,python,python-3.x,nlp,nltk,stop-words,Python,Python 3.x,Nlp,Nltk,Stop Words,我正在做一个项目，阅读课文并预测结果。作为清理数据的一部分，我正在尝试删除所有停止字。当我尝试这样做时，我需要输出为datafram格式，但我遇到了一些问题所以，经过多次清理，我得到了数据，它看起来像这样。标签位于不同的数据框中，我必须合并，但这不是重点我现在要做的是从每行的每个字符串中删除所有的停止字经过一些研究，我使用的代码如下所示： import nltk from nltk.corpus import stopwords nltk.download('stopwords') s

我正在做一个项目，阅读课文并预测结果。作为清理数据的一部分，我正在尝试删除所有停止字。当我尝试这样做时，我需要输出为datafram格式，但我遇到了一些问题

所以，经过多次清理，我得到了数据，它看起来像这样。

标签位于不同的数据框中，我必须合并，但这不是重点

我现在要做的是从每行的每个字符串中删除所有的停止字

经过一些研究，我使用的代码如下所示：

import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))
ht_comments_only_no_stop['All_Comments'] = ht_comments_only_summary['All_Comments'].apply(lambda x: [item for item in x if item not in stop_words])

ht_评论_only_摘要基本上就是您在上面第一张图片中看到的内容

问题是，现在当我尝试查看“ht\u评论\u仅\u无\u停止”时，我看到：

但我需要的是输出看起来就像数据帧格式的第一张图片减去“all_Comments”列下的所有stopwords

任何帮助都将不胜感激。

好的，我知道了

首先，有一个不同的问题，我需要将字符串分解成一个单词列表

然后，我可以成功地删除停止字

最后，我能够将输出转换回数据帧

最好的

好的，我知道了

首先，有一个不同的问题，我需要将字符串分解成一个单词列表

然后，我可以成功地删除停止字

最后，我能够将输出转换回数据帧

最好的