在Python中从字符串列中删除停止字
我正在做一个项目,阅读课文并预测结果。作为清理数据的一部分,我正在尝试删除所有停止字。当我尝试这样做时,我需要输出为datafram格式,但我遇到了一些问题 所以,经过多次清理,我得到了数据,它看起来像这样。 标签位于不同的数据框中,我必须合并,但这不是重点 我现在要做的是从每行的每个字符串中删除所有的停止字 经过一些研究,我使用的代码如下所示:在Python中从字符串列中删除停止字,python,python-3.x,nlp,nltk,stop-words,Python,Python 3.x,Nlp,Nltk,Stop Words,我正在做一个项目,阅读课文并预测结果。作为清理数据的一部分,我正在尝试删除所有停止字。当我尝试这样做时,我需要输出为datafram格式,但我遇到了一些问题 所以,经过多次清理,我得到了数据,它看起来像这样。 标签位于不同的数据框中,我必须合并,但这不是重点 我现在要做的是从每行的每个字符串中删除所有的停止字 经过一些研究,我使用的代码如下所示: import nltk from nltk.corpus import stopwords nltk.download('stopwords') s
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))
ht_comments_only_no_stop['All_Comments'] = ht_comments_only_summary['All_Comments'].apply(lambda x: [item for item in x if item not in stop_words])
ht_评论_only_摘要基本上就是您在上面第一张图片中看到的内容
问题是,现在当我尝试查看“ht\u评论\u仅\u无\u停止”时,我看到:
但我需要的是输出看起来就像数据帧格式的第一张图片减去“all_Comments”列下的所有stopwords
任何帮助都将不胜感激。好的,我知道了
首先,有一个不同的问题,我需要将字符串分解成一个单词列表
然后,我可以成功地删除停止字
最后,我能够将输出转换回数据帧
最好的好的,我知道了
首先,有一个不同的问题,我需要将字符串分解成一个单词列表
然后,我可以成功地删除停止字
最后,我能够将输出转换回数据帧
最好的