Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/340.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 什么';为了主题提取,在评论中删除外来词的最佳方法是什么?_Python_Text Mining - Fatal编程技术网

Python 什么';为了主题提取,在评论中删除外来词的最佳方法是什么?

Python 什么';为了主题提取,在评论中删除外来词的最佳方法是什么?,python,text-mining,Python,Text Mining,这个问题实际上有两个部分,删除外来词是否必要,以及实现这一点的最佳方式是什么 我是一个初学者,尝试从英语食品评论中提取主题,基本上是使用Python中的潜在dirchlet分配。输出是5个主题,每个主题50个单词,我使用NLTK删除了英语单词。 但是有一个(而且只有一个)主题包含许多可能没有意义的外来词,比如“de”“la”“et”“les” 包含以下文字的一些原始评论: -点菜寿司很棒。这锅汤又大又好吃。 -我很想回去试试他们的安蒂库科斯,切维切德米克托,考考,阿吉德加利纳和乔法德卡马隆。 -

这个问题实际上有两个部分,删除外来词是否必要,以及实现这一点的最佳方式是什么

我是一个初学者,尝试从英语食品评论中提取主题,基本上是使用Python中的潜在dirchlet分配。输出是5个主题,每个主题50个单词,我使用NLTK删除了英语单词。 但是有一个(而且只有一个)主题包含许多可能没有意义的外来词,比如“de”“la”“et”“les”

包含以下文字的一些原始评论:

-点菜寿司很棒。这锅汤又大又好吃。
-我很想回去试试他们的安蒂库科斯,切维切德米克托,考考,阿吉德加利纳和乔法德卡马隆。
-我推荐停车场的病人。如果我不承认这是全国最好的酒吧,那我就是在撒谎

下一步是获取用户向量、项目向量和训练、测试、验证结果

这些词是有意义的,还是应该删除

如何删除这些单词

下面问题中的一个答案建议使用NLKT英语单词集,但我发现单词集非常小,像“de”“un”这样的单词无法删除

words = set(nltk.corpus.words.words())
len(words) #235892
另一种方法建议对python包进行附魔,但不再维护它

我得到的主题结果是:


比萨饼汉堡奶酪好地方地壳酱汉堡订购和服务配料比萨饼如la fresh le thin restaurant un slice最佳送货时间倒肉汤美味大蒜菜单尝试辣香肠最美味回味les三明治肉食品更好的风格快速加上分钟的小馅饼洋葱pas

自然语言处理是IT中永无止境的问题。然而,有一些解决办法。我可以给你两个提示:忘记用文字删除它。使用一组世界。在许多语言中,只有一个词是有意义的,这就是为什么你不应该删除
a
,而是试着按单查找
a
。第二个提示是,您可以分析文本,只选择出现次数最多的单词。但这些可能不是最好的解决方案:)