Python 什么';为了主题提取,在评论中删除外来词的最佳方法是什么?
这个问题实际上有两个部分,删除外来词是否必要,以及实现这一点的最佳方式是什么 我是一个初学者,尝试从英语食品评论中提取主题,基本上是使用Python中的潜在dirchlet分配。输出是5个主题,每个主题50个单词,我使用NLTK删除了英语单词。 但是有一个(而且只有一个)主题包含许多可能没有意义的外来词,比如“de”“la”“et”“les” 包含以下文字的一些原始评论:Python 什么';为了主题提取,在评论中删除外来词的最佳方法是什么?,python,text-mining,Python,Text Mining,这个问题实际上有两个部分,删除外来词是否必要,以及实现这一点的最佳方式是什么 我是一个初学者,尝试从英语食品评论中提取主题,基本上是使用Python中的潜在dirchlet分配。输出是5个主题,每个主题50个单词,我使用NLTK删除了英语单词。 但是有一个(而且只有一个)主题包含许多可能没有意义的外来词,比如“de”“la”“et”“les” 包含以下文字的一些原始评论: -点菜寿司很棒。这锅汤又大又好吃。 -我很想回去试试他们的安蒂库科斯,切维切德米克托,考考,阿吉德加利纳和乔法德卡马隆。 -
-点菜寿司很棒。这锅汤又大又好吃。
-我很想回去试试他们的安蒂库科斯,切维切德米克托,考考,阿吉德加利纳和乔法德卡马隆。
-我推荐停车场的病人。如果我不承认这是全国最好的酒吧,那我就是在撒谎代码>
下一步是获取用户向量、项目向量和训练、测试、验证结果
这些词是有意义的,还是应该删除
如何删除这些单词
下面问题中的一个答案建议使用NLKT英语单词集,但我发现单词集非常小,像“de”“un”这样的单词无法删除
words = set(nltk.corpus.words.words())
len(words) #235892
另一种方法建议对python包进行附魔,但不再维护它
我得到的主题结果是:
比萨饼汉堡奶酪好地方地壳酱汉堡订购和服务配料比萨饼如la fresh le thin restaurant un slice最佳送货时间倒肉汤美味大蒜菜单尝试辣香肠最美味回味les三明治肉食品更好的风格快速加上分钟的小馅饼洋葱pas
自然语言处理是IT中永无止境的问题。然而,有一些解决办法。我可以给你两个提示:忘记用文字删除它。使用一组世界。在许多语言中,只有一个词是有意义的,这就是为什么你不应该删除a
,而是试着按单查找a
。第二个提示是,您可以分析文本,只选择出现次数最多的单词。但这些可能不是最好的解决方案:)