Language agnostic &引用;“停止说话”;英语的名单?
我正在为一些英语文本生成一些统计数据,我想跳过一些不感兴趣的单词,如“a”和“the”Language agnostic &引用;“停止说话”;英语的名单?,language-agnostic,indexing,filtering,stop-words,nlp,Language Agnostic,Indexing,Filtering,Stop Words,Nlp,我正在为一些英语文本生成一些统计数据,我想跳过一些不感兴趣的单词,如“a”和“the” 我在哪里可以找到这些无趣单词的列表 列出这些单词与列出英语中最常用的单词相同吗 更新:这些显然被称为“停止词”,而不是“跳过词”。这些被称为,检查一下这个放进谷歌的神奇词是“停止词”。这就出现了 MySQL也有一个,但这对我来说太全面了。例如,在我们的大学图书馆,我们遇到了问题,因为“第三世界”中的“第三”被认为是一个停止词。获取大型txt语料库中词频的统计信息。忽略所有频率>某个数字的单词。我想我在不久
- 我在哪里可以找到这些无趣单词的列表
- 列出这些单词与列出英语中最常用的单词相同吗
更新:这些显然被称为“停止词”,而不是“跳过词”。这些被称为,检查一下这个放进谷歌的神奇词是“停止词”。这就出现了
MySQL也有一个,但这对我来说太全面了。例如,在我们的大学图书馆,我们遇到了问题,因为“第三世界”中的“第三”被认为是一个停止词。获取大型txt语料库中词频的统计信息。忽略所有频率>某个数字的单词。我想我在不久前用lucene.net构建搜索应用程序时使用了德语的停止词列表。该网站还包含一个英语列表,该网站上的列表显然也是lucene项目默认使用的列表。根据您工作的英语子域,您可能会/希望编辑自己的停止词列表。某些通用停止词在域中可能有意义。“are”这个词实际上可能是。相反,根据您的应用程序,您可能希望忽略某些特定于领域的单词,而在普通英语领域中,您可能不希望忽略这些单词。例如,如果您正在分析医院报告的语料库,您可能希望忽略诸如“病史”和“症状”之类的词,因为它们会出现在每个报告中,并且可能没有用处(从简单的索引角度来看)
否则,谷歌返回的列表就可以了。波特词干分析器和Lucene seach引擎实现。通常,这些词会以最高频率出现在文档中。 假设您有一个全局单词列表:
{ Word Count }
对于单词列表,如果您将单词从最高计数排列到最低计数,您将拥有一个图形(计数(y轴)和单词(x轴),这是一个逆对数函数。所有停止单词将位于左侧,“停止单词”的停止点将位于存在最高一阶导数的位置
此解决方案优于字典尝试:
- 此解决方案是一种通用的方法,不受语言的约束
- 这一尝试学习哪些词被视为“停止词”
- 此尝试将为非常相似的集合产生更好的结果,并为集合中的项目生成唯一的单词列表
- 停止字可以在以后重新计算(这样可以缓存和统计确定停止字可能已从计算时更改)
- 这还可以消除基于时间的或非正式的单词和名称(例如俚语,或者如果您有一堆以公司名称为标题的文档)
- 查找时间要快得多
- 结果是预先确定的
- 很简单
- 还有一些人想出了停止语