Language agnostic &引用;“停止说话”;英语的名单?

Language agnostic &引用;“停止说话”;英语的名单?,language-agnostic,indexing,filtering,stop-words,nlp,Language Agnostic,Indexing,Filtering,Stop Words,Nlp,我正在为一些英语文本生成一些统计数据,我想跳过一些不感兴趣的单词,如“a”和“the” 我在哪里可以找到这些无趣单词的列表 列出这些单词与列出英语中最常用的单词相同吗 更新:这些显然被称为“停止词”,而不是“跳过词”。这些被称为,检查一下这个放进谷歌的神奇词是“停止词”。这就出现了 MySQL也有一个,但这对我来说太全面了。例如,在我们的大学图书馆,我们遇到了问题,因为“第三世界”中的“第三”被认为是一个停止词。获取大型txt语料库中词频的统计信息。忽略所有频率>某个数字的单词。我想我在不久

我正在为一些英语文本生成一些统计数据,我想跳过一些不感兴趣的单词,如“a”和“the”

  • 我在哪里可以找到这些无趣单词的列表
  • 列出这些单词与列出英语中最常用的单词相同吗

更新:这些显然被称为“停止词”,而不是“跳过词”。

这些被称为,检查一下这个放进谷歌的神奇词是“停止词”。这就出现了


MySQL也有一个,但这对我来说太全面了。例如,在我们的大学图书馆,我们遇到了问题,因为“第三世界”中的“第三”被认为是一个停止词。

获取大型txt语料库中词频的统计信息。忽略所有频率>某个数字的单词。

我想我在不久前用lucene.net构建搜索应用程序时使用了德语的停止词列表。该网站还包含一个英语列表,该网站上的列表显然也是lucene项目默认使用的列表。

根据您工作的英语子域,您可能会/希望编辑自己的停止词列表。某些通用停止词在域中可能有意义。“are”这个词实际上可能是。相反,根据您的应用程序,您可能希望忽略某些特定于领域的单词,而在普通英语领域中,您可能不希望忽略这些单词。例如,如果您正在分析医院报告的语料库,您可能希望忽略诸如“病史”和“症状”之类的词,因为它们会出现在每个报告中,并且可能没有用处(从简单的索引角度来看)


否则,谷歌返回的列表就可以了。波特词干分析器和Lucene seach引擎实现。

通常,这些词会以最高频率出现在文档中。 假设您有一个全局单词列表:

{ Word Count }
对于单词列表,如果您将单词从最高计数排列到最低计数,您将拥有一个图形(计数(y轴)和单词(x轴),这是一个逆对数函数。所有停止单词将位于左侧,“停止单词”的停止点将位于存在最高一阶导数的位置

此解决方案优于字典尝试:

  • 此解决方案是一种通用的方法,不受语言的约束
  • 这一尝试学习哪些词被视为“停止词”
  • 此尝试将为非常相似的集合产生更好的结果,并为集合中的项目生成唯一的单词列表
  • 停止字可以在以后重新计算(这样可以缓存和统计确定停止字可能已从计算时更改)
  • 这还可以消除基于时间的或非正式的单词和名称(例如俚语,或者如果您有一堆以公司名称为标题的文档)
字典尝试更好:

  • 查找时间要快得多
  • 结果是预先确定的
  • 很简单
  • 还有一些人想出了停止语

lol,这正是我试图避免的工作!可能有一些他想跳过的单词(因为它们在英语中是句法上的糖分),但却不像他想保留的单词那样常见(因为它们是该领域的典型)。不过,我想不出任何精彩的例子。也许是“你”和“一”?标题编辑是完全合法的,最重要的是,/使之成为一个实际的问题/。你为什么要将其回滚?似乎有13.9k代表的人能够将问题表述为一个问题。你知道,非英语的停止词如何?你可以在你的链接中找到停止词列表,存档:The(Natural Language Toolkit,一个python库)附带了一系列资源,包括stopword语料库(Porter等人),“11种语言的2400个stopword”。您可以使用独立于该工具包的stopword列表。我如何访问NLTK中2400个stopword的语料库?NLTK中的英语stop Word是标记化的。因此,不要使用“不应该”它列出了“不应该”