Language agnostic &引用；“停止说话”；英语的名单？_Language Agnostic_Indexing_Filtering_Stop Words_Nlp

Language agnostic &引用；“停止说话”；英语的名单？

language-agnostic indexing nlp

Language agnostic &引用；“停止说话”；英语的名单？,language-agnostic,indexing,filtering,stop-words,nlp,Language Agnostic,Indexing,Filtering,Stop Words,Nlp,我正在为一些英语文本生成一些统计数据，我想跳过一些不感兴趣的单词，如“a”和“the” 我在哪里可以找到这些无趣单词的列表列出这些单词与列出英语中最常用的单词相同吗更新：这些显然被称为“停止词”，而不是“跳过词”。这些被称为，检查一下这个放进谷歌的神奇词是“停止词”。这就出现了 MySQL也有一个，但这对我来说太全面了。例如，在我们的大学图书馆，我们遇到了问题，因为“第三世界”中的“第三”被认为是一个停止词。获取大型txt语料库中词频的统计信息。忽略所有频率>某个数字的单词。我想我在不久

我正在为一些英语文本生成一些统计数据，我想跳过一些不感兴趣的单词，如“a”和“the”

我在哪里可以找到这些无趣单词的列表
列出这些单词与列出英语中最常用的单词相同吗

更新：这些显然被称为“停止词”，而不是“跳过词”。

这些被称为，检查一下这个放进谷歌的神奇词是“停止词”。这就出现了

MySQL也有一个，但这对我来说太全面了。例如，在我们的大学图书馆，我们遇到了问题，因为“第三世界”中的“第三”被认为是一个停止词。

获取大型txt语料库中词频的统计信息。忽略所有频率>某个数字的单词。

我想我在不久前用lucene.net构建搜索应用程序时使用了德语的停止词列表。该网站还包含一个英语列表，该网站上的列表显然也是lucene项目默认使用的列表。

根据您工作的英语子域，您可能会/希望编辑自己的停止词列表。某些通用停止词在域中可能有意义。“are”这个词实际上可能是。相反，根据您的应用程序，您可能希望忽略某些特定于领域的单词，而在普通英语领域中，您可能不希望忽略这些单词。例如，如果您正在分析医院报告的语料库，您可能希望忽略诸如“病史”和“症状”之类的词，因为它们会出现在每个报告中，并且可能没有用处（从简单的索引角度来看）

否则，谷歌返回的列表就可以了。波特词干分析器和Lucene seach引擎实现。

通常，这些词会以最高频率出现在文档中。假设您有一个全局单词列表：

{ Word Count }

对于单词列表，如果您将单词从最高计数排列到最低计数，您将拥有一个图形（计数（y轴）和单词（x轴），这是一个逆对数函数。所有停止单词将位于左侧，“停止单词”的停止点将位于存在最高一阶导数的位置

此解决方案优于字典尝试：

此解决方案是一种通用的方法，不受语言的约束
这一尝试学习哪些词被视为“停止词”
此尝试将为非常相似的集合产生更好的结果，并为集合中的项目生成唯一的单词列表
停止字可以在以后重新计算（这样可以缓存和统计确定停止字可能已从计算时更改）
这还可以消除基于时间的或非正式的单词和名称（例如俚语，或者如果您有一堆以公司名称为标题的文档）

字典尝试更好：

查找时间要快得多
结果是预先确定的
很简单
还有一些人想出了停止语

lol，这正是我试图避免的工作！可能有一些他想跳过的单词（因为它们在英语中是句法上的糖分），但却不像他想保留的单词那样常见（因为它们是该领域的典型）。不过，我想不出任何精彩的例子。也许是“你”和“一”？标题编辑是完全合法的，最重要的是，/使之成为一个实际的问题/。你为什么要将其回滚？似乎有13.9k代表的人能够将问题表述为一个问题。你知道，非英语的停止词如何？你可以在你的链接中找到停止词列表，存档：The（Natural Language Toolkit，一个python库）附带了一系列资源，包括stopword语料库（Porter等人），“11种语言的2400个stopword”。您可以使用独立于该工具包的stopword列表。我如何访问NLTK中2400个stopword的语料库？NLTK中的英语stop Word是标记化的。因此，不要使用“不应该”它列出了“不应该”