NLP：从文本中检索词汇表_Nlp_Vocabulary

NLP：从文本中检索词汇表

nlp

NLP：从文本中检索词汇表,nlp,vocabulary,Nlp,Vocabulary,我有一些不同语言的文本，可能有一些打字错误或其他错误，我想检索他们自己的词汇。一般来说，我对NLP没有经验，所以可能我使用了一些不正确的词强词>词汇量我指的是一种单语言的词集合，其中每个词都是唯一的，不考虑性别、数字或时态的变化（例如，思考、思考和思考都是在思考）。这是一个主要的问题，所以让我们把它简化为一种语言的词汇检索，例如英语，并且没有错误我认为（至少）有三种不同的方法，解决方案可能由它们的组合组成：在数据库中搜索相互关联的单词。因此，我可以搜索思想（考虑动词）并阅读相关信息，即

我有一些不同语言的文本，可能有一些打字错误或其他错误，我想检索他们自己的词汇。一般来说，我对NLP没有经验，所以可能我使用了一些不正确的词

<>强词>词汇量<强>我指的是一种单语言的词集合，其中每个词都是唯一的，不考虑性别、数字或时态的变化（例如，思考、思考和思考都是在思考）。这是一个主要的问题，所以让我们把它简化为一种语言的词汇检索，例如英语，并且没有错误

我认为（至少）有三种不同的方法，解决方案可能由它们的组合组成：

在数据库中搜索相互关联的单词。因此，我可以搜索思想（考虑动词）并阅读相关信息，即思想是思想的一种变化

通过处理屈折形式计算单词的“基本形式”（没有屈折的单词）。也许可以用词干来完成

通过任何API使用服务。是的，我也接受这种方法，但我更喜欢在本地进行

对于第一近似值，算法没有必要区分名词和动词。例如，如果在文本中有一个单词同时被认为是名词和动词，那么在第二次匹配时，它可以被认为已经出现在词汇表中
我们减少了问题，没有错误地阅读英文文本的词汇，也不考虑单词的标记。
有什么办法吗？或者只是一些提示

当然，如果您对这个问题还有其他限制条件（错误和多语言，不仅仅是印欧语言）有建议，我们将不胜感激。
您需要柠檬化-它与您的第二项类似，但不完全相同（）
尝试使用Python或/或Java。实际上nltk使用WordNet，所以它实际上是第一种和第二种方法的结合
为了处理错误，在柠檬化之前使用拼写更正。查看或谷歌搜索适当的LIB
关于词性标签，不幸的是，NLTK不考虑POS标签（和一般的上下文），所以你应该给它提供NLTK POS标签所能找到的标签。同样，已经讨论过了（以及相关/链接的问题）。我不确定斯坦福NLP在这里-我猜它应该考虑上下文，但我确信NLTK这样做。正如我从中看到的，斯坦福大学不使用POS标签，而Clear NLP使用POS标签
关于其他语言-谷歌的柠檬化模型，因为大多数语言（至少来自同一个家族）的算法几乎相同，不同之处在于训练数据。以德语为例；正如我所看到的，这是几种柠檬酒的包装

然而，使用词干分析器总是以牺牲精度为代价的，而且词干分析器更容易用于不同的语言。
主题词已成为当今世界兴起的争论的一个组成部分。有些人认为主题词（同义词）是有益的，而反对者则认为它会导致许多问题，从而否定了这一观点。在我看来，主题词（同义词）在全球范围内的积极影响大于消极影响。本文将进一步阐述这一趋势的积极和消极影响，从而得出一个合理的结论
一方面，有无数的论据支持我的信仰。这个话题有很多优点。其中最突出的是主题词（同义词）。根据西悉尼大学进行的研究，70%以上的用户支持主题词（同义词）带来的好处。第二，论文选题的优势。因此，可以说主题词（同义词）在我们的生活中起着至关重要的作用
另一方面，批评家们可能会指出，主题词（同义词）最显著的缺点之一是，由于缺点与主题相关。例如，在美国进行的一项调查显示，这是一个错误。因此，这个例子清楚地表明，它对我们的生存有各种负面影响

因此，在检查了进一步的段落后，我深信它的优点比缺点更具说服力。主题词（同义词）已经成为我们生活中至关重要的一部分。因此，应提倡主题词（同义词）的有效使用方法；然而，过度使用和误用应该受到谴责。
您可以先使用wiktionary数据库approach@VsevolodDyomkin谢谢你的关注。我发现Wiktionary没有一套严格的信息规则。它有一些指导原则，但不能保证定义的结构（如中所述）。您知道其他具有严格结构的数据库吗？是的，wiktionary是半结构化的，但您仍然可以从wiktionary定义中提取单词形式（这里有一些示例代码，说明如何处理它们，但您也可以查看不同的工具，如wiktionary到mysql、wiktionary到redis或wiktionary到dbpedia）@VsevolodDyomkin在链接中给出了一个404，看起来应该是这样的（我说不出区别，但这个对我有用？）柠檬化是一个非常有用的技巧。非常感谢。