NLP:从文本中检索词汇表

NLP:从文本中检索词汇表,nlp,vocabulary,Nlp,Vocabulary,我有一些不同语言的文本,可能有一些打字错误或其他错误,我想检索他们自己的词汇。一般来说,我对NLP没有经验,所以可能我使用了一些不正确的词 强词>词汇量我指的是一种单语言的词集合,其中每个词都是唯一的,不考虑性别、数字或时态的变化(例如,思考、思考和思考都是在思考)。 这是一个主要的问题,所以让我们把它简化为一种语言的词汇检索,例如英语,并且没有错误 我认为(至少)有三种不同的方法,解决方案可能由它们的组合组成: 在数据库中搜索相互关联的单词。因此,我可以搜索思想(考虑动词)并阅读相关信息,即

我有一些不同语言的文本,可能有一些打字错误或其他错误,我想检索他们自己的词汇。一般来说,我对NLP没有经验,所以可能我使用了一些不正确的词

<>强词>词汇量<强>我指的是一种单语言的词集合,其中每个词都是唯一的,不考虑性别、数字或时态的变化(例如,思考、思考和思考都是在思考)。 这是一个主要的问题,所以让我们把它简化为一种语言的词汇检索,例如英语,并且没有错误

我认为(至少)有三种不同的方法,解决方案可能由它们的组合组成:

  • 在数据库中搜索相互关联的单词。因此,我可以搜索思想(考虑动词)并阅读相关信息,即思想是思想的一种变化
  • 通过处理屈折形式计算单词的“基本形式”(没有屈折的单词)。也许可以用词干来完成
  • 通过任何API使用服务。是的,我也接受这种方法,但我更喜欢在本地进行
对于第一近似值,算法没有必要区分名词和动词。例如,如果在文本中有一个单词同时被认为是名词和动词,那么在第二次匹配时,它可以被认为已经出现在词汇表中

我们减少了问题,没有错误地阅读英文文本的词汇,也不考虑单词的标记。

有什么办法吗?或者只是一些提示


当然,如果您对这个问题还有其他限制条件(错误和多语言,不仅仅是印欧语言)有建议,我们将不胜感激。

您需要柠檬化-它与您的第二项类似,但不完全相同()

尝试使用Python或/或Java。实际上nltk使用WordNet,所以它实际上是第一种和第二种方法的结合

为了处理错误,在柠檬化之前使用拼写更正。查看或谷歌搜索适当的LIB

关于词性标签,不幸的是,NLTK不考虑POS标签(和一般的上下文),所以你应该给它提供NLTK POS标签所能找到的标签。同样,已经讨论过了(以及相关/链接的问题)。我不确定斯坦福NLP在这里-我猜它应该考虑上下文,但我确信NLTK这样做。正如我从中看到的,斯坦福大学不使用POS标签,而Clear NLP使用POS标签

关于其他语言-谷歌的柠檬化模型,因为大多数语言(至少来自同一个家族)的算法几乎相同,不同之处在于训练数据。以德语为例;正如我所看到的,这是几种柠檬酒的包装


然而,使用词干分析器总是以牺牲精度为代价的,而且词干分析器更容易用于不同的语言。

主题词已成为当今世界兴起的争论的一个组成部分。有些人认为主题词(同义词)是有益的,而反对者则认为它会导致许多问题,从而否定了这一观点。在我看来,主题词(同义词)在全球范围内的积极影响大于消极影响。本文将进一步阐述这一趋势的积极和消极影响,从而得出一个合理的结论

一方面,有无数的论据支持我的信仰。这个话题有很多优点。其中最突出的是主题词(同义词)。根据西悉尼大学进行的研究,70%以上的用户支持主题词(同义词)带来的好处。第二,论文选题的优势。因此,可以说主题词(同义词)在我们的生活中起着至关重要的作用

另一方面,批评家们可能会指出,主题词(同义词)最显著的缺点之一是,由于缺点与主题相关。例如,在美国进行的一项调查显示,这是一个错误。因此,这个例子清楚地表明,它对我们的生存有各种负面影响


因此,在检查了进一步的段落后,我深信它的优点比缺点更具说服力。主题词(同义词)已经成为我们生活中至关重要的一部分。因此,应提倡主题词(同义词)的有效使用方法;然而,过度使用和误用应该受到谴责。

您可以先使用wiktionary数据库approach@VsevolodDyomkin谢谢你的关注。我发现Wiktionary没有一套严格的信息规则。它有一些指导原则,但不能保证定义的结构(如中所述)。您知道其他具有严格结构的数据库吗?是的,wiktionary是半结构化的,但您仍然可以从wiktionary定义中提取单词形式(这里有一些示例代码,说明如何处理它们,但您也可以查看不同的工具,如wiktionary到mysql、wiktionary到redis或wiktionary到dbpedia)@VsevolodDyomkin在链接中给出了一个404,看起来应该是这样的(我说不出区别,但这个对我有用?)柠檬化是一个非常有用的技巧。非常感谢。