NLP:从文本中检索词汇表
我有一些不同语言的文本,可能有一些打字错误或其他错误,我想检索他们自己的词汇。一般来说,我对NLP没有经验,所以可能我使用了一些不正确的词 <>强词>词汇量<强>我指的是一种单语言的词集合,其中每个词都是唯一的,不考虑性别、数字或时态的变化(例如,思考、思考和思考都是在思考)。 这是一个主要的问题,所以让我们把它简化为一种语言的词汇检索,例如英语,并且没有错误 我认为(至少)有三种不同的方法,解决方案可能由它们的组合组成:NLP:从文本中检索词汇表,nlp,vocabulary,Nlp,Vocabulary,我有一些不同语言的文本,可能有一些打字错误或其他错误,我想检索他们自己的词汇。一般来说,我对NLP没有经验,所以可能我使用了一些不正确的词 强词>词汇量我指的是一种单语言的词集合,其中每个词都是唯一的,不考虑性别、数字或时态的变化(例如,思考、思考和思考都是在思考)。 这是一个主要的问题,所以让我们把它简化为一种语言的词汇检索,例如英语,并且没有错误 我认为(至少)有三种不同的方法,解决方案可能由它们的组合组成: 在数据库中搜索相互关联的单词。因此,我可以搜索思想(考虑动词)并阅读相关信息,即
- 在数据库中搜索相互关联的单词。因此,我可以搜索思想(考虑动词)并阅读相关信息,即思想是思想的一种变化
- 通过处理屈折形式计算单词的“基本形式”(没有屈折的单词)。也许可以用词干来完成
- 通过任何API使用服务。是的,我也接受这种方法,但我更喜欢在本地进行
当然,如果您对这个问题还有其他限制条件(错误和多语言,不仅仅是印欧语言)有建议,我们将不胜感激。您需要柠檬化-它与您的第二项类似,但不完全相同() 尝试使用Python或/或Java。实际上nltk使用WordNet,所以它实际上是第一种和第二种方法的结合 为了处理错误,在柠檬化之前使用拼写更正。查看或谷歌搜索适当的LIB 关于词性标签,不幸的是,NLTK不考虑POS标签(和一般的上下文),所以你应该给它提供NLTK POS标签所能找到的标签。同样,已经讨论过了(以及相关/链接的问题)。我不确定斯坦福NLP在这里-我猜它应该考虑上下文,但我确信NLTK这样做。正如我从中看到的,斯坦福大学不使用POS标签,而Clear NLP使用POS标签 关于其他语言-谷歌的柠檬化模型,因为大多数语言(至少来自同一个家族)的算法几乎相同,不同之处在于训练数据。以德语为例;正如我所看到的,这是几种柠檬酒的包装
然而,使用词干分析器总是以牺牲精度为代价的,而且词干分析器更容易用于不同的语言。主题词已成为当今世界兴起的争论的一个组成部分。有些人认为主题词(同义词)是有益的,而反对者则认为它会导致许多问题,从而否定了这一观点。在我看来,主题词(同义词)在全球范围内的积极影响大于消极影响。本文将进一步阐述这一趋势的积极和消极影响,从而得出一个合理的结论 一方面,有无数的论据支持我的信仰。这个话题有很多优点。其中最突出的是主题词(同义词)。根据西悉尼大学进行的研究,70%以上的用户支持主题词(同义词)带来的好处。第二,论文选题的优势。因此,可以说主题词(同义词)在我们的生活中起着至关重要的作用 另一方面,批评家们可能会指出,主题词(同义词)最显著的缺点之一是,由于缺点与主题相关。例如,在美国进行的一项调查显示,这是一个错误。因此,这个例子清楚地表明,它对我们的生存有各种负面影响
因此,在检查了进一步的段落后,我深信它的优点比缺点更具说服力。主题词(同义词)已经成为我们生活中至关重要的一部分。因此,应提倡主题词(同义词)的有效使用方法;然而,过度使用和误用应该受到谴责。您可以先使用wiktionary数据库approach@VsevolodDyomkin谢谢你的关注。我发现Wiktionary没有一套严格的信息规则。它有一些指导原则,但不能保证定义的结构(如中所述)。您知道其他具有严格结构的数据库吗?是的,wiktionary是半结构化的,但您仍然可以从wiktionary定义中提取单词形式(这里有一些示例代码,说明如何处理它们,但您也可以查看不同的工具,如wiktionary到mysql、wiktionary到redis或wiktionary到dbpedia)@VsevolodDyomkin在链接中给出了一个404,看起来应该是这样的(我说不出区别,但这个对我有用?)柠檬化是一个非常有用的技巧。非常感谢。