Nlp 有开源的自学习词干分析器吗?

Nlp 有开源的自学习词干分析器吗?,nlp,stemming,morphological-analysis,lemmatization,Nlp,Stemming,Morphological Analysis,Lemmatization,我需要实现某种类型的词干分析器/柠檬化器。我有一些不同形式的单词(几千个)。这不是一本形态学词典,只是其中的一小部分。从文件中自动学习词干分析器是个好主意吗?有没有可以使用的开源实现?你说的是英语吗?那么请看 . 考虑到大量的例外情况,没有大型词典的机器学习方法似乎不太有前途。你是说英语吗?那么请看 . 考虑到大量的例外情况,没有大型词典的机器学习方法似乎不太有希望。阿塞拜疆语是一种粘合语言,类似于土耳其语,这意味着单词通常有一系列后缀(例如,一个后缀表示复数,一个后缀表示宾格)。它还有元音和声

我需要实现某种类型的词干分析器/柠檬化器。我有一些不同形式的单词(几千个)。这不是一本形态学词典,只是其中的一小部分。从文件中自动学习词干分析器是个好主意吗?有没有可以使用的开源实现?

你说的是英语吗?那么请看
. 考虑到大量的例外情况,没有大型词典的机器学习方法似乎不太有前途。

你是说英语吗?那么请看
. 考虑到大量的例外情况,没有大型词典的机器学习方法似乎不太有希望。

阿塞拜疆语是一种粘合语言,类似于土耳其语,这意味着单词通常有一系列后缀(例如,一个后缀表示复数,一个后缀表示宾格)。它还有元音和声,这意味着每个后缀都有几个变体,您可以根据词根中的元音选择正确的变体

我要做的是:

  • 确定后缀列表。我会尝试两种无监督的方法(?也许试试?)和谷歌搜索后缀列表(这些后缀通常只包含一个基本后缀,根据元音和声的不同而变化)。迭代地,你应该得到一些合理的列表。如果我怀疑某个东西是否是后缀,我会把它扔进去
  • 使用列表从单词中删除后缀

生成的词干分析器会很嘈杂,但取决于您需要它做什么,这可能无关紧要。

阿塞拜疆语是一种粘着语言,类似于土耳其语,这意味着单词通常有一系列后缀(例如,一个后缀表示复数,一个后缀表示宾格)。它还有元音和声,这意味着每个后缀都有几个变体,您可以根据词根中的元音选择正确的变体

我要做的是:

  • 确定后缀列表。我会尝试两种无监督的方法(?也许试试?)和谷歌搜索后缀列表(这些后缀通常只包含一个基本后缀,根据元音和声的不同而变化)。迭代地,你应该得到一些合理的列表。如果我怀疑某个东西是否是后缀,我会把它扔进去
  • 使用列表从单词中删除后缀

生成的词干分析器会产生噪音,但取决于您需要它做什么,这可能无关紧要。

您应该查看John Goldsmith及其团队(@UChicago)为此开发的词干分析器。

您应该查看John Goldsmith及其团队(@UChicago)开发的词干分析器为此,Nuve是一个针对突厥语的NLP库。一旦语言规则和数据准备好,它就可以分析和生成任何突厥语(如果不是任何粘合语)的单词。你可以为azeri准备新的正字法和形态学文件


由于我是作者,我很乐意帮助您完成这个过程。

Nuve是一个针对突厥语的NLP库。一旦语言规则和数据准备好,它就可以分析和生成任何突厥语(如果不是任何粘合语)的单词。你可以为azeri准备新的正字法和形态学文件


由于我是作者,我很乐意帮助您完成这个过程。

不,它不是英文的,否则我会使用现有的柠檬汁机。不幸的是,除了那几千个字,我什么也没找到。而且我根本不会说这种语言。我不是在建议机器学习,我认为它在这里不适用。我正在考虑通过从单词列表中学习足够的词干来构建词干分析器(其中有相同单词的不同形式)。不,这不是英语,否则我会使用现有的lemmatizer。不幸的是,除了那几千个字,我什么也没找到。而且我根本不会说这种语言。我不是在建议机器学习,我认为它在这里不适用。我正在考虑通过从单词列表中学习足够的单词来构建词干分析器(相同单词有不同的形式)。你需要它做什么?(取决于应用程序,需要不同级别/类型的精度)那么,你实现了吗?没有,没有足够的时间最终你需要它做什么?(取决于应用程序,需要不同级别/类型的准确性)那么,您实施了吗?没有,最终没有得到足够的时间阿塞拜疆有一项服务。它不是开源的。阿塞拜疆stemmer的演示页面在这里:这里有一个针对阿塞拜疆的服务。它不是开源的。阿塞拜疆stemmer的演示页面如下: