Nlp 有开源的自学习词干分析器吗？_Nlp_Stemming_Morphological Analysis_Lemmatization

Nlp 有开源的自学习词干分析器吗？

nlp

Nlp 有开源的自学习词干分析器吗？,nlp,stemming,morphological-analysis,lemmatization,Nlp,Stemming,Morphological Analysis,Lemmatization,我需要实现某种类型的词干分析器/柠檬化器。我有一些不同形式的单词（几千个）。这不是一本形态学词典，只是其中的一小部分。从文件中自动学习词干分析器是个好主意吗？有没有可以使用的开源实现？你说的是英语吗？那么请看 . 考虑到大量的例外情况，没有大型词典的机器学习方法似乎不太有前途。你是说英语吗？那么请看 . 考虑到大量的例外情况，没有大型词典的机器学习方法似乎不太有希望。阿塞拜疆语是一种粘合语言，类似于土耳其语，这意味着单词通常有一系列后缀（例如，一个后缀表示复数，一个后缀表示宾格）。它还有元音和声

我需要实现某种类型的词干分析器/柠檬化器。我有一些不同形式的单词（几千个）。这不是一本形态学词典，只是其中的一小部分。从文件中自动学习词干分析器是个好主意吗？有没有可以使用的开源实现？

你说的是英语吗？那么请看

. 考虑到大量的例外情况，没有大型词典的机器学习方法似乎不太有前途。

你是说英语吗？那么请看

. 考虑到大量的例外情况，没有大型词典的机器学习方法似乎不太有希望。

阿塞拜疆语是一种粘合语言，类似于土耳其语，这意味着单词通常有一系列后缀（例如，一个后缀表示复数，一个后缀表示宾格）。它还有元音和声，这意味着每个后缀都有几个变体，您可以根据词根中的元音选择正确的变体

我要做的是：

确定后缀列表。我会尝试两种无监督的方法（？也许试试？）和谷歌搜索后缀列表（这些后缀通常只包含一个基本后缀，根据元音和声的不同而变化）。迭代地，你应该得到一些合理的列表。如果我怀疑某个东西是否是后缀，我会把它扔进去
使用列表从单词中删除后缀

生成的词干分析器会很嘈杂，但取决于您需要它做什么，这可能无关紧要。

阿塞拜疆语是一种粘着语言，类似于土耳其语，这意味着单词通常有一系列后缀（例如，一个后缀表示复数，一个后缀表示宾格）。它还有元音和声，这意味着每个后缀都有几个变体，您可以根据词根中的元音选择正确的变体

我要做的是：

确定后缀列表。我会尝试两种无监督的方法（？也许试试？）和谷歌搜索后缀列表（这些后缀通常只包含一个基本后缀，根据元音和声的不同而变化）。迭代地，你应该得到一些合理的列表。如果我怀疑某个东西是否是后缀，我会把它扔进去
使用列表从单词中删除后缀

生成的词干分析器会产生噪音，但取决于您需要它做什么，这可能无关紧要。

您应该查看John Goldsmith及其团队（@UChicago）为此开发的词干分析器。

您应该查看John Goldsmith及其团队（@UChicago）开发的词干分析器为此，Nuve是一个针对突厥语的NLP库。一旦语言规则和数据准备好，它就可以分析和生成任何突厥语（如果不是任何粘合语）的单词。你可以为azeri准备新的正字法和形态学文件

由于我是作者，我很乐意帮助您完成这个过程。

Nuve是一个针对突厥语的NLP库。一旦语言规则和数据准备好，它就可以分析和生成任何突厥语（如果不是任何粘合语）的单词。你可以为azeri准备新的正字法和形态学文件

由于我是作者，我很乐意帮助您完成这个过程。

不，它不是英文的，否则我会使用现有的柠檬汁机。不幸的是，除了那几千个字，我什么也没找到。而且我根本不会说这种语言。我不是在建议机器学习，我认为它在这里不适用。我正在考虑通过从单词列表中学习足够的词干来构建词干分析器（其中有相同单词的不同形式）。不，这不是英语，否则我会使用现有的lemmatizer。不幸的是，除了那几千个字，我什么也没找到。而且我根本不会说这种语言。我不是在建议机器学习，我认为它在这里不适用。我正在考虑通过从单词列表中学习足够的单词来构建词干分析器（相同单词有不同的形式）。你需要它做什么？（取决于应用程序，需要不同级别/类型的精度）那么，你实现了吗？没有，没有足够的时间最终你需要它做什么？（取决于应用程序，需要不同级别/类型的准确性）那么，您实施了吗？没有，最终没有得到足够的时间阿塞拜疆有一项服务。它不是开源的。阿塞拜疆stemmer的演示页面在这里：这里有一个针对阿塞拜疆的服务。它不是开源的。阿塞拜疆stemmer的演示页面如下：