Text 词根转换

Text 词根转换,text,machine-learning,corpus,Text,Machine Learning,Corpus,有没有一种有效的方法可以将语料库中所有不同的单词(你不熟悉的语言)转换成词根 例如,在英语中,这意味着将播放、播放、和播放转换为播放执行,执行,完成,以及执行进入执行鸟类进入鸟类;等等 我的想法是重复使用频率较低的单词,并测试该单词的子字符串是否是频率较高的单词之一。我不认为这是好的,因为首先,它不会影响不规则动词,其次,我不确定它是否总是单词的“根”比其他变体更频繁。这种方法也可能会错误地更改某些单词,这些单词与其中包含的常用单词完全不同 我想这样做的原因是我正在处理一个分类问题,并且我认为如

有没有一种有效的方法可以将语料库中所有不同的单词(你不熟悉的语言)转换成词根

例如,在英语中,这意味着将
播放
播放
、和
播放
转换为
播放
<代码>执行,
执行
完成
,以及
执行
进入
执行
<编码>鸟类进入
鸟类
;等等

我的想法是重复使用频率较低的单词,并测试该单词的子字符串是否是频率较高的单词之一。我不认为这是好的,因为首先,它不会影响不规则动词,其次,我不确定它是否总是单词的“根”比其他变体更频繁。这种方法也可能会错误地更改某些单词,这些单词与其中包含的常用单词完全不同

我想这样做的原因是我正在处理一个分类问题,并且我认为如果我在预处理步骤上做得更好,我会得到更好的结果。如果你做过类似的事情或有想法,请分享


谢谢大家!

你应该研究柠檬化。您还可以尝试进行词干分析。引理化通常是一个更复杂的过程(涉及诸如词性之类的事情,以找到合适的引理),因此根据您的用例,派生可能就足够了(但是从上面的声音来看,引理就是您想要的)。哦,很多标准NLP库都可以帮上忙(查看斯坦福NLP core和nltk)@JPC谢谢。现在我知道了这个过程的实际名称,我找到了一个专门针对我正在研究的语言(巴斯克)的柠檬化器!尽管仍然存在这个工具不能作为源代码使用的问题;它只在网页上提供。我试图通过
curl
自动获取单词引理,但我不知道如何从弹出窗口获取输出。你能帮我解决这个问题吗?(很抱歉偏离主题——我认为这是一个不值得为其创建另一个线程的快速问题)