R 文本挖掘-具有大量拼写问题和差异的特征

R 文本挖掘-具有大量拼写问题和差异的特征,r,nlp,text-mining,knime,R,Nlp,Text Mining,Knime,我想了解一下“颜色”这一特征。问题是它有15000多个规范,有很多拼写问题(例如brwon brown、oliv olive),但其中也有差异(浅蓝色) 如何理解这样一个特性?是否有任何资源、R包或python模块?R可以使用aspell(命令可用)。但是您需要在您的机器上安装aspell,甚至可能需要安装拼写。例如,Hunspell在chrome/firefox和Rstudio中用作拼写检查 阅读本文了解更多关于R中aspell和hunspell的信息 但这只会处理拼写错误。您可以使用正则表达

我想了解一下“颜色”这一特征。问题是它有15000多个规范,有很多拼写问题(例如brwon brown、oliv olive),但其中也有差异(浅蓝色)

如何理解这样一个特性?是否有任何资源、R包或python模块?

R可以使用aspell(命令可用)。但是您需要在您的机器上安装aspell,甚至可能需要安装拼写。例如,Hunspell在chrome/firefox和Rstudio中用作拼写检查

阅读本文了解更多关于R中aspell和hunspell的信息

但这只会处理拼写错误。您可以使用正则表达式查找主颜色