基于R文本分析的拼写错误识别词干提取

基于R文本分析的拼写错误识别词干提取,r,replace,words,tm,stemming,R,Replace,Words,Tm,Stemming,我是R中TM软件包的新手。我正在尝试执行词频分析,但我知道源文件中存在几个拼写问题,我想知道如何在执行词频分析之前修复这些拼写错误 我已经读了另一篇文章(),但我对其中提出的解决方案有一个问题:在创建TermDocumentMatrix和词频分析之前,是否可以使用字典(例如数据框)在我的语料库中进行几个/所有替换 我有一个带有字典的数据框,其结构如下: sept -> september sep -> september acct -> account s

我是R中TM软件包的新手。我正在尝试执行词频分析,但我知道源文件中存在几个拼写问题,我想知道如何在执行词频分析之前修复这些拼写错误

我已经读了另一篇文章(),但我对其中提出的解决方案有一个问题:在创建TermDocumentMatrix和词频分析之前,是否可以使用字典(例如数据框)在我的语料库中进行几个/所有替换

我有一个带有字典的数据框,其结构如下:

sept   -> september  
sep    -> september  
acct -> account  
serv  -> service  
servic     -> service  
adj    ->   adjustment  
ajuste   -> adjustment  
我知道我可以开发一个函数来对我的语料库执行转换,但我真的不知道如何自动化这个任务,如何对数据帧上的每条记录执行循环或类似的操作


如果您有任何帮助,我们将不胜感激。

关于从标准英语词典自动构造词干分析器的基本内容,已经显示了您的需求


您只需添加代码,以合成可能的拼写错误,或使用Levenshtein distance(请参见
adist
)等单词距离度量在语料库中匹配(常见)拼写错误,从而在词典中找到最接近的匹配项。

这完全取决于您的语料库是什么-什么语言,什么首字母缩写,哪些领域特定的术语等,但如果您只想从标准英语(或任何语言)词典自动构造词干分析器,那么请显示您想要的。您只需添加代码来合成可能的拼写错误,或者使用Levenshtein distance(请参见
adist
)等单词距离度量来查找字典中最接近的匹配项。实际上,语料库是西班牙语的。你知道在哪里可以找到关于如何构建西班牙语词干分析器的指南吗?只需使用MrFlick的答案和
tm\u地图(语料库,stemDocument,language=“西班牙语”)
tm::stemDocument(…language='lang')
calls
SnowballC::wordStem()
它为
Snowball中的所有语言都内置了词干分析器c::getStemLanguages()
即“丹麦语”“荷兰语”“英语”“芬兰语”“法语”“德语”“匈牙利语”“意大利语”“挪威语”“波特语”“葡萄牙语”“罗马尼亚语”“俄语”“西班牙语”“瑞典语”“土耳其语”。请参阅
tm
SnowballC
软件包的文档。