基于R文本分析的拼写错误识别词干提取_R_Replace_Words_Tm_Stemming

基于R文本分析的拼写错误识别词干提取

r replace

基于R文本分析的拼写错误识别词干提取,r,replace,words,tm,stemming,R,Replace,Words,Tm,Stemming,我是R中TM软件包的新手。我正在尝试执行词频分析，但我知道源文件中存在几个拼写问题，我想知道如何在执行词频分析之前修复这些拼写错误我已经读了另一篇文章（），但我对其中提出的解决方案有一个问题：在创建TermDocumentMatrix和词频分析之前，是否可以使用字典（例如数据框）在我的语料库中进行几个/所有替换我有一个带有字典的数据框，其结构如下： sept -> september sep -> september acct -> account s

我是R中TM软件包的新手。我正在尝试执行词频分析，但我知道源文件中存在几个拼写问题，我想知道如何在执行词频分析之前修复这些拼写错误

我已经读了另一篇文章（），但我对其中提出的解决方案有一个问题：在创建TermDocumentMatrix和词频分析之前，是否可以使用字典（例如数据框）在我的语料库中进行几个/所有替换

我有一个带有字典的数据框，其结构如下：

sept   -> september  
sep    -> september  
acct -> account  
serv  -> service  
servic     -> service  
adj    ->   adjustment  
ajuste   -> adjustment

我知道我可以开发一个函数来对我的语料库执行转换，但我真的不知道如何自动化这个任务，如何对数据帧上的每条记录执行循环或类似的操作

如果您有任何帮助，我们将不胜感激。

关于从标准英语词典自动构造词干分析器的基本内容，已经显示了您的需求

您只需添加代码，以合成可能的拼写错误，或使用Levenshtein distance（请参见

adist

）等单词距离度量在语料库中匹配（常见）拼写错误，从而在词典中找到最接近的匹配项。

这完全取决于您的语料库是什么-什么语言，什么首字母缩写，哪些领域特定的术语等，但如果您只想从标准英语（或任何语言）词典自动构造词干分析器，那么请显示您想要的。您只需添加代码来合成可能的拼写错误，或者使用Levenshtein distance（请参见

adist

）等单词距离度量来查找字典中最接近的匹配项。实际上，语料库是西班牙语的。你知道在哪里可以找到关于如何构建西班牙语词干分析器的指南吗？只需使用MrFlick的答案和

tm\u地图（语料库，stemDocument，language=“西班牙语”）

tm:：stemDocument（…language='lang'）

calls

SnowballC:：wordStem（）

它为

Snowball中的所有语言都内置了词干分析器c:：getStemLanguages（）

即“丹麦语”“荷兰语”“英语”“芬兰语”“法语”“德语”“匈牙利语”“意大利语”“挪威语”“波特语”“葡萄牙语”“罗马尼亚语”“俄语”“西班牙语”“瑞典语”“土耳其语”。请参阅

tm

和

SnowballC

软件包的文档。