对于固定的距离值，如何在R中输出单词的所有可能偏差？_R_Text Mining_Tidyverse_Stringr_Quanteda

对于固定的距离值，如何在R中输出单词的所有可能偏差？

对于固定的距离值，如何在R中输出单词的所有可能偏差？,r,text-mining,tidyverse,stringr,quanteda,R,Text Mining,Tidyverse,Stringr,Quanteda,我有一个字，想在R中输出所有可能的设备（替换、替换、插入），将固定距离值输入到向量中例如，单词“Cat”和固定距离值1会生成一个向量，其中包含元素“cot”、“at”…我假设您需要所有实际单词，而不仅仅是编辑距离为1的字符排列，其中包括非单词，如“zat” 我们可以使用adist（）来计算目标单词和所有符合条件的英语单词之间的编辑距离，这些单词取自一些单词列表。在这里，我使用了quanteda软件包中的英语音节词典（毕竟你将这个问题标记为quanteda），但这也可能是来自任何其他来源的英语词

我有一个字，想在R中输出所有可能的设备（替换、替换、插入），将固定距离值输入到向量中

例如，单词“Cat”和固定距离值1会生成一个向量，其中包含元素“cot”、“at”…

我假设您需要所有实际单词，而不仅仅是编辑距离为1的字符排列，其中包括非单词，如“zat”

我们可以使用

adist（）

来计算目标单词和所有符合条件的英语单词之间的编辑距离，这些单词取自一些单词列表。在这里，我使用了quanteda软件包中的英语音节词典（毕竟你将这个问题标记为

quanteda

），但这也可能是来自任何其他来源的英语词典单词的任何向量

为了缩小范围，我们首先根据距离值排除所有与目标单词长度不同的单词

distfn您可能希望在所有可能的位置尝试所有可能的修改并收集结果。但是，请注意，对于大于1的距离，某些修改可能会无意中取消。例如，如果将“a”替换为“o”，然后插入“a”，则可能会得到“cat”→“婴儿床”→“coat”与“cat”的距离仅为1，尽管进行了2次修改。但如何在R中自动执行此操作？adist
功能将是一个很好的起点。感谢您的建议。这只是一个粗略的想法还是你有什么想法？非常感谢你的努力！但我正在寻找所有可能的组合（排列）…好的，我补充了。