对于固定的距离值,如何在R中输出单词的所有可能偏差?

对于固定的距离值,如何在R中输出单词的所有可能偏差?,r,text-mining,tidyverse,stringr,quanteda,R,Text Mining,Tidyverse,Stringr,Quanteda,我有一个字,想在R中输出所有可能的设备(替换、替换、插入),将固定距离值输入到向量中 例如,单词“Cat”和固定距离值1会生成一个向量,其中包含元素“cot”、“at”…我假设您需要所有实际单词,而不仅仅是编辑距离为1的字符排列,其中包括非单词,如“zat” 我们可以使用adist()来计算目标单词和所有符合条件的英语单词之间的编辑距离,这些单词取自一些单词列表。在这里,我使用了quanteda软件包中的英语音节词典(毕竟你将这个问题标记为quanteda),但这也可能是来自任何其他来源的英语词

我有一个字,想在R中输出所有可能的设备(替换、替换、插入),将固定距离值输入到向量中


例如,单词“Cat”和固定距离值1会生成一个向量,其中包含元素“cot”、“at”…

我假设您需要所有实际单词,而不仅仅是编辑距离为1的字符排列,其中包括非单词,如“zat”

我们可以使用
adist()
来计算目标单词和所有符合条件的英语单词之间的编辑距离,这些单词取自一些单词列表。在这里,我使用了quanteda软件包中的英语音节词典(毕竟你将这个问题标记为
quanteda
),但这也可能是来自任何其他来源的英语词典单词的任何向量

为了缩小范围,我们首先根据距离值排除所有与目标单词长度不同的单词


distfn您可能希望在所有可能的位置尝试所有可能的修改并收集结果。但是,请注意,对于大于1的距离,某些修改可能会无意中取消。例如,如果将“a”替换为“o”,然后插入“a”,则可能会得到“cat”→“婴儿床”→“coat”与“cat”的距离仅为1,尽管进行了2次修改。但如何在R中自动执行此操作?
adist
功能将是一个很好的起点。感谢您的建议。这只是一个粗略的想法还是你有什么想法?非常感谢你的努力!但我正在寻找所有可能的组合(排列)…好的,我补充了。