按相似列合并-R

按相似列合并-R,r,function,merge,R,Function,Merge,这是一个非常模糊的问题,但我想知道R中是否有某种函数或包可以合并或识别两列或更多列中的相似/相同观察结果(甚至可能会评估每个观察结果彼此之间的相似程度)。我有两个凌乱的数据集,其中的一些列有一些唯一的标识符,但它们之间有很多拼写或细微的差异。例如,您有如下列: c1我们可以使用fuzzyjoin library(fuzzyjoin) stringdist_inner_join(df1, df2, by = c("c1" = "c2")) 正如@gersht在评论中指出的,选择适当的方法和max

这是一个非常模糊的问题,但我想知道R中是否有某种函数或包可以合并或识别两列或更多列中的相似/相同观察结果(甚至可能会评估每个观察结果彼此之间的相似程度)。我有两个凌乱的数据集,其中的一些列有一些唯一的标识符,但它们之间有很多拼写或细微的差异。例如,您有如下列:


c1我们可以使用
fuzzyjoin

library(fuzzyjoin)
stringdist_inner_join(df1, df2, by = c("c1" = "c2"))

正如@gersht在评论中指出的,选择适当的
方法和
max_dist
来进行连接

这类事情总是很棘手的。请查看base R中的
adist
,以及
stringdist
包。除非您还使用
method
max\u dist
,否则这将无法正常工作。设置
method=“cosine”
max_dist=.33
返回了完美连接。感谢您提供此软件包,很有趣,我这样做实际上是为了临床数据。然而,当我尝试使用我的示例时,它给了我一个空的数据框://@Mr.Biggums阅读我的评论以使事情正常进行。阿克伦可能会在他/她有机会时编辑。@gersht没错。我想在你发表评论之前更新一下。但是,我以为这部作品只展示了赝品data@Mr.Biggums是的,这是正确的,因为它是基于距离的,有时通过调整这些参数会改变您得到的输出