寻找R数据帧的相似性
我有两组数据帧A和B。A组的示例数据帧是data1,B组的示例数据帧是data2 数据帧看起来像: 数据1 数据2 注: 两个数据帧都有一列,该列的名称为data。 第一数据帧和第二数据帧具有不同的行。 我试过两排之间的距离寻找R数据帧的相似性,r,dataframe,similarity,R,Dataframe,Similarity,我有两组数据帧A和B。A组的示例数据帧是data1,B组的示例数据帧是data2 数据帧看起来像: 数据1 数据2 注: 两个数据帧都有一列,该列的名称为data。 第一数据帧和第二数据帧具有不同的行。 我试过两排之间的距离 library(RecordLinkage) > levenshteinSim("apple", "apple") [1] 1 > levenshteinSim("apple", "aaple") [1] 0.8 > levenshteinSim("app
library(RecordLinkage)
> levenshteinSim("apple", "apple")
[1] 1
> levenshteinSim("apple", "aaple")
[1] 0.8
> levenshteinSim("apple", "appled")
[1] 0.8333333
> levenshteinSim("appl", "apple")
[1] 0.8
我的问题是:我想测量两个数据帧的相似性分数,例如data1和data2的相似性分数
有人能帮我解释一下吗?所以你在寻找一个总体数字,让你了解两个数据库的相似性,对吗?是的,也许我们可以说,我的情况是,我有两个文件夹模型和测试,两个文件夹都有很多文件,两个文件夹中的文件名相同,但内容不同,所以我想从两个文件夹中的文件内容来衡量相似性。你明白我什么意思吗?对不起,我的英语是的,我想我明白了。我只是不确定R是最好的工具。让我考虑一下。。。你在用什么操作系统?
data
1 papaya | durian | orange | grapes
2 orange
3 grapes
4 banana | durian
5 tomato
6 apple | tomato
7 apple
8 mangostine
9 strawberry
10 strawberry | mango
library(RecordLinkage)
> levenshteinSim("apple", "apple")
[1] 1
> levenshteinSim("apple", "aaple")
[1] 0.8
> levenshteinSim("apple", "appled")
[1] 0.8333333
> levenshteinSim("appl", "apple")
[1] 0.8