Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/71.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
寻找R数据帧的相似性_R_Dataframe_Similarity - Fatal编程技术网

寻找R数据帧的相似性

寻找R数据帧的相似性,r,dataframe,similarity,R,Dataframe,Similarity,我有两组数据帧A和B。A组的示例数据帧是data1,B组的示例数据帧是data2 数据帧看起来像: 数据1 数据2 注: 两个数据帧都有一列,该列的名称为data。 第一数据帧和第二数据帧具有不同的行。 我试过两排之间的距离 library(RecordLinkage) > levenshteinSim("apple", "apple") [1] 1 > levenshteinSim("apple", "aaple") [1] 0.8 > levenshteinSim("app

我有两组数据帧A和B。A组的示例数据帧是data1,B组的示例数据帧是data2

数据帧看起来像:

数据1

数据2

注:

两个数据帧都有一列,该列的名称为data。 第一数据帧和第二数据帧具有不同的行。 我试过两排之间的距离

library(RecordLinkage)
> levenshteinSim("apple", "apple")
[1] 1
> levenshteinSim("apple", "aaple")
[1] 0.8
> levenshteinSim("apple", "appled")
[1] 0.8333333
> levenshteinSim("appl", "apple")
[1] 0.8
我的问题是:我想测量两个数据帧的相似性分数,例如data1和data2的相似性分数


有人能帮我解释一下吗?

所以你在寻找一个总体数字,让你了解两个数据库的相似性,对吗?是的,也许我们可以说,我的情况是,我有两个文件夹模型和测试,两个文件夹都有很多文件,两个文件夹中的文件名相同,但内容不同,所以我想从两个文件夹中的文件内容来衡量相似性。你明白我什么意思吗?对不起,我的英语是的,我想我明白了。我只是不确定R是最好的工具。让我考虑一下。。。你在用什么操作系统?
                                data
1  papaya | durian | orange | grapes
2                             orange
3                             grapes
4                    banana | durian
5                             tomato
6                     apple | tomato
7                              apple
8                        mangostine 
9                         strawberry
10                strawberry | mango
library(RecordLinkage)
> levenshteinSim("apple", "apple")
[1] 1
> levenshteinSim("apple", "aaple")
[1] 0.8
> levenshteinSim("apple", "appled")
[1] 0.8333333
> levenshteinSim("appl", "apple")
[1] 0.8