Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/powershell/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 雅罗·温克勒';包裹之间的区别是什么_R_Fuzzy Comparison_Stringdist_Record Linkage - Fatal编程技术网

R 雅罗·温克勒';包裹之间的区别是什么

R 雅罗·温克勒';包裹之间的区别是什么,r,fuzzy-comparison,stringdist,record-linkage,R,Fuzzy Comparison,Stringdist,Record Linkage,我使用模糊匹配来清理用户输入的药物数据,并使用Jaro Winkler距离。当我注意到默认设置没有给出相同的值时,我正在测试哪个软件包与Jaro Winkler的距离更快。有谁能帮我理解这种差异是从哪里来的?例如: library(RecordLinkage) library(stringdist) jarowinkler("advil", c("advi", "advill", "advil", "dvil", "sdvil")) # [1] 0.9600000 0.9666667 1.00

我使用模糊匹配来清理用户输入的药物数据,并使用Jaro Winkler距离。当我注意到默认设置没有给出相同的值时,我正在测试哪个软件包与Jaro Winkler的距离更快。有谁能帮我理解这种差异是从哪里来的?例如:

library(RecordLinkage)
library(stringdist)

jarowinkler("advil", c("advi", "advill", "advil", "dvil", "sdvil"))
# [1] 0.9600000 0.9666667 1.0000000 0.9333333 0.8666667
1- stringdist("advil", c("advi", "advill", "advil", "dvil", "sdvil"), method = "jw")
# [1] 0.9333333 0.9444444 1.0000000 0.9333333 0.8666667
我假设它与权重有关,我知道我在这两个方面都使用默认值。然而,如果有人有更多的经验,可以说明发生了什么,我会非常感激。谢谢

文件:


隐藏在
stringdist
文档中的内容如下:


Jaro-Winkler距离(
method=jw
0 r参数对我来说也不是很清楚。我猜它指的是搜索转置时“允许”的半径(也称为固定转置字母以找到匹配)。例如,如果我比较单词“form”和“from”,则“r”和“o”在这种情况下,r=.5将允许搜索半径为2(.5*4个字母的单词)的转置。至少,这对我来说是有意义的。这是有意义的,但我没有看到在论文中提到它……我认为你是对的。在源代码中发现(并由我破碎的德语+谷歌翻译证实)
1 - stringdist("advil", c("advi", "advill", "advil", "dvil", "sdvil"), 
               method = "jw", p = .1)
# [1] 0.9600000 0.9666667 1.0000000 0.9333333 0.8666667