Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/80.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R中无排序邻域算法?_R_Record Linkage - Fatal编程技术网

R中无排序邻域算法?

R中无排序邻域算法?,r,record-linkage,R,Record Linkage,我目前正在研究使用R来检测数据集中重复记录的方法。我试图按照Hernandez/Stolfo(1998)的思路找到排序邻域算法的一些实现,但没有成功。我确实找到了我还需要更深入探索的软件包。它看起来像是Fellegi/Sunter方法的实现。但是,它不具有排序邻域方法。我在这里是不是出了什么问题,还是真的没有排序邻域方法的R实现 编辑1:所谓“重复记录”,我指的是可能略有不同但引用同一实体的记录,例如,可能会交换名字和姓氏,可能会有打字错误等。请注意,询问软件推荐的问题并不完全在主题上。你知道这

我目前正在研究使用R来检测数据集中重复记录的方法。我试图按照Hernandez/Stolfo(1998)的思路找到排序邻域算法的一些实现,但没有成功。我确实找到了我还需要更深入探索的软件包。它看起来像是Fellegi/Sunter方法的实现。但是,它不具有排序邻域方法。我在这里是不是出了什么问题,还是真的没有排序邻域方法的R实现


编辑1:所谓“重复记录”,我指的是可能略有不同但引用同一实体的记录,例如,可能会交换名字和姓氏,可能会有打字错误等。

请注意,询问软件推荐的问题并不完全在主题上。你知道这个算法在其他语言中的实现吗?也许可以将R与它们连接起来。如果您只想“检测数据集中的重复记录”,请使用
?duplicated
@nicola:谢谢您的评论。我在这里不够清楚,请参见上面的编辑1。我知道这个函数?重复了,我已经在使用它了,但这还不够。@RalfStubner:谢谢你的输入,很抱歉,我不想离题!我只是想知道如何用R来解决这个特殊的问题。如果真的没有我几乎无法相信的现有解决方案,我将编写我自己的程序。。。我不知道其他语言的实现,但我假设有一些实现。一种可能是通过
网状
使用Python包
recordlinkage
:。不过我还没试过。