R中无排序邻域算法?
我目前正在研究使用R来检测数据集中重复记录的方法。我试图按照Hernandez/Stolfo(1998)的思路找到排序邻域算法的一些实现,但没有成功。我确实找到了我还需要更深入探索的软件包。它看起来像是Fellegi/Sunter方法的实现。但是,它不具有排序邻域方法。我在这里是不是出了什么问题,还是真的没有排序邻域方法的R实现R中无排序邻域算法?,r,record-linkage,R,Record Linkage,我目前正在研究使用R来检测数据集中重复记录的方法。我试图按照Hernandez/Stolfo(1998)的思路找到排序邻域算法的一些实现,但没有成功。我确实找到了我还需要更深入探索的软件包。它看起来像是Fellegi/Sunter方法的实现。但是,它不具有排序邻域方法。我在这里是不是出了什么问题,还是真的没有排序邻域方法的R实现 编辑1:所谓“重复记录”,我指的是可能略有不同但引用同一实体的记录,例如,可能会交换名字和姓氏,可能会有打字错误等。请注意,询问软件推荐的问题并不完全在主题上。你知道这
编辑1:所谓“重复记录”,我指的是可能略有不同但引用同一实体的记录,例如,可能会交换名字和姓氏,可能会有打字错误等。请注意,询问软件推荐的问题并不完全在主题上。你知道这个算法在其他语言中的实现吗?也许可以将R与它们连接起来。如果您只想“检测数据集中的重复记录”,请使用
?duplicated
@nicola:谢谢您的评论。我在这里不够清楚,请参见上面的编辑1。我知道这个函数?重复了,我已经在使用它了,但这还不够。@RalfStubner:谢谢你的输入,很抱歉,我不想离题!我只是想知道如何用R来解决这个特殊的问题。如果真的没有我几乎无法相信的现有解决方案,我将编写我自己的程序。。。我不知道其他语言的实现,但我假设有一些实现。一种可能是通过网状使用Python包recordlinkage
:。不过我还没试过。