超大数据集上的RecordLink列错误-仅在2个变量上匹配

超大数据集上的RecordLink列错误-仅在2个变量上匹配,r,record-linkage,R,Record Linkage,我正在做一个项目,使用R Studio中的RecordLink模糊合并两个非常大的数据集 我的两个数据集set1和set2有不同数量的变量,但我需要将基于两列的数据链接到名为“Address”和“housestring”的列。然而,我总共有大约20个变量,它们要么在两个数据集中,要么在set1中,而不是在set2中 这个网站上以前的问题建议只使用我想要匹配的列创建新的集合,但是,我不能在这个过程中丢失其他变量 这是我的密码: RLBigDataLinkage(set1, set2, identi

我正在做一个项目,使用R Studio中的RecordLink模糊合并两个非常大的数据集

我的两个数据集set1和set2有不同数量的变量,但我需要将基于两列的数据链接到名为“Address”和“housestring”的列。然而,我总共有大约20个变量,它们要么在两个数据集中,要么在set1中,而不是在set2中

这个网站上以前的问题建议只使用我想要匹配的列创建新的集合,但是,我不能在这个过程中丢失其他变量

这是我的密码:

RLBigDataLinkage(set1, set2, identity1=NA, identity2=NA, exclude=colname("zillow_id","comment","housenumber","unit","city","postalcode","district","state","id","random","Street","City","housestreet","fulladdress","parcelid","propertyid","usecode","latitude","longitude","housenumberfraction","streetdirectionprefix", "streetname","streetsuffix","streetdirectionsuffix","unitprefix","zipplusfour","street"), strcmp=TRUE,strcmpfun=jarowinkler)
尽管我已经排除了所有不匹配的列,但我仍然得到一个错误,即set1和set2的列数不同


如有任何建议,将不胜感激

你发现了吗?当
长度(identity1)
集合1中的行数不同时,我出现了这个错误。。。与
identity2
set2
相同。我的解决方案是提供一个分别与set1和SET2长度相同的标识1和2。您是否解决了这个问题?当
长度(标识1)
set1
中的行数不同时,我出现了这个错误。。。与
identity2
set2
相同。我的解决方案是提供一个分别与set1和set2长度相同的标识1和2。