Merge SAS中更有效的大数据集模糊匹配方法

Merge SAS中更有效的大数据集模糊匹配方法,merge,sas,large-data,proc-sql,fuzzy-comparison,Merge,Sas,Large Data,Proc Sql,Fuzzy Comparison,我有一个包含3300多万条记录的数据集,其中包括一个名称字段。我需要标记记录,其中该名称字段值也出现在第二个数据集中,其中包含大约500万条记录。就我而言,模糊匹配是可以接受的,也是有益的 我编写了以下程序来实现这一点。它可以工作,但到目前为止已经运行了4天,所以我想找到一种更有效的方法来编写它 proc sql noprint; create table INDIV_MATCH as select A.NAME, SPEDIS(A.NAME, B.NAME) as SPEDIS_V

我有一个包含3300多万条记录的数据集,其中包括一个名称字段。我需要标记记录,其中该名称字段值也出现在第二个数据集中,其中包含大约500万条记录。就我而言,模糊匹配是可以接受的,也是有益的

我编写了以下程序来实现这一点。它可以工作,但到目前为止已经运行了4天,所以我想找到一种更有效的方法来编写它

proc sql noprint;
   create table INDIV_MATCH as
   select A.NAME, SPEDIS(A.NAME, B.NAME) as SPEDIS_VALUE, COMPGED(A.NAME,B.NAME) as COMPGED_SCORE
   from DATASET1 A join DATASET2 B
   on COMPGED(A.NAME, B.NAME) le 400 and SPEDIS(A.NAME, B.NAME) le 10
   order by A.name;
quit;

任何帮助都将不胜感激

您是否先删除了精确匹配?SAS提供了文本处理引擎,可能更适合此功能;你有SAS Visual Analytics或任何机器学习/神经网络的许可证吗?Charles Patridge长期以来一直在分享他的模糊匹配过程。读一读“SAS提供的模糊感觉:没有公共密钥的记录的电子匹配”Reeza,我确实先删除了精确匹配,但感谢你的建议。Joe,不幸的是,我没有SAS Visual Analytics的许可证或比基本SAS平台高得多的许可证。