Merge SAS中更有效的大数据集模糊匹配方法_Merge_Sas_Large Data_Proc Sql_Fuzzy Comparison

Merge SAS中更有效的大数据集模糊匹配方法

merge sas

Merge SAS中更有效的大数据集模糊匹配方法,merge,sas,large-data,proc-sql,fuzzy-comparison,Merge,Sas,Large Data,Proc Sql,Fuzzy Comparison,我有一个包含3300多万条记录的数据集，其中包括一个名称字段。我需要标记记录，其中该名称字段值也出现在第二个数据集中，其中包含大约500万条记录。就我而言，模糊匹配是可以接受的，也是有益的我编写了以下程序来实现这一点。它可以工作，但到目前为止已经运行了4天，所以我想找到一种更有效的方法来编写它 proc sql noprint; create table INDIV_MATCH as select A.NAME, SPEDIS(A.NAME, B.NAME) as SPEDIS_V

我有一个包含3300多万条记录的数据集，其中包括一个名称字段。我需要标记记录，其中该名称字段值也出现在第二个数据集中，其中包含大约500万条记录。就我而言，模糊匹配是可以接受的，也是有益的

我编写了以下程序来实现这一点。它可以工作，但到目前为止已经运行了4天，所以我想找到一种更有效的方法来编写它

proc sql noprint;
   create table INDIV_MATCH as
   select A.NAME, SPEDIS(A.NAME, B.NAME) as SPEDIS_VALUE, COMPGED(A.NAME,B.NAME) as COMPGED_SCORE
   from DATASET1 A join DATASET2 B
   on COMPGED(A.NAME, B.NAME) le 400 and SPEDIS(A.NAME, B.NAME) le 10
   order by A.name;
quit;

任何帮助都将不胜感激

您是否先删除了精确匹配？SAS提供了文本处理引擎，可能更适合此功能；你有SAS Visual Analytics或任何机器学习/神经网络的许可证吗？Charles Patridge长期以来一直在分享他的模糊匹配过程。读一读“SAS提供的模糊感觉：没有公共密钥的记录的电子匹配”Reeza，我确实先删除了精确匹配，但感谢你的建议。Joe，不幸的是，我没有SAS Visual Analytics的许可证或比基本SAS平台高得多的许可证。