如何使用SAS中重复的变量创建数据集_Sas_Duplicates

如何使用SAS中重复的变量创建数据集

sas

如何使用SAS中重复的变量创建数据集,sas,duplicates,Sas,Duplicates,我已使用nodupkey功能从数据集中删除了重复项，但希望将删除的重复项与保留的第一个观察结果进行比较 proc sort data=matchedfile dupout=deletedduplicate nodupkey out=dedupedfile; by ID; run; 我们需要一个数据集，该数据集将所有重复的观测数据、dupout文件中删除的重复数据以及DupedFile中具有相同id的观测数据组合在一起谢谢如果您的问题是希望“未删除”行与“已删除”行同时出现，则可以使用SA

我已使用nodupkey功能从数据集中删除了重复项，但希望将删除的重复项与保留的第一个观察结果进行比较

proc sort data=matchedfile dupout=deletedduplicate nodupkey 
out=dedupedfile;
by ID;
run;

我们需要一个数据集，该数据集将所有重复的观测数据、dupout文件中删除的重复数据以及DupedFile中具有相同id的观测数据组合在一起

谢谢

如果您的问题是希望“未删除”行与“已删除”行同时出现，则可以使用SAS 9.3中添加的

NOUNIKEY

选项。它与

NODUPKEY

相反-只保留非唯一的记录-并删除唯一的记录。您可以将这些删除的唯一记录丢弃（如果您要单独执行另一个查询以获取它们），也可以使用

UNIQUEOUT

将它们放入数据集中

proc sort data=have out=dups nounikey uniqueout=nodups;
  by whatever;
run;

有关更多详细信息，请参阅。

这还不够清楚您想要什么，而且它似乎更像是对代码的请求，而不是这里所适用的。例如，您是否看过

PROC COMPARE

？你说的“比较”是什么意思。。。你的数据看起来像什么是这里的关键，总是只有一个重复的行还是有时有10个重复的行？我试图得到一个最终的数据集，该数据集包含所有具有重复ID的数据行，这样我可以导出到excel，只需观察它们，看看为什么我的ID是重复的。我确实从dupout文件中知道，大多数情况下只有一个重复的行，但有时会有多个重复行。可能有比在excel中查看更好的方法。在数据步骤中，很容易将唯一记录、重复记录等输出到不同的数据集。通过一点工作，您还可以回答诸如“当有两个记录具有重复的键时，所有非键变量的值是否相同？”之类的问题。如果这听起来有用，建议您开始一个新问题，内容大致如下：“当清理可能有重复项的数据时，我如何识别以下记录…”