Sas 利用最近邻算法寻找相似种群

Sas 利用最近邻算法寻找相似种群,sas,nearest-neighbor,Sas,Nearest Neighbor,最近邻可以根据k个最近邻的类别对新数据点进行分类。假设数据集A包含10000个数据点。还有另一个数据集B包含1 MM的数据点。目标是从数据集B中找到在许多预先确定的属性(特征)上与数据集A相似的最相似的记录。 SAS有两个程序可以做到这一点,例如PROC DISCRIM,它获取训练数据并对测试数据进行分类,如下所示。在这种情况下,如何定义训练数据,因为其目的只是在数据集B中找到最相似的记录,这些记录看起来像数据A中的每个单独记录 proc discrim data=train method=np

最近邻可以根据k个最近邻的类别对新数据点进行分类。假设数据集A包含10000个数据点。还有另一个数据集B包含1 MM的数据点。目标是从数据集B中找到在许多预先确定的属性(特征)上与数据集A相似的最相似的记录。 SAS有两个程序可以做到这一点,例如PROC DISCRIM,它获取训练数据并对测试数据进行分类,如下所示。在这种情况下,如何定义训练数据,因为其目的只是在数据集B中找到最相似的记录,这些记录看起来像数据A中的每个单独记录

proc discrim data=train
method=npar k=5
testdata=toscore
testout=toscore_out
;
class y;
var x1-x10;
run;

这是一个无监督的学习问题——你没有培训数据,也不知道结果应该是什么。如果您有感兴趣的特定功能列表,请计算一条记录与所有其他记录之间的距离,并选择距离最小的记录。这将是计算密集型的。此外,这不是一个编程问题——这是一个方法论问题,不适合这样做。尝试在stats.stackexchange.com上发布此信息。您有权访问Enterprise Miner或Factory Miner吗?对于这个问题,它内置了许多程序。斯图,你知道Enterprise Miner中的哪个模块或SAS程序可以做到这一点吗?