Algorithm 哪种算法或统计方法最好?

Algorithm 哪种算法或统计方法最好?,algorithm,multidimensional-array,neural-network,statistics,deep-learning,Algorithm,Multidimensional Array,Neural Network,Statistics,Deep Learning,我有一个包含21名学生(A1…A21)和他们的25个特征(表1)的表格,还有另一个矩阵(表2),显示一名学生是否喜欢另一名学生(0表示喜欢,100表示不喜欢) 我怎样才能找到最少数量的特征,使我在空间中的距离与亲和力矩阵相似 例如: 如果我们得到具有特征C1、C3、C4、C5、C10的5个维度,那么为这些特征绘制的点A1、…A21将具有比例距离作为相似度矩阵 例如,如果A3和A2在该5D特征空间中具有较小的距离,则它们在相似性矩阵中具有相应较小的距离/值 你可以把这看作是一个众所周知的统计问题

我有一个包含21名学生(A1…A21)和他们的25个特征(表1)的表格,还有另一个矩阵(表2),显示一名学生是否喜欢另一名学生(0表示喜欢,100表示不喜欢)

我怎样才能找到最少数量的特征,使我在空间中的距离与亲和力矩阵相似

例如: 如果我们得到具有特征C1、C3、C4、C5、C10的5个维度,那么为这些特征绘制的点A1、…A21将具有比例距离作为相似度矩阵

例如,如果A3和A2在该5D特征空间中具有较小的距离,则它们在相似性矩阵中具有相应较小的距离/值


你可以把这看作是一个众所周知的统计问题,但是你已经做出了假设(相似的学生彼此都喜欢),我会做进一步的假设,而且统计问题的大多数解决方案都不是很体面,所以你应该对结果持保留态度

有21名学生,就有21*20/2=210对学生。将每一对视为单独的观察。你对那一对有一个可爱度值。对于每一对,针对每一个特征,计算两个学生的值之间差值的绝对值。这将为每个观察提供25个元素的向量。现在,您将尝试预测210个相似性,给出210个25长的绝对差异向量

所有子集回归和逐步回归的程序。见和。计算这些数据的一种方法是使用免费的开源统计软件包R

对于每个可能的变量选择,您可以使用线性回归从绝对差异向量预测亲和力。从线性回归中,你可以得到预测有多好的度量,以及特定变量的选择是否正确。所有子集回归使用分支上的一个变量,并为每个N计算出大小为N的变量集,该变量集预测效果最好。逐步回归从可能不完整的变量选择开始,并执行一种hillclimb,在每个阶段从集合中添加或减去一个变量,尝试所有变量并选择一个给出最佳预测的变量。通常从没有变量开始,一次添加一个变量,或者从所有变量开始,一次删除一个变量。逐步选择并不能保证找到所有子集回归都能找到的绝对最佳变量选择,但所有子集回归可能非常昂贵

从中,您将获得最佳变量选择(每个变量数可能有一个最佳选择),并且您可能会获得一些统计显著性的指示。你已经打破了很多关于多重测试和独立性的规则(将21个观察值膨胀到210个),因此你不应该认真对待任何统计显著性。如果你想知道你是在看真实的信息还是在看预先处理好的随机噪音,自动化这个过程,看看在没有任何潜在影响的假数据上是什么样子,也许在伪造的数据上,你已经构建了数据,而这些数据有一个潜在的影响,你知道,因为你已经构建了它。另见和