R 大数据上的高尔距离
我想对地理数据进行聚类,对我所在地区的景观类型进行分类 我的数据由五个变量组成(温度、温度幅度、降水、海拔和土壤类型),用于规则网格的每个字段。我有超过一百万个字段(=数据帧中的行) 其中四个变量是数字,土壤类型是以数字表示的分类变量。(数字数据已经标准化了。)我决定计算Gower距离差异矩阵,并在此矩阵上执行PCA和层次聚类。然而,数据太大了R 大数据上的高尔距离,r,distance,distance-matrix,bigdata,R,Distance,Distance Matrix,Bigdata,我想对地理数据进行聚类,对我所在地区的景观类型进行分类 我的数据由五个变量组成(温度、温度幅度、降水、海拔和土壤类型),用于规则网格的每个字段。我有超过一百万个字段(=数据帧中的行) 其中四个变量是数字,土壤类型是以数字表示的分类变量。(数字数据已经标准化了。)我决定计算Gower距离差异矩阵,并在此矩阵上执行PCA和层次聚类。然而,数据太大了 SOIL PREC TEMP ALT AMP 0 6 1.000 1.146 0.157 -
SOIL PREC TEMP ALT AMP
0 6 1.000 1.146 0.157 -0.579
1 6 0.948 1.224 0.154 -0.579
2 5 1.000 1.146 0.201 -0.662
3 6 1.078 1.093 0.177 -0.620
4 6 1.000 1.146 0.182 -0.620
5 6 1.000 1.146 0.186 -0.599
我不想取样,因为变量是渐变的。我试图在较小的数据上计算频率和执行Gower距离,但仍然太大
我想我会的
(1) 手动将大数据集分块,
(2) 向每个区块矩阵添加两行额外的变量最大值和最小值,作为距离分析中每个变量范围的“描述”,
(3) 计算具有函数的每个块的差异矩阵,
(4) 删除多余的行和
(5) 将所有块差异矩阵合并为一个大的差异矩阵
你认为这是正确的和可行的方法吗?你对如何处理这个问题还有什么建议吗
对差异矩阵执行PCA正确吗?好问题。您是否使用其他度量检查了大型差异矩阵的解?例如