R 大数据上的高尔距离_R_Distance_Distance Matrix_Bigdata

R 大数据上的高尔距离

R 大数据上的高尔距离,r,distance,distance-matrix,bigdata,R,Distance,Distance Matrix,Bigdata,我想对地理数据进行聚类，对我所在地区的景观类型进行分类我的数据由五个变量组成（温度、温度幅度、降水、海拔和土壤类型），用于规则网格的每个字段。我有超过一百万个字段（=数据帧中的行）其中四个变量是数字，土壤类型是以数字表示的分类变量。（数字数据已经标准化了。）我决定计算Gower距离差异矩阵，并在此矩阵上执行PCA和层次聚类。然而，数据太大了 SOIL PREC TEMP ALT AMP 0 6 1.000 1.146 0.157 -

我想对地理数据进行聚类，对我所在地区的景观类型进行分类

我的数据由五个变量组成（温度、温度幅度、降水、海拔和土壤类型），用于规则网格的每个字段。我有超过一百万个字段（=数据帧中的行）

其中四个变量是数字，土壤类型是以数字表示的分类变量。（数字数据已经标准化了。）我决定计算Gower距离差异矩阵，并在此矩阵上执行PCA和层次聚类。然而，数据太大了

   SOIL  PREC     TEMP     ALT      AMP
0  6     1.000    1.146    0.157   -0.579
1  6     0.948    1.224    0.154   -0.579
2  5     1.000    1.146    0.201   -0.662
3  6     1.078    1.093    0.177   -0.620
4  6     1.000    1.146    0.182   -0.620
5  6     1.000    1.146    0.186   -0.599

我不想取样，因为变量是渐变的。我试图在较小的数据上计算频率和执行Gower距离，但仍然太大

我想我会的（1）手动将大数据集分块，（2）向每个区块矩阵添加两行额外的变量最大值和最小值，作为距离分析中每个变量范围的“描述”，（3）计算具有函数的每个块的差异矩阵，（4）删除多余的行和（5）将所有块差异矩阵合并为一个大的差异矩阵

你认为这是正确的和可行的方法吗？你对如何处理这个问题还有什么建议吗

对差异矩阵执行PCA正确吗？

好问题。您是否使用其他度量检查了大型差异矩阵的解？例如