Math 如何高效地最佳拟合具有大量变量的大型数据

Math 如何高效地最佳拟合具有大量变量的大型数据,math,statistics,Math,Statistics,我有一个包含1000万行和1000个变量的数据集,我想最好地拟合这些变量,这样我就可以估计一个新行值。我正在使用Jama的QR分解来实现它(欢迎更好的建议,但我认为这个问题适用于任何实现)。不幸的是,这需要太长时间 看来我有两个选择。或者我可以将数据分成1000个大小为10000的块,然后对结果进行平均。或者我可以把每一行,比如说,100行加起来,然后把这些合并的行粘贴到QR分解中 一个或两个方法可能是数学灾难,我希望有人能给我指出正确的方向。对于如此大的数据集,我不得不说你需要使用HDF5。H

我有一个包含1000万行和1000个变量的数据集,我想最好地拟合这些变量,这样我就可以估计一个新行值。我正在使用Jama的QR分解来实现它(欢迎更好的建议,但我认为这个问题适用于任何实现)。不幸的是,这需要太长时间

看来我有两个选择。或者我可以将数据分成1000个大小为10000的块,然后对结果进行平均。或者我可以把每一行,比如说,100行加起来,然后把这些合并的行粘贴到QR分解中


一个或两个方法可能是数学灾难,我希望有人能给我指出正确的方向。

对于如此大的数据集,我不得不说你需要使用HDF5。HDF5是分层数据格式v5。他们有C/C++实现API和其他不同语言的绑定。HDF使用B树来保存数据集的索引

HDF5由Java、MATLAB、Scilab、Octave、Mathematica、IDL、Python、R和Julia支持


不幸的是,关于这件事我知道的不多。然而,我建议你从一个简单的探索性互联网搜索开始你的研究

这可能更适合或。你是对的,我会在数学课上开门见山。