Math 如何高效地最佳拟合具有大量变量的大型数据_Math_Statistics

Math 如何高效地最佳拟合具有大量变量的大型数据

math statistics

Math 如何高效地最佳拟合具有大量变量的大型数据,math,statistics,Math,Statistics,我有一个包含1000万行和1000个变量的数据集，我想最好地拟合这些变量，这样我就可以估计一个新行值。我正在使用Jama的QR分解来实现它（欢迎更好的建议，但我认为这个问题适用于任何实现）。不幸的是，这需要太长时间看来我有两个选择。或者我可以将数据分成1000个大小为10000的块，然后对结果进行平均。或者我可以把每一行，比如说，100行加起来，然后把这些合并的行粘贴到QR分解中一个或两个方法可能是数学灾难，我希望有人能给我指出正确的方向。对于如此大的数据集，我不得不说你需要使用HDF5。H

我有一个包含1000万行和1000个变量的数据集，我想最好地拟合这些变量，这样我就可以估计一个新行值。我正在使用Jama的QR分解来实现它（欢迎更好的建议，但我认为这个问题适用于任何实现）。不幸的是，这需要太长时间

看来我有两个选择。或者我可以将数据分成1000个大小为10000的块，然后对结果进行平均。或者我可以把每一行，比如说，100行加起来，然后把这些合并的行粘贴到QR分解中

一个或两个方法可能是数学灾难，我希望有人能给我指出正确的方向。

对于如此大的数据集，我不得不说你需要使用HDF5。HDF5是分层数据格式v5。他们有C/C++实现API和其他不同语言的绑定。HDF使用B树来保存数据集的索引

HDF5由Java、MATLAB、Scilab、Octave、Mathematica、IDL、Python、R和Julia支持

不幸的是，关于这件事我知道的不多。然而，我建议你从一个简单的探索性互联网搜索开始你的研究

这可能更适合或。你是对的，我会在数学课上开门见山。