Python pyspark中的大于内存的线性代数

Python pyspark中的大于内存的线性代数,python,pyspark,cluster-computing,Python,Pyspark,Cluster Computing,在大于内存的对象上执行线性代数显然不需要将这些对象完全加载到内存中。例如,假设我想执行一项相当枯燥的任务,生成一个大小为1e18的std法线向量,并计算其平均值(0 duh),我可以分批执行(在极端限制下,一次两个数字) 更有趣的是,我希望将随机std法线的nxb矩阵M乘以bxb矩阵B,B小(~5000)和N很大(~5e7) 解决这个问题的最佳方法是什么?pyspark是否能够处理此类问题?如何告诉pyspark生成矩阵M,并将其与存储B的numpy数组相乘 任何参考教程也将不胜感激 附言。 我

在大于内存的对象上执行线性代数显然不需要将这些对象完全加载到内存中。例如,假设我想执行一项相当枯燥的任务,生成一个大小为
1e18
的std法线向量,并计算其平均值(0 duh),我可以分批执行(在极端限制下,一次两个数字)

更有趣的是,我希望将随机std法线的
nxb
矩阵M乘以
bxb
矩阵B
B
小(~5000)和
N
很大(~5e7)

解决这个问题的最佳方法是什么?pyspark是否能够处理此类问题?如何告诉pyspark生成矩阵M,并将其与存储B的numpy数组相乘

任何参考教程也将不胜感激

附言。 我知道PyTables将提供部分解决方案,但我真的在寻找类似spark的东西,让我能够充分利用集群的潜力