基于PostgreSQL的机器学习

基于PostgreSQL的机器学习,postgresql,optimization,machine-learning,bigdata,sparse-matrix,Postgresql,Optimization,Machine Learning,Bigdata,Sparse Matrix,如前所述,我对直接在PostgreSQL内部运行机器学习算法感兴趣 本文的基本要点是,我把我的算法写成一个函数,它给出了第n个模型 def get_model(n): return make_step(model(n-1)) def make_step(model): # Compute gradient and make update and return new model 其思想是数据库将优化数据流,以便查询运行得非常快 我的数据大约是10^12个样本,10^9个特征,每个

如前所述,我对直接在PostgreSQL内部运行机器学习算法感兴趣

本文的基本要点是,我把我的算法写成一个函数,它给出了第n个模型

def get_model(n):
   return make_step(model(n-1))

def make_step(model):
   # Compute gradient and make update and return new model
其思想是数据库将优化数据流,以便查询运行得非常快

我的数据大约是10^12个样本,10^9个特征,每个样本平均有1000个特征不是零(高度稀疏)

我证明我的问题是正确的,因为我发现

  • 我非常确信PostgreSQL可以被分发到许多机器上
我的问题是,

  • PostgreSQL处理稀疏矩阵向量积的能力如何
  • PostgreSQL真的会优化数据流和处理吗
  • 我的任何假设或其他目标都不现实吗

PostgreSQL本身并不分布在多台/多台机器上。有很多项目和分支可以做到这一点:DTM、pg_shard、Postgres XL、Greenplum……我不完全理解你的问题:你是在寻找编写机器学习算法的帮助,还是在寻找将现有算法应用于现有数据的帮助?这两个问题本身都很复杂,你应该一个接一个地选择问题,而不是试图一次解决所有问题。看看MADlib,它附带了许多现有的算法,并且支持PostgreSQL。谢谢你。我不是在寻找应用机器学习算法的帮助。我可以做得很好。对于一个特殊的问题,我需要每天不断地重新训练(出于安全目的),我正在研究如何使这个计算规模变得更大,因为我们的数据集正在快速增长,使单机计算变得不可行。我需要做这个秤。是的,我已经研究了很多其他的选择(说出它的名字,我可能已经尝试过了),但是由于稀疏性和其他问题,它们不能很好地为我们的数据扩展。这就是我的问题。