基于PostgreSQL的机器学习_Postgresql_Optimization_Machine Learning_Bigdata_Sparse Matrix

基于PostgreSQL的机器学习

postgresql optimization machine-learning

基于PostgreSQL的机器学习,postgresql,optimization,machine-learning,bigdata,sparse-matrix,Postgresql,Optimization,Machine Learning,Bigdata,Sparse Matrix,如前所述，我对直接在PostgreSQL内部运行机器学习算法感兴趣本文的基本要点是，我把我的算法写成一个函数，它给出了第n个模型 def get_model(n): return make_step(model(n-1)) def make_step(model): # Compute gradient and make update and return new model 其思想是数据库将优化数据流，以便查询运行得非常快我的数据大约是10^12个样本，10^9个特征，每个

如前所述，我对直接在PostgreSQL内部运行机器学习算法感兴趣

本文的基本要点是，我把我的算法写成一个函数，它给出了第n个模型

def get_model(n):
   return make_step(model(n-1))

def make_step(model):
   # Compute gradient and make update and return new model

其思想是数据库将优化数据流，以便查询运行得非常快

我的数据大约是10^12个样本，10^9个特征，每个样本平均有1000个特征不是零（高度稀疏）

我证明我的问题是正确的，因为我发现

我非常确信PostgreSQL可以被分发到许多机器上

我的问题是,

PostgreSQL处理稀疏矩阵向量积的能力如何
PostgreSQL真的会优化数据流和处理吗
我的任何假设或其他目标都不现实吗

PostgreSQL本身并不分布在多台/多台机器上。有很多项目和分支可以做到这一点：DTM、pg_shard、Postgres XL、Greenplum……我不完全理解你的问题：你是在寻找编写机器学习算法的帮助，还是在寻找将现有算法应用于现有数据的帮助？这两个问题本身都很复杂，你应该一个接一个地选择问题，而不是试图一次解决所有问题。看看MADlib，它附带了许多现有的算法，并且支持PostgreSQL。谢谢你。我不是在寻找应用机器学习算法的帮助。我可以做得很好。对于一个特殊的问题，我需要每天不断地重新训练（出于安全目的），我正在研究如何使这个计算规模变得更大，因为我们的数据集正在快速增长，使单机计算变得不可行。我需要做这个秤。是的，我已经研究了很多其他的选择（说出它的名字，我可能已经尝试过了），但是由于稀疏性和其他问题，它们不能很好地为我们的数据扩展。这就是我的问题。