Apache spark 哪些是不应使用Spark MMLIB的常见用例

Apache spark 哪些是不应使用Spark MMLIB的常见用例,apache-spark,machine-learning,apache-spark-mllib,Apache Spark,Machine Learning,Apache Spark Mllib,我很想知道不应该使用Spark MMLIB的用例 根据经验,在以下情况下,您应该重新考虑您的选择: 您需要精确的解决方案或定义良好的错误。Spark MLlib通常使用针对Spark体系结构额外调整的启发式方法。一般来说,有些可以提供非常好的结果,而另一些可能需要复杂的调优 您的数据量很小/维度数很低(高达几千个),或者数据可以放在单个节点的内存中(现在很容易达到256GB-512GB)。在这种情况下,优化机器学习/线性代数库的性能通常比Spark好得多 您希望在培训过程中收集详细的诊断信息。

我很想知道不应该使用Spark MMLIB的用例

根据经验,在以下情况下,您应该重新考虑您的选择:

  • 您需要精确的解决方案或定义良好的错误。Spark MLlib通常使用针对Spark体系结构额外调整的启发式方法。一般来说,有些可以提供非常好的结果,而另一些可能需要复杂的调优
  • 您的数据量很小/维度数很低(高达几千个),或者数据可以放在单个节点的内存中(现在很容易达到256GB-512GB)。在这种情况下,优化机器学习/线性代数库的性能通常比Spark好得多
  • 您希望在培训过程中收集详细的诊断信息。MLlib算法通常是黑盒
  • 模型将在Spark外使用。出口选择相当有限

简单明了-当您不想使用机器学习时-如过滤数据(只需根据事件创建警报)、聚合(查看记录器在过去30分钟内生成了多少错误)、将流数据存储在某个位置以进行历史搜索。。。。基本上不需要机器学习就可以处理数据。欢迎使用StackOverflow。请阅读并遵循帮助文档中的发布指南。在这里申请。