Apache spark 哪些是不应使用Spark MMLIB的常见用例_Apache Spark_Machine Learning_Apache Spark Mllib

Apache spark 哪些是不应使用Spark MMLIB的常见用例

apache-spark machine-learning

Apache spark 哪些是不应使用Spark MMLIB的常见用例,apache-spark,machine-learning,apache-spark-mllib,Apache Spark,Machine Learning,Apache Spark Mllib,我很想知道不应该使用Spark MMLIB的用例根据经验，在以下情况下，您应该重新考虑您的选择：您需要精确的解决方案或定义良好的错误。Spark MLlib通常使用针对Spark体系结构额外调整的启发式方法。一般来说，有些可以提供非常好的结果，而另一些可能需要复杂的调优您的数据量很小/维度数很低（高达几千个），或者数据可以放在单个节点的内存中（现在很容易达到256GB-512GB）。在这种情况下，优化机器学习/线性代数库的性能通常比Spark好得多您希望在培训过程中收集详细的诊断信息。

我很想知道不应该使用Spark MMLIB的用例

根据经验，在以下情况下，您应该重新考虑您的选择：

您需要精确的解决方案或定义良好的错误。Spark MLlib通常使用针对Spark体系结构额外调整的启发式方法。一般来说，有些可以提供非常好的结果，而另一些可能需要复杂的调优
您的数据量很小/维度数很低（高达几千个），或者数据可以放在单个节点的内存中（现在很容易达到256GB-512GB）。在这种情况下，优化机器学习/线性代数库的性能通常比Spark好得多
您希望在培训过程中收集详细的诊断信息。MLlib算法通常是黑盒
模型将在Spark外使用。出口选择相当有限

简单明了-当您不想使用机器学习时-如过滤数据（只需根据事件创建警报）、聚合（查看记录器在过去30分钟内生成了多少错误）、将流数据存储在某个位置以进行历史搜索。。。。基本上不需要机器学习就可以处理数据。欢迎使用StackOverflow。请阅读并遵循帮助文档中的发布指南。在这里申请。