Apache spark 哪些是不应使用Spark MMLIB的常见用例
我很想知道不应该使用Spark MMLIB的用例 根据经验,在以下情况下,您应该重新考虑您的选择:Apache spark 哪些是不应使用Spark MMLIB的常见用例,apache-spark,machine-learning,apache-spark-mllib,Apache Spark,Machine Learning,Apache Spark Mllib,我很想知道不应该使用Spark MMLIB的用例 根据经验,在以下情况下,您应该重新考虑您的选择: 您需要精确的解决方案或定义良好的错误。Spark MLlib通常使用针对Spark体系结构额外调整的启发式方法。一般来说,有些可以提供非常好的结果,而另一些可能需要复杂的调优 您的数据量很小/维度数很低(高达几千个),或者数据可以放在单个节点的内存中(现在很容易达到256GB-512GB)。在这种情况下,优化机器学习/线性代数库的性能通常比Spark好得多 您希望在培训过程中收集详细的诊断信息。
- 您需要精确的解决方案或定义良好的错误。Spark MLlib通常使用针对Spark体系结构额外调整的启发式方法。一般来说,有些可以提供非常好的结果,而另一些可能需要复杂的调优李>
- 您的数据量很小/维度数很低(高达几千个),或者数据可以放在单个节点的内存中(现在很容易达到256GB-512GB)。在这种情况下,优化机器学习/线性代数库的性能通常比Spark好得多
- 您希望在培训过程中收集详细的诊断信息。MLlib算法通常是黑盒
- 模型将在Spark外使用。出口选择相当有限