Apache spark Spark结构化流媒体实时数据标准化/规范化_Apache Spark_Machine Learning_Spark Streaming_Normalization_Spark Structured Streaming

Apache spark Spark结构化流媒体实时数据标准化/规范化

apache-spark machine-learning

Apache spark Spark结构化流媒体实时数据标准化/规范化,apache-spark,machine-learning,spark-streaming,normalization,spark-structured-streaming,Apache Spark,Machine Learning,Spark Streaming,Normalization,Spark Structured Streaming,在实现机器学习算法时，标准化/规范化数据即使不是关键点，也是关键点。在过去的几周里，我一直在努力解决使用Spark结构化流媒体实时处理这些问题在历史数据上使用StandardScaler估计器（（值（i）-平均值）/标准偏差）证明是很好的，在我的用例中，最好是获得合理的聚类结果，但我不确定如何用实时数据拟合StandardScaler模型。结构化流媒体不允许这样做。任何建议都将不胜感激换句话说，如何在Spark结构化流媒体中匹配模型？我得到了一个答案。目前不可能使用Spark结构化流媒体进行

在实现机器学习算法时，标准化/规范化数据即使不是关键点，也是关键点。在过去的几周里，我一直在努力解决使用Spark结构化流媒体实时处理这些问题

在历史数据上使用

StandardScaler

估计器

（（值（i）-平均值）/标准偏差）

证明是很好的，在我的用例中，最好是获得合理的聚类结果，但我不确定如何用实时数据拟合

StandardScaler

模型。结构化流媒体不允许这样做。任何建议都将不胜感激

换句话说，如何在Spark结构化流媒体中匹配模型？

我得到了一个答案。目前不可能使用Spark结构化流媒体进行实时机器学习，包括规范化；然而，对于某些算法，如果建立/拟合离线模型，则可以进行实时预测

检查：