Apache spark Spark结构化流媒体实时数据标准化/规范化

Apache spark Spark结构化流媒体实时数据标准化/规范化,apache-spark,machine-learning,spark-streaming,normalization,spark-structured-streaming,Apache Spark,Machine Learning,Spark Streaming,Normalization,Spark Structured Streaming,在实现机器学习算法时,标准化/规范化数据即使不是关键点,也是关键点。在过去的几周里,我一直在努力解决使用Spark结构化流媒体实时处理这些问题 在历史数据上使用StandardScaler估计器((值(i)-平均值)/标准偏差)证明是很好的,在我的用例中,最好是获得合理的聚类结果,但我不确定如何用实时数据拟合StandardScaler模型。结构化流媒体不允许这样做。任何建议都将不胜感激 换句话说,如何在Spark结构化流媒体中匹配模型?我得到了一个答案。目前不可能使用Spark结构化流媒体进行

在实现机器学习算法时,标准化/规范化数据即使不是关键点,也是关键点。在过去的几周里,我一直在努力解决使用Spark结构化流媒体实时处理这些问题

在历史数据上使用
StandardScaler
估计器
((值(i)-平均值)/标准偏差)
证明是很好的,在我的用例中,最好是获得合理的聚类结果,但我不确定如何用实时数据拟合
StandardScaler
模型。结构化流媒体不允许这样做。任何建议都将不胜感激


换句话说,如何在Spark结构化流媒体中匹配模型?

我得到了一个答案。目前不可能使用Spark结构化流媒体进行实时机器学习,包括规范化;然而,对于某些算法,如果建立/拟合离线模型,则可以进行实时预测

检查: