Apache spark Spark结构化流和Spark-Ml回归
是否可以将Spark Ml回归应用于流媒体源?我看到有Apache spark Spark结构化流和Spark-Ml回归,apache-spark,apache-spark-sql,apache-spark-ml,Apache Spark,Apache Spark Sql,Apache Spark Ml,是否可以将Spark Ml回归应用于流媒体源?我看到有StreamingLogisticRegressionwithGD,但它适用于较旧的RDDAPI,我将其用于结构化流媒体源 我应该如何在结构化流媒体源上应用回归 (有点OT)如果我不能使用流式API进行回归,我如何以批处理的方式向源提交偏移量?(卡夫卡水槽) 今天(Spark 2.2/2.3),结构化流媒体中没有对机器学习的支持,也没有这方面的持续工作。请跟踪未来的进度 但是,您可以: 使用forEach接收器和某种形式的外部状态存储来训练
StreamingLogisticRegressionwithGD
,但它适用于较旧的RDDAPI,我将其用于结构化流媒体源
- 使用forEach接收器和某种形式的外部状态存储来训练迭代的非分布式模型。在高层,回归模型可以这样实现:
- 调用ForeachWriter时获取最新模型。打开并初始化分区的损失累加器(不是火花意义上的,只是局部变量)
- 在ForeachWriter中计算每条记录的损失。处理并更新累加器
- 调用ForeachWriter时,推送到外部存储。关闭李>
- 这将使外部存储负责计算梯度和更新模型,实现依赖于存储
- 尝试破解SQL查询(请参见)
- 使用forEach接收器和某种形式的外部状态存储来训练迭代的非分布式模型。在高层,回归模型可以这样实现:
- 调用ForeachWriter时获取最新模型。打开并初始化分区的损失累加器(不是火花意义上的,只是局部变量)
- 在ForeachWriter中计算每条记录的损失。处理并更新累加器
- 调用ForeachWriter时,推送到外部存储。关闭李>
- 这将使外部存储负责计算梯度和更新模型,实现依赖于存储
- 尝试破解SQL查询(请参见)
执行某些操作(如写入db)的方法。但是对于应用回归,我需要对数据集进行一些操作(培训和评估)。谢谢。我想我会放弃流式API,因为通过计算梯度的外部存储,我觉得我不会从spark-ml.True获得任何帮助,尽管这听起来可能比实际情况更严重。毕竟,对于GD,它只是一行,有任何像样的线性代数库。但是,如果您正在寻找结构化流媒体的内置支持,目前还没有。谢谢。你能详细介绍一下forEach方法吗?据我所知,这是一种对每一行执行某些操作(如写入db)的方法。但是对于应用回归,我需要对数据集进行一些操作(培训和评估)。谢谢。我想我会放弃流式API,因为通过计算梯度的外部存储,我觉得我不会从spark-ml.True获得任何帮助,尽管这听起来可能比实际情况更严重。毕竟,对于GD,它只是一行,有任何像样的线性代数库。但是,如果您正在寻找结构化流媒体的内置支持,目前还没有。