Apache spark Spark结构化流和Spark-Ml回归_Apache Spark_Apache Spark Sql_Apache Spark Ml

Apache spark Spark结构化流和Spark-Ml回归

apache-spark

Apache spark Spark结构化流和Spark-Ml回归,apache-spark,apache-spark-sql,apache-spark-ml,Apache Spark,Apache Spark Sql,Apache Spark Ml,是否可以将Spark Ml回归应用于流媒体源？我看到有StreamingLogisticRegressionwithGD，但它适用于较旧的RDDAPI，我将其用于结构化流媒体源我应该如何在结构化流媒体源上应用回归（有点OT）如果我不能使用流式API进行回归，我如何以批处理的方式向源提交偏移量？（卡夫卡水槽）今天（Spark 2.2/2.3），结构化流媒体中没有对机器学习的支持，也没有这方面的持续工作。请跟踪未来的进度但是，您可以：使用forEach接收器和某种形式的外部状态存储来训练

是否可以将Spark Ml回归应用于流媒体源？我看到有

StreamingLogisticRegressionwithGD

，但它适用于较旧的RDDAPI，我将其用于结构化流媒体源

我应该如何在结构化流媒体源上应用回归

（有点OT）如果我不能使用流式API进行回归，我如何以批处理的方式向源提交偏移量？（卡夫卡水槽）

今天（Spark 2.2/2.3），结构化流媒体中没有对机器学习的支持，也没有这方面的持续工作。请跟踪未来的进度

但是，您可以：

使用forEach接收器和某种形式的外部状态存储来训练迭代的非分布式模型。在高层，回归模型可以这样实现：
- 调用ForeachWriter时获取最新模型。打开并初始化分区的损失累加器（不是火花意义上的，只是局部变量）
- 在ForeachWriter中计算每条记录的损失。处理并更新累加器
- 调用ForeachWriter时，推送到外部存储。关闭
- 这将使外部存储负责计算梯度和更新模型，实现依赖于存储
尝试破解SQL查询（请参见）

如今（Spark 2.2/2.3），结构化流媒体中没有对机器学习的支持，也没有这方面的持续工作。请跟踪未来的进度

但是，您可以：

使用forEach接收器和某种形式的外部状态存储来训练迭代的非分布式模型。在高层，回归模型可以这样实现：
- 调用ForeachWriter时获取最新模型。打开并初始化分区的损失累加器（不是火花意义上的，只是局部变量）
- 在ForeachWriter中计算每条记录的损失。处理并更新累加器
- 调用ForeachWriter时，推送到外部存储。关闭
- 这将使外部存储负责计算梯度和更新模型，实现依赖于存储
尝试破解SQL查询（请参见）

谢谢。你能详细介绍一下forEach方法吗？据我所知，这是一种对每一行

执行某些操作（如写入db）的方法。但是对于应用回归，我需要对数据集进行一些操作（培训和评估）。谢谢。我想我会放弃流式API，因为通过计算梯度的外部存储，我觉得我不会从spark-ml.True获得任何帮助，尽管这听起来可能比实际情况更严重。毕竟，对于GD，它只是一行，有任何像样的线性代数库。但是，如果您正在寻找结构化流媒体的内置支持，目前还没有。谢谢。你能详细介绍一下forEach方法吗？据我所知，这是一种对每一行执行某些操作（如写入db）的方法。但是对于应用回归，我需要对数据集进行一些操作（培训和评估）。谢谢。我想我会放弃流式API，因为通过计算梯度的外部存储，我觉得我不会从spark-ml.True获得任何帮助，尽管这听起来可能比实际情况更严重。毕竟，对于GD，它只是一行，有任何像样的线性代数库。但是，如果您正在寻找结构化流媒体的内置支持，目前还没有。