Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark结构化流和Spark-Ml回归_Apache Spark_Apache Spark Sql_Apache Spark Ml - Fatal编程技术网

Apache spark Spark结构化流和Spark-Ml回归

Apache spark Spark结构化流和Spark-Ml回归,apache-spark,apache-spark-sql,apache-spark-ml,Apache Spark,Apache Spark Sql,Apache Spark Ml,是否可以将Spark Ml回归应用于流媒体源?我看到有StreamingLogisticRegressionwithGD,但它适用于较旧的RDDAPI,我将其用于结构化流媒体源 我应该如何在结构化流媒体源上应用回归 (有点OT)如果我不能使用流式API进行回归,我如何以批处理的方式向源提交偏移量?(卡夫卡水槽) 今天(Spark 2.2/2.3),结构化流媒体中没有对机器学习的支持,也没有这方面的持续工作。请跟踪未来的进度 但是,您可以: 使用forEach接收器和某种形式的外部状态存储来训练

是否可以将Spark Ml回归应用于流媒体源?我看到有
StreamingLogisticRegressionwithGD
,但它适用于较旧的RDDAPI,我将其用于结构化流媒体源

  • 我应该如何在结构化流媒体源上应用回归
  • (有点OT)如果我不能使用流式API进行回归,我如何以批处理的方式向源提交偏移量?(卡夫卡水槽)
  • 今天(Spark 2.2/2.3),结构化流媒体中没有对机器学习的支持,也没有这方面的持续工作。请跟踪未来的进度

    但是,您可以:

    • 使用forEach接收器和某种形式的外部状态存储来训练迭代的非分布式模型。在高层,回归模型可以这样实现:

      • 调用ForeachWriter时获取最新模型。打开并初始化分区的损失累加器(不是火花意义上的,只是局部变量)
      • 在ForeachWriter中计算每条记录的损失。处理并更新累加器
      • 调用ForeachWriter时,推送到外部存储。关闭
      • 这将使外部存储负责计算梯度和更新模型,实现依赖于存储
    • 尝试破解SQL查询(请参见)

    如今(Spark 2.2/2.3),结构化流媒体中没有对机器学习的支持,也没有这方面的持续工作。请跟踪未来的进度

    但是,您可以:

    • 使用forEach接收器和某种形式的外部状态存储来训练迭代的非分布式模型。在高层,回归模型可以这样实现:

      • 调用ForeachWriter时获取最新模型。打开并初始化分区的损失累加器(不是火花意义上的,只是局部变量)
      • 在ForeachWriter中计算每条记录的损失。处理并更新累加器
      • 调用ForeachWriter时,推送到外部存储。关闭
      • 这将使外部存储负责计算梯度和更新模型,实现依赖于存储
    • 尝试破解SQL查询(请参见)


    谢谢。你能详细介绍一下forEach方法吗?据我所知,这是一种对每一行
    执行某些操作(如写入db)的方法。但是对于应用回归,我需要对数据集进行一些操作(培训和评估)。谢谢。我想我会放弃流式API,因为通过计算梯度的外部存储,我觉得我不会从spark-ml.True获得任何帮助,尽管这听起来可能比实际情况更严重。毕竟,对于GD,它只是一行,有任何像样的线性代数库。但是,如果您正在寻找结构化流媒体的内置支持,目前还没有。谢谢。你能详细介绍一下forEach方法吗?据我所知,这是一种对每一行
    执行某些操作(如写入db)的方法。但是对于应用回归,我需要对数据集进行一些操作(培训和评估)。谢谢。我想我会放弃流式API,因为通过计算梯度的外部存储,我觉得我不会从spark-ml.True获得任何帮助,尽管这听起来可能比实际情况更严重。毕竟,对于GD,它只是一行,有任何像样的线性代数库。但是,如果您正在寻找结构化流媒体的内置支持,目前还没有。