Mapreduce 处理的算法/编程

Mapreduce 处理的算法/编程,mapreduce,apache-spark,bigdata,spark-streaming,Mapreduce,Apache Spark,Bigdata,Spark Streaming,我正在使用spark streaming(Java编码),我想了解如何为以下问题生成算法。我对map reduce比较陌生,在设计算法时需要一些帮助 这里是问题的细节 问题详细信息 输入: 我的文本的初始输入是: (模式),(时间戳,消息) (3) (12/5/2014 01:00:01,留言) 其中3是模式类型 我已经将其转换为Key=P1,P2的数据流,其中P1和P2是输入行的一些模式类,Value=pattern,input,timestamp。因此,数据流的每个元组如下所示: 模板:(P

我正在使用spark streaming(Java编码),我想了解如何为以下问题生成算法。我对map reduce比较陌生,在设计算法时需要一些帮助

这里是问题的细节

问题详细信息

输入:

  • 我的文本的初始输入是:
  • (模式),(时间戳,消息)

    (3) (12/5/2014 01:00:01,留言)

    其中3是模式类型

  • 我已经将其转换为Key=P1,P2的数据流,其中P1和P2是输入行的一些模式类,Value=pattern,input,timestamp。因此,数据流的每个元组如下所示:
  • 模板:(P1,P2),(模式id,时间戳,字符串)

    示例:(3,4),(3,12/5/2014 01:00:01,消息)

    这里3和4是成对的模式类型

  • 我有一个模型,其中每对都有一个与之相关的时差。例如,模型位于HashMap中,键值为:
  • 模板:(P1,P2)(时差)

    示例:(3,4)(2:20)

    当模型中的时差为2:20时,如果流中有两条模式分别为3和4的消息,则如果两条消息之间的时差大于2:20,则程序应输出异常

    在spark streaming中对其进行建模的最佳方法是什么

    到目前为止我所尝试的

  • 我创建了一个数据流,如步骤1中的步骤2所示
  • 创建了一个广播变量,用于将模型(上面的步骤3)中学习的地图发送给所有工人
  • 我一直在试图找出如何在spark streaming中生成异常流的算法。无法确定如何将其作为执行流操作的关联函数

  • 以下是当前代码:

    @maasg-我已经添加了一些到目前为止我尝试的细节。。我一直在做一个“map reduce”的面向火花流的算法。我在map reduce编程方面没有太多经验,因此我希望能得到任何提示。添加代码将有助于了解问题所在。@maasg对延迟表示歉意。我已添加当前代码状态。请看一看,让我知道…@maasg-如果你有机会建议算法,请让我知道