Mapreduce 处理的算法/编程_Mapreduce_Apache Spark_Bigdata_Spark Streaming

Mapreduce 处理的算法/编程

mapreduce apache-spark

Mapreduce 处理的算法/编程,mapreduce,apache-spark,bigdata,spark-streaming,Mapreduce,Apache Spark,Bigdata,Spark Streaming,我正在使用spark streaming（Java编码），我想了解如何为以下问题生成算法。我对map reduce比较陌生，在设计算法时需要一些帮助这里是问题的细节问题详细信息输入：我的文本的初始输入是：（模式），（时间戳，消息）（3）（12/5/2014 01:00:01，留言）其中3是模式类型我已经将其转换为Key=P1，P2的数据流，其中P1和P2是输入行的一些模式类，Value=pattern，input，timestamp。因此，数据流的每个元组如下所示：模板：（P

我正在使用spark streaming（Java编码），我想了解如何为以下问题生成算法。我对map reduce比较陌生，在设计算法时需要一些帮助

这里是问题的细节

问题详细信息

输入：

我的文本的初始输入是：

（模式），（时间戳，消息）

（3）（12/5/2014 01:00:01，留言）

其中3是模式类型

我已经将其转换为Key=P1，P2的数据流，其中P1和P2是输入行的一些模式类，Value=pattern，input，timestamp。因此，数据流的每个元组如下所示：

模板：（P1，P2），（模式id，时间戳，字符串）

示例：（3,4），（3,12/5/2014 01:00:01，消息）

这里3和4是成对的模式类型

我有一个模型，其中每对都有一个与之相关的时差。例如，模型位于HashMap中，键值为：

模板：（P1，P2）（时差）

示例：（3,4）（2:20）

当模型中的时差为2:20时，如果流中有两条模式分别为3和4的消息，则如果两条消息之间的时差大于2:20，则程序应输出异常

在spark streaming中对其进行建模的最佳方法是什么

到目前为止我所尝试的

我创建了一个数据流，如步骤1中的步骤2所示

创建了一个广播变量，用于将模型（上面的步骤3）中学习的地图发送给所有工人

我一直在试图找出如何在spark streaming中生成异常流的算法。无法确定如何将其作为执行流操作的关联函数

以下是当前代码：

@maasg-我已经添加了一些到目前为止我尝试的细节。。我一直在做一个“map reduce”的面向火花流的算法。我在map reduce编程方面没有太多经验，因此我希望能得到任何提示。添加代码将有助于了解问题所在。@maasg对延迟表示歉意。我已添加当前代码状态。请看一看，让我知道…@maasg-如果你有机会建议算法，请让我知道