Apache spark 火花流设计问题
除了设计问题,我没有任何具体的疑问。我是新手,所以如果我问了一个愚蠢的问题,请原谅我。如果问题不适合本论坛,请将其删除 因此,基本上我们需要每小时处理大量数据,并生成o/p,以便在kibana(弹性搜索)中进行报告。假设我们有两个数据模型,如下所示。DataModel-1表示使用该散列发送推特的人的散列标签和用户ID。第二个数据模型DataModel-2包含zip和用户在该zip中的状态。DataModel-1数据是流数据,我们每秒获得大约40K个事件。DataModel-2不会经常更改。在输出中,我们需要数据,通过这些数据,我们可以看到给定zip的标签趋势。比如在给定的时间段内,有多少用户使用给定的标签在推特 我有以下问题Apache spark 火花流设计问题,apache-spark,spark-streaming,apache-spark-2.0,Apache Spark,Spark Streaming,Apache Spark 2.0,除了设计问题,我没有任何具体的疑问。我是新手,所以如果我问了一个愚蠢的问题,请原谅我。如果问题不适合本论坛,请将其删除 因此,基本上我们需要每小时处理大量数据,并生成o/p,以便在kibana(弹性搜索)中进行报告。假设我们有两个数据模型,如下所示。DataModel-1表示使用该散列发送推特的人的散列标签和用户ID。第二个数据模型DataModel-2包含zip和用户在该zip中的状态。DataModel-1数据是流数据,我们每秒获得大约40K个事件。DataModel-2不会经常更改。在输出
关于#2,你可能会发现这个答案很有趣,因此,它不是一个设计建议,而是一个设计问题-编辑你的title@desertnaut我已经更新了问题:)。因为我在spark方面没有太多经验,所以我需要更多的建议。