Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 火花流设计问题_Apache Spark_Spark Streaming_Apache Spark 2.0 - Fatal编程技术网

Apache spark 火花流设计问题

Apache spark 火花流设计问题,apache-spark,spark-streaming,apache-spark-2.0,Apache Spark,Spark Streaming,Apache Spark 2.0,除了设计问题,我没有任何具体的疑问。我是新手,所以如果我问了一个愚蠢的问题,请原谅我。如果问题不适合本论坛,请将其删除 因此,基本上我们需要每小时处理大量数据,并生成o/p,以便在kibana(弹性搜索)中进行报告。假设我们有两个数据模型,如下所示。DataModel-1表示使用该散列发送推特的人的散列标签和用户ID。第二个数据模型DataModel-2包含zip和用户在该zip中的状态。DataModel-1数据是流数据,我们每秒获得大约40K个事件。DataModel-2不会经常更改。在输出

除了设计问题,我没有任何具体的疑问。我是新手,所以如果我问了一个愚蠢的问题,请原谅我。如果问题不适合本论坛,请将其删除

因此,基本上我们需要每小时处理大量数据,并生成o/p,以便在kibana(弹性搜索)中进行报告。假设我们有两个数据模型,如下所示。DataModel-1表示使用该散列发送推特的人的散列标签和用户ID。第二个数据模型DataModel-2包含zip和用户在该zip中的状态。DataModel-1数据是流数据,我们每秒获得大约40K个事件。DataModel-2不会经常更改。在输出中,我们需要数据,通过这些数据,我们可以看到给定zip的标签趋势。比如在给定的时间段内,有多少用户使用给定的标签在推特

我有以下问题

  • 我们可以用卡夫卡的火花流?然而,我担心的是,我们是否能够以每秒40k的速度进行扩展。虽然我们会得到答案,因为我们已经开始对它进行POC。但我只是想知道其他人的经验和调整,我们可以应用来实现它
  • 如果我要像每1小时一样进行批处理,那么什么应该是好的数据存储,我可以保存tweet并在以后处理它。Oracle和MySQL是否适合存储数据,然后将其加载到spark中?或者我应该把它倒进hdfs
  • 除了Kibana之外,什么是好的报告平台
  • 数据模型-1[{ 哈什:我很高兴, 用户:[123134456678899]}]

    数据模型-2[{ 邮编:zip1 用户:[123134]}{ 邮编:zip2 用户:[45667899]}]

    报表数据模型[ { 邮编:zip1, 散列:[我很高兴] }, { 邮编:zip2, 散列:[我很高兴] }]

  • 对。我认为你的任务40K条信息/秒并不难获得。但是
  • 如果你打算每1小时处理一次,不要使用spark streaming。您可以在1小时内将数据存储到HDFS,然后使用普通脱机spark应用程序进行处理。在您的用例中,它比流式传输更合理
  • 我不知道,但是麋鹿很好

  • 关于#2,你可能会发现这个答案很有趣,因此,它不是一个设计建议,而是一个设计问题-编辑你的title@desertnaut我已经更新了问题:)。因为我在spark方面没有太多经验,所以我需要更多的建议。