Apache spark 火花流设计问题_Apache Spark_Spark Streaming_Apache Spark 2.0

Apache spark 火花流设计问题

apache-spark

Apache spark 火花流设计问题,apache-spark,spark-streaming,apache-spark-2.0,Apache Spark,Spark Streaming,Apache Spark 2.0,除了设计问题，我没有任何具体的疑问。我是新手，所以如果我问了一个愚蠢的问题，请原谅我。如果问题不适合本论坛，请将其删除因此，基本上我们需要每小时处理大量数据，并生成o/p，以便在kibana（弹性搜索）中进行报告。假设我们有两个数据模型，如下所示。DataModel-1表示使用该散列发送推特的人的散列标签和用户ID。第二个数据模型DataModel-2包含zip和用户在该zip中的状态。DataModel-1数据是流数据，我们每秒获得大约40K个事件。DataModel-2不会经常更改。在输出

除了设计问题，我没有任何具体的疑问。我是新手，所以如果我问了一个愚蠢的问题，请原谅我。如果问题不适合本论坛，请将其删除

因此，基本上我们需要每小时处理大量数据，并生成o/p，以便在kibana（弹性搜索）中进行报告。假设我们有两个数据模型，如下所示。DataModel-1表示使用该散列发送推特的人的散列标签和用户ID。第二个数据模型DataModel-2包含zip和用户在该zip中的状态。DataModel-1数据是流数据，我们每秒获得大约40K个事件。DataModel-2不会经常更改。在输出中，我们需要数据，通过这些数据，我们可以看到给定zip的标签趋势。比如在给定的时间段内，有多少用户使用给定的标签在推特

我有以下问题

我们可以用卡夫卡的火花流？然而，我担心的是，我们是否能够以每秒40k的速度进行扩展。虽然我们会得到答案，因为我们已经开始对它进行POC。但我只是想知道其他人的经验和调整，我们可以应用来实现它

如果我要像每1小时一样进行批处理，那么什么应该是好的数据存储，我可以保存tweet并在以后处理它。Oracle和MySQL是否适合存储数据，然后将其加载到spark中？或者我应该把它倒进hdfs

除了Kibana之外，什么是好的报告平台

数据模型-1[{ 哈什：我很高兴，用户：[123134456678899]}]

数据模型-2[{ 邮编：zip1 用户：[123134]}{ 邮编：zip2 用户：[45667899]}]

报表数据模型[ { 邮编：zip1，散列：[我很高兴] }, { 邮编：zip2，散列：[我很高兴] }]

对。我认为你的任务40K条信息/秒并不难获得。但是

如果你打算每1小时处理一次，不要使用spark streaming。您可以在1小时内将数据存储到HDFS，然后使用普通脱机spark应用程序进行处理。在您的用例中，它比流式传输更合理

我不知道，但是麋鹿很好

关于#2，你可能会发现这个答案很有趣，因此，它不是一个设计建议，而是一个设计问题-编辑你的title@desertnaut我已经更新了问题：）。因为我在spark方面没有太多经验，所以我需要更多的建议。