Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/codeigniter/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 弗林克的批量能有多大?_Apache Spark_Bigdata_Apache Flink - Fatal编程技术网

Apache spark 弗林克的批量能有多大?

Apache spark 弗林克的批量能有多大?,apache-spark,bigdata,apache-flink,Apache Spark,Bigdata,Apache Flink,我目前正在研究一个大规模实验的分析应用框架。该实验包含约40台仪器,每台仪器产生约1 GB/s的ns时间戳。该数据旨在分时间段进行分析。 对于实现,我想知道在Flink或Spark停止处理数据之前,这样一个块aka批可以得到多大。我想不用说,我打算重新收集处理过的数据。用于实时数据分析 一般来说,系统可以处理的数据量没有硬性限制。这完全取决于您有多少个节点以及您有什么类型的查询 由于听起来您主要希望在给定的时间窗口内对每个乐器进行聚合,所以最大扩展限制为40。这是解决问题的最大机器数量。然后,问

我目前正在研究一个大规模实验的分析应用框架。该实验包含约40台仪器,每台仪器产生约1 GB/s的ns时间戳。该数据旨在分时间段进行分析。 对于实现,我想知道在Flink或Spark停止处理数据之前,这样一个块aka批可以得到多大。我想不用说,我打算重新收集处理过的数据。

用于实时数据分析 一般来说,系统可以处理的数据量没有硬性限制。这完全取决于您有多少个节点以及您有什么类型的查询

由于听起来您主要希望在给定的时间窗口内对每个乐器进行聚合,所以最大扩展限制为40。这是解决问题的最大机器数量。然后,问题就出现了:你的时间块有多大/聚合有多复杂。假设聚合需要显示窗口的所有数据,则系统需要每秒保持1 GB。因此,如果窗口为一小时,则系统需要保存至少3.6 TB的数据

如果机器的主内存不足,则需要将数据溢出到磁盘,这会显著降低处理速度。Spark非常喜欢将所有数据保存在内存中,因此这是实际的限制。Flink可以将几乎所有数据泄漏到磁盘,但磁盘I/O会成为瓶颈

如果您更需要计算小的值,如总和、平均值,主内存不应该成为问题

用于旧数据分析 在分析旧数据时,系统可以进行批处理,并有更多选项来处理卷,包括溢出到本地磁盘。如果你能将一个窗口的所有数据保存在主内存中,Spark通常会发光。如果您对此不确定,或者您知道它将不适合主内存,Flink是更具可扩展性的解决方案。不过,我希望这两个框架都能很好地适用于您的用例


我宁愿看看生态系统和适合你的衣服。您想使用哪种语言?它感觉像是使用或将最适合您的即席分析和数据探索。特别是如果你想使用Python,我可能会先让Spark试试。

数据不是直接从仪器中收集的,而是通过与存档文件系统接口来收集的。因此,磁盘空间没有问题不太可能导致任何问题。批次将代表至少40个不同通道的数据,大小为分钟。我既不知道聚合将变得多么复杂,也不知道计算将变得多么复杂,而且我不负责计算。据我所知,并不是一个区块的所有数据都是必需的。在你的评论中添加了一个新的小节。总的来说,你的问题陈述仍然很模糊。因此,不要期望得到量身定做的答案。