Apache spark 弗林克的批量能有多大？_Apache Spark_Bigdata_Apache Flink

Apache spark 弗林克的批量能有多大？

apache-spark apache-flink

Apache spark 弗林克的批量能有多大？,apache-spark,bigdata,apache-flink,Apache Spark,Bigdata,Apache Flink,我目前正在研究一个大规模实验的分析应用框架。该实验包含约40台仪器，每台仪器产生约1 GB/s的ns时间戳。该数据旨在分时间段进行分析。对于实现，我想知道在Flink或Spark停止处理数据之前，这样一个块aka批可以得到多大。我想不用说，我打算重新收集处理过的数据。用于实时数据分析一般来说，系统可以处理的数据量没有硬性限制。这完全取决于您有多少个节点以及您有什么类型的查询由于听起来您主要希望在给定的时间窗口内对每个乐器进行聚合，所以最大扩展限制为40。这是解决问题的最大机器数量。然后，问

我目前正在研究一个大规模实验的分析应用框架。该实验包含约40台仪器，每台仪器产生约1 GB/s的ns时间戳。该数据旨在分时间段进行分析。对于实现，我想知道在Flink或Spark停止处理数据之前，这样一个块aka批可以得到多大。我想不用说，我打算重新收集处理过的数据。

用于实时数据分析一般来说，系统可以处理的数据量没有硬性限制。这完全取决于您有多少个节点以及您有什么类型的查询

由于听起来您主要希望在给定的时间窗口内对每个乐器进行聚合，所以最大扩展限制为40。这是解决问题的最大机器数量。然后，问题就出现了：你的时间块有多大/聚合有多复杂。假设聚合需要显示窗口的所有数据，则系统需要每秒保持1 GB。因此，如果窗口为一小时，则系统需要保存至少3.6 TB的数据

如果机器的主内存不足，则需要将数据溢出到磁盘，这会显著降低处理速度。Spark非常喜欢将所有数据保存在内存中，因此这是实际的限制。Flink可以将几乎所有数据泄漏到磁盘，但磁盘I/O会成为瓶颈

如果您更需要计算小的值，如总和、平均值，主内存不应该成为问题

用于旧数据分析在分析旧数据时，系统可以进行批处理，并有更多选项来处理卷，包括溢出到本地磁盘。如果你能将一个窗口的所有数据保存在主内存中，Spark通常会发光。如果您对此不确定，或者您知道它将不适合主内存，Flink是更具可扩展性的解决方案。不过，我希望这两个框架都能很好地适用于您的用例

我宁愿看看生态系统和适合你的衣服。您想使用哪种语言？它感觉像是使用或将最适合您的即席分析和数据探索。特别是如果你想使用Python，我可能会先让Spark试试。

数据不是直接从仪器中收集的，而是通过与存档文件系统接口来收集的。因此，磁盘空间没有问题不太可能导致任何问题。批次将代表至少40个不同通道的数据，大小为分钟。我既不知道聚合将变得多么复杂，也不知道计算将变得多么复杂，而且我不负责计算。据我所知，并不是一个区块的所有数据都是必需的。在你的评论中添加了一个新的小节。总的来说，你的问题陈述仍然很模糊。因此，不要期望得到量身定做的答案。