Apache spark spark如何管理其内存_Apache Spark_Spark Streaming

Apache spark spark如何管理其内存

apache-spark

Apache spark spark如何管理其内存,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我是Spark的新手，正在尝试在Spark流媒体中处理csv文件（超过1000/秒），每个文件包含大约50000行。如果我的内存已满，文件仍在发送中。火花如何反应？他们的文件管理系统（FIFO…）是什么？如何知道哪些是已处理的文件，哪些尚未处理？这通常是一个广泛的问题。但Spark一旦耗尽内存，就会将内容溢出到磁盘。这可能会影响流式数据的性能，但仍然可以处理数据。是的，您可以。您可以通过Spark配置参数进行设置。感谢您的帮助，我还有最后一个问题：在Spark Streaming中，是否可

我是Spark的新手，正在尝试在Spark流媒体中处理csv文件（超过1000/秒），每个文件包含大约50000行。如果我的内存已满，文件仍在发送中。
火花如何反应？
他们的文件管理系统（FIFO…）是什么？

如何知道哪些是已处理的文件，哪些尚未处理？

这通常是一个广泛的问题。但Spark一旦耗尽内存，就会将内容溢出到磁盘。这可能会影响流式数据的性能，但仍然可以处理数据。是的，您可以。您可以通过Spark配置参数进行设置。感谢您的帮助，我还有最后一个问题：在Spark Streaming中，是否可以进行一次重复治疗？例如，我对流式处理中的文件进行处理，得到结果a（a1，a2…），每1小时生成一个结果B=最后一个小时生成的（ai）的总和。这通常是一个广泛的问题。但Spark一旦耗尽内存，就会将内容溢出到磁盘。这可能会影响流式数据的性能，但仍然可以处理数据。是的，您可以。您可以通过Spark配置参数进行设置。感谢您的帮助，我还有最后一个问题：在Spark Streaming中，是否可以进行一次重复治疗？例如，我对流式处理中的文件进行处理，得到一个resultat a（a1，a2…），每1小时生成一个resultat B=最后一小时生成的（ai）之和