Apache spark 火花极小批量加工_Apache Spark_Bigdata_Batch Processing

Apache spark 火花极小批量加工

apache-spark

Apache spark 火花极小批量加工,apache-spark,bigdata,batch-processing,Apache Spark,Bigdata,Batch Processing,我们正在进行一个项目，我们需要处理一些非常小的数据集，事实上，csv格式的数据集少于100行。大约有20-30个这样的工作处理这些类型的数据集。但未来的负载可能会增加，并且可以扩展到大数据类别。对于这些额外的小负载，可以从spark开始，这样系统明天仍然可以扩展吗？或者我们现在应该用java/c编写一个正常的程序，按计划运行吗？将来，如果其中一些任务的负载变得非常高，那么切换到spark 提前感谢。非常好，运行作业之前要记住的一件事是检查内存并根据数据大小分配内存。假设您有10个内核，50GB

我们正在进行一个项目，我们需要处理一些非常小的数据集，事实上，csv格式的数据集少于100行。大约有20-30个这样的工作处理这些类型的数据集。但未来的负载可能会增加，并且可以扩展到大数据类别。对于这些额外的小负载，可以从spark开始，这样系统明天仍然可以扩展吗？或者我们现在应该用java/c编写一个正常的程序，按计划运行吗？将来，如果其中一些任务的负载变得非常高，那么切换到spark

提前感谢。

非常好，运行作业之前要记住的一件事是检查内存并根据数据大小分配内存。假设您有10个内核，50GB ram，最初您有3kb或1MB大小的csv文件。为1MB文件提供50GB ram和10GB内存是错误的方法，在你跳槽之前，你应该仔细分配内存和执行器的数量。对于以上3Mb数据的csv文件，您最多可以提供2个内核和5Gb的RAM来完成任务。随着数据大小的增加，您可以增加内核和内存的使用

在打开sparkshell之前（这里我使用Pyspark和Thread作为资源管理器）。这可以通过以下示例完成：

pyspark --master yarn --num-executors-memory <512M ,2G>

pyspark——主线程——num执行器内存

谢谢。

您绝对不应该在Spark中这样做。Spark需要大量复杂的基础设施，但由于数据总量只有数千行，因此不值得这么做。感谢DemetriKots的支持！