Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/qt/7.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 火花极小批量加工_Apache Spark_Bigdata_Batch Processing - Fatal编程技术网

Apache spark 火花极小批量加工

Apache spark 火花极小批量加工,apache-spark,bigdata,batch-processing,Apache Spark,Bigdata,Batch Processing,我们正在进行一个项目,我们需要处理一些非常小的数据集,事实上,csv格式的数据集少于100行。大约有20-30个这样的工作处理这些类型的数据集。但未来的负载可能会增加,并且可以扩展到大数据类别。对于这些额外的小负载,可以从spark开始,这样系统明天仍然可以扩展吗?或者我们现在应该用java/c编写一个正常的程序,按计划运行吗?将来,如果其中一些任务的负载变得非常高,那么切换到spark 提前感谢。非常好,运行作业之前要记住的一件事是检查内存并根据数据大小分配内存。 假设您有10个内核,50GB

我们正在进行一个项目,我们需要处理一些非常小的数据集,事实上,csv格式的数据集少于100行。大约有20-30个这样的工作处理这些类型的数据集。但未来的负载可能会增加,并且可以扩展到大数据类别。对于这些额外的小负载,可以从spark开始,这样系统明天仍然可以扩展吗?或者我们现在应该用java/c编写一个正常的程序,按计划运行吗?将来,如果其中一些任务的负载变得非常高,那么切换到spark


提前感谢。

非常好,运行作业之前要记住的一件事是检查内存并根据数据大小分配内存。 假设您有10个内核,50GB ram,最初您有3kb或1MB大小的csv文件。为1MB文件提供50GB ram和10GB内存是错误的方法, 在你跳槽之前,你应该仔细分配内存和执行器的数量。 对于以上3Mb数据的csv文件,您最多可以提供2个内核和5Gb的RAM来完成任务。随着数据大小的增加,您可以增加内核和内存的使用

在打开sparkshell之前(这里我使用Pyspark和Thread作为资源管理器)。这可以通过以下示例完成:

pyspark --master yarn --num-executors-memory <512M ,2G> 
pyspark——主线程——num执行器内存

谢谢。

您绝对不应该在Spark中这样做。Spark需要大量复杂的基础设施,但由于数据总量只有数千行,因此不值得这么做。感谢DemetriKots的支持!