Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/multithreading/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Multithreading adhoc多线程和Spark_Multithreading_Apache Spark - Fatal编程技术网

Multithreading adhoc多线程和Spark

Multithreading adhoc多线程和Spark,multithreading,apache-spark,Multithreading,Apache Spark,我有一个处理数据的管道,包括输入文本文件的3个方法(比如a(),B(),C())。但我必须对10000个不同的文件重复这个管道。我使用了adhoc多线程:创建10000个线程,并将它们添加到线程池中……现在我切换到Spark以实现这种并行。我的问题是: 如果Spark能做得更好,请指导我基本步骤,因为我是Spark新手 如果我使用临时多线程,则将其部署到集群上。我如何管理资源来分配在节点间平等运行的线程。我也是HPC系统的新手 我希望我能提出正确的问题,谢谢 10000个输入文件位于哪里?在HD

我有一个处理数据的管道,包括输入文本文件的3个方法(比如a(),B(),C())。但我必须对10000个不同的文件重复这个管道。我使用了adhoc多线程:创建10000个线程,并将它们添加到线程池中……现在我切换到Spark以实现这种并行。我的问题是:

  • 如果Spark能做得更好,请指导我基本步骤,因为我是Spark新手
  • 如果我使用临时多线程,则将其部署到集群上。我如何管理资源来分配在节点间平等运行的线程。我也是HPC系统的新手

  • 我希望我能提出正确的问题,谢谢

    10000个输入文件位于哪里?在HDFS中?或者本地文件系统?本地文件系统和内存适配(RAM)Spark可以将目录中的所有文件读取到单个RDD中。看到这个答案了吗?但是,我怎样才能应用管道(按顺序包括3种方法)?谢谢Dant,就像您将任何函数应用于RDD一样。具体信息请参见Spark示例。