Multithreading adhoc多线程和Spark_Multithreading_Apache Spark

Multithreading adhoc多线程和Spark

multithreading apache-spark

Multithreading adhoc多线程和Spark,multithreading,apache-spark,Multithreading,Apache Spark,我有一个处理数据的管道，包括输入文本文件的3个方法（比如a（），B（），C（））。但我必须对10000个不同的文件重复这个管道。我使用了adhoc多线程：创建10000个线程，并将它们添加到线程池中……现在我切换到Spark以实现这种并行。我的问题是: 如果Spark能做得更好，请指导我基本步骤，因为我是Spark新手如果我使用临时多线程，则将其部署到集群上。我如何管理资源来分配在节点间平等运行的线程。我也是HPC系统的新手我希望我能提出正确的问题，谢谢 10000个输入文件位于哪里？在HD

我有一个处理数据的管道，包括输入文本文件的3个方法（比如a（），B（），C（））。但我必须对10000个不同的文件重复这个管道。我使用了adhoc多线程：创建10000个线程，并将它们添加到线程池中……现在我切换到Spark以实现这种并行。我的问题是:

如果Spark能做得更好，请指导我基本步骤，因为我是Spark新手

如果我使用临时多线程，则将其部署到集群上。我如何管理资源来分配在节点间平等运行的线程。我也是HPC系统的新手

我希望我能提出正确的问题，谢谢

10000个输入文件位于哪里？在HDFS中？或者本地文件系统？本地文件系统和内存适配（RAM）Spark可以将目录中的所有文件读取到单个RDD中。看到这个答案了吗？但是，我怎样才能应用管道（按顺序包括3种方法）？谢谢Dant，就像您将任何函数应用于RDD一样。具体信息请参见Spark示例。