Multithreading adhoc多线程和Spark
我有一个处理数据的管道,包括输入文本文件的3个方法(比如a(),B(),C())。但我必须对10000个不同的文件重复这个管道。我使用了adhoc多线程:创建10000个线程,并将它们添加到线程池中……现在我切换到Spark以实现这种并行。我的问题是:Multithreading adhoc多线程和Spark,multithreading,apache-spark,Multithreading,Apache Spark,我有一个处理数据的管道,包括输入文本文件的3个方法(比如a(),B(),C())。但我必须对10000个不同的文件重复这个管道。我使用了adhoc多线程:创建10000个线程,并将它们添加到线程池中……现在我切换到Spark以实现这种并行。我的问题是: 如果Spark能做得更好,请指导我基本步骤,因为我是Spark新手 如果我使用临时多线程,则将其部署到集群上。我如何管理资源来分配在节点间平等运行的线程。我也是HPC系统的新手 我希望我能提出正确的问题,谢谢 10000个输入文件位于哪里?在HD
我希望我能提出正确的问题,谢谢 10000个输入文件位于哪里?在HDFS中?或者本地文件系统?本地文件系统和内存适配(RAM)Spark可以将目录中的所有文件读取到单个RDD中。看到这个答案了吗?但是,我怎样才能应用管道(按顺序包括3种方法)?谢谢Dant,就像您将任何函数应用于RDD一样。具体信息请参见Spark示例。