Apache spark 将本地文件系统中的大量数据放入分布式存储的最快方法是什么?

Apache spark 将本地文件系统中的大量数据放入分布式存储的最快方法是什么?,apache-spark,mapreduce,etl,distributed-computing,bigdata,Apache Spark,Mapreduce,Etl,Distributed Computing,Bigdata,我有一个1 TB左右的本地目录。它由数百万个非常小的文本文档组成。如果我要为我的ETL按顺序遍历每个文件,这将需要几天的时间。对我来说,对这些数据执行ETL,最终将其加载到分布式存储(如hdfs或redis群集)的最快方式是什么?一般来说:尝试使用多个/多个并行异步流,每个文件一个。多少取决于多个因素(目标端点的数量、用于遍历/读取数据的磁盘IO、网络缓冲区、错误和延迟…)请提供更多详细信息,如您使用的ETL工具、您希望执行的操作以及您的文本文档。

我有一个1 TB左右的本地目录。它由数百万个非常小的文本文档组成。如果我要为我的ETL按顺序遍历每个文件,这将需要几天的时间。对我来说,对这些数据执行ETL,最终将其加载到分布式存储(如hdfs或redis群集)的最快方式是什么?

一般来说:尝试使用多个/多个并行异步流,每个文件一个。多少取决于多个因素(目标端点的数量、用于遍历/读取数据的磁盘IO、网络缓冲区、错误和延迟…)

请提供更多详细信息,如您使用的ETL工具、您希望执行的操作以及您的文本文档。