Apache spark 将本地文件系统中的大量数据放入分布式存储的最快方法是什么？_Apache Spark_Mapreduce_Etl_Distributed Computing_Bigdata

Apache spark 将本地文件系统中的大量数据放入分布式存储的最快方法是什么？

apache-spark mapreduce

Apache spark 将本地文件系统中的大量数据放入分布式存储的最快方法是什么？,apache-spark,mapreduce,etl,distributed-computing,bigdata,Apache Spark,Mapreduce,Etl,Distributed Computing,Bigdata,我有一个1 TB左右的本地目录。它由数百万个非常小的文本文档组成。如果我要为我的ETL按顺序遍历每个文件，这将需要几天的时间。对我来说，对这些数据执行ETL，最终将其加载到分布式存储（如hdfs或redis群集）的最快方式是什么？一般来说：尝试使用多个/多个并行异步流，每个文件一个。多少取决于多个因素（目标端点的数量、用于遍历/读取数据的磁盘IO、网络缓冲区、错误和延迟…）请提供更多详细信息，如您使用的ETL工具、您希望执行的操作以及您的文本文档。

我有一个1 TB左右的本地目录。它由数百万个非常小的文本文档组成。如果我要为我的ETL按顺序遍历每个文件，这将需要几天的时间。对我来说，对这些数据执行ETL，最终将其加载到分布式存储（如hdfs或redis群集）的最快方式是什么？

一般来说：尝试使用多个/多个并行异步流，每个文件一个。多少取决于多个因素（目标端点的数量、用于遍历/读取数据的磁盘IO、网络缓冲区、错误和延迟…）

请提供更多详细信息，如您使用的ETL工具、您希望执行的操作以及您的文本文档。