Apache spark 在Spark中并行读取单个拼花地板文件?
我们使用Spark 1.6(以及Spark 2.1)并在保存为拼花文件的蜂巢桌上进行操作。在某些情况下,我们只有很少的文件(大约10MB大小) 例如,有两个拼花文件,使用Apache spark 在Spark中并行读取单个拼花地板文件?,apache-spark,hdfs,Apache Spark,Hdfs,我们使用Spark 1.6(以及Spark 2.1)并在保存为拼花文件的蜂巢桌上进行操作。在某些情况下,我们只有很少的文件(大约10MB大小) 例如,有两个拼花文件,使用sqlContext.table(tableName).rdd.count来读取这些表将创建一个sparkjob,其中只有两个任务,需要花费相当长的时间(~12秒) 我的问题是:是否有可能以比仅N更并行的方式读取N文件?有没有一种方法可以在不改变文件系统上的文件数的情况下加速spark作业?由于HDFS是一个分布式文件系统(并且
sqlContext.table(tableName).rdd.count来读取这些表将创建一个sparkjob,其中只有两个任务,需要花费相当长的时间(~12秒)
我的问题是:是否有可能以比仅N
更并行的方式读取N
文件?有没有一种方法可以在不改变文件系统上的文件数的情况下加速spark作业?由于HDFS是一个分布式文件系统(并且文件是复制的),我可以想象不止一台机器可以同时读取一个文件的一部分
使用多个执行器和/或多个线程(spark.task.cpu>1)up
使用多个执行器和/或多个线程(spark.task.cpu>1)您解决过这个问题吗?您解决过这个问题吗?