Apache spark 在Spark中并行读取单个拼花地板文件？_Apache Spark_Hdfs

Apache spark 在Spark中并行读取单个拼花地板文件？

apache-spark

Apache spark 在Spark中并行读取单个拼花地板文件？,apache-spark,hdfs,Apache Spark,Hdfs,我们使用Spark 1.6（以及Spark 2.1）并在保存为拼花文件的蜂巢桌上进行操作。在某些情况下，我们只有很少的文件（大约10MB大小）例如，有两个拼花文件，使用sqlContext.table（tableName）.rdd.count来读取这些表将创建一个sparkjob，其中只有两个任务，需要花费相当长的时间（~12秒）我的问题是：是否有可能以比仅N更并行的方式读取N文件？有没有一种方法可以在不改变文件系统上的文件数的情况下加速spark作业？由于HDFS是一个分布式文件系统（并且

我们使用Spark 1.6（以及Spark 2.1）并在保存为拼花文件的蜂巢桌上进行操作。在某些情况下，我们只有很少的文件（大约10MB大小）

例如，有两个拼花文件，使用

sqlContext.table（tableName）.rdd.count来读取这些表将创建一个sparkjob，其中只有两个任务，需要花费相当长的时间（~12秒）
我的问题是：是否有可能以比仅N
更并行的方式读取N文件？有没有一种方法可以在不改变文件系统上的文件数的情况下加速spark作业？由于HDFS是一个分布式文件系统（并且文件是复制的），我可以想象不止一台机器可以同时读取一个文件的一部分
使用多个执行器和/或多个线程（spark.task.cpu>1）up
使用多个执行器和/或多个线程（spark.task.cpu>1）
您解决过这个问题吗？您解决过这个问题吗？