Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 在Spark中并行读取单个拼花地板文件?_Apache Spark_Hdfs - Fatal编程技术网

Apache spark 在Spark中并行读取单个拼花地板文件?

Apache spark 在Spark中并行读取单个拼花地板文件?,apache-spark,hdfs,Apache Spark,Hdfs,我们使用Spark 1.6(以及Spark 2.1)并在保存为拼花文件的蜂巢桌上进行操作。在某些情况下,我们只有很少的文件(大约10MB大小) 例如,有两个拼花文件,使用sqlContext.table(tableName).rdd.count来读取这些表将创建一个sparkjob,其中只有两个任务,需要花费相当长的时间(~12秒) 我的问题是:是否有可能以比仅N更并行的方式读取N文件?有没有一种方法可以在不改变文件系统上的文件数的情况下加速spark作业?由于HDFS是一个分布式文件系统(并且

我们使用Spark 1.6(以及Spark 2.1)并在保存为拼花文件的蜂巢桌上进行操作。在某些情况下,我们只有很少的文件(大约10MB大小)

例如,有两个拼花文件,使用
sqlContext.table(tableName).rdd.count来读取这些表将创建一个sparkjob,其中只有两个任务,需要花费相当长的时间(~12秒)

我的问题是:是否有可能以比仅
N
更并行的方式读取
N
文件?有没有一种方法可以在不改变文件系统上的文件数的情况下加速spark作业?由于HDFS是一个分布式文件系统(并且文件是复制的),我可以想象不止一台机器可以同时读取一个文件的一部分 使用多个执行器和/或多个线程(spark.task.cpu>1)

up
使用多个执行器和/或多个线程(spark.task.cpu>1)

您解决过这个问题吗?您解决过这个问题吗?