Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Hadoop 无法通过SparkSession在spark streaming应用程序中重新分区加载配置单元查询_Hadoop_Apache Spark_Apache Spark Sql_Spark Streaming - Fatal编程技术网

Hadoop 无法通过SparkSession在spark streaming应用程序中重新分区加载配置单元查询

Hadoop 无法通过SparkSession在spark streaming应用程序中重新分区加载配置单元查询,hadoop,apache-spark,apache-spark-sql,spark-streaming,Hadoop,Apache Spark,Apache Spark Sql,Spark Streaming,我试图通过从特定位置加载查询将数据加载到外部配置单元表中 SparkSession sqlContext=null; sqlContext=new org.apache.spark.sql.SparkSession.Builder().enableHiveSupport().getOrCreate(); String query=“将数据本地INPATH'/home/user/outputfiles/P20170613097'加载到表table1分区(p1='20170613',p2='P201

我试图通过从特定位置加载查询将数据加载到外部配置单元表中

SparkSession sqlContext=null;
sqlContext=new org.apache.spark.sql.SparkSession.Builder().enableHiveSupport().getOrCreate();
String query=“将数据本地INPATH'/home/user/outputfiles/P20170613097'加载到表table1分区(p1='20170613',p2='P2017061301')”;
sql(查询)

最后,配置单元表中的分区P2017061301收集数据,该分区不包含大小均匀的均匀分布分区文件,而是类似于:

第m部分-00000 125 KB

第m-00001部分763 KB

第m-00002部分28171 KB

第m-00003部分68 KB等

为了提高表的效率,我尝试在将数据加载到配置单元表之前使用
“spark.sql.shuffle.partitions=10”
重新划分数据,但这不起作用。有什么帮助吗