Hadoop 无法通过SparkSession在spark streaming应用程序中重新分区加载配置单元查询_Hadoop_Apache Spark_Apache Spark Sql_Spark Streaming

Hadoop 无法通过SparkSession在spark streaming应用程序中重新分区加载配置单元查询

hadoop apache-spark

Hadoop 无法通过SparkSession在spark streaming应用程序中重新分区加载配置单元查询,hadoop,apache-spark,apache-spark-sql,spark-streaming,Hadoop,Apache Spark,Apache Spark Sql,Spark Streaming,我试图通过从特定位置加载查询将数据加载到外部配置单元表中 SparkSession sqlContext=null； sqlContext=new org.apache.spark.sql.SparkSession.Builder（）.enableHiveSupport（）.getOrCreate（）； String query=“将数据本地INPATH'/home/user/outputfiles/P20170613097'加载到表table1分区（p1='20170613'，p2='P201

我试图通过从特定位置加载查询将数据加载到外部配置单元表中

SparkSession sqlContext=null；
sqlContext=new org.apache.spark.sql.SparkSession.Builder（）.enableHiveSupport（）.getOrCreate（）；
String query=“将数据本地INPATH'/home/user/outputfiles/P20170613097'加载到表table1分区（p1='20170613'，p2='P2017061301'）”；
sql（查询）
最后，配置单元表中的分区P2017061301收集数据，该分区不包含大小均匀的均匀分布分区文件，而是类似于：
第m部分-00000 125 KB
第m-00001部分763 KB
第m-00002部分28171 KB
第m-00003部分68 KB等
为了提高表的效率，我尝试在将数据加载到配置单元表之前使用“spark.sql.shuffle.partitions=10”
重新划分数据，但这不起作用。有什么帮助吗