Hadoop 无法通过SparkSession在spark streaming应用程序中重新分区加载配置单元查询
我试图通过从特定位置加载查询将数据加载到外部配置单元表中Hadoop 无法通过SparkSession在spark streaming应用程序中重新分区加载配置单元查询,hadoop,apache-spark,apache-spark-sql,spark-streaming,Hadoop,Apache Spark,Apache Spark Sql,Spark Streaming,我试图通过从特定位置加载查询将数据加载到外部配置单元表中 SparkSession sqlContext=null; sqlContext=new org.apache.spark.sql.SparkSession.Builder().enableHiveSupport().getOrCreate(); String query=“将数据本地INPATH'/home/user/outputfiles/P20170613097'加载到表table1分区(p1='20170613',p2='P201
SparkSession sqlContext=null;
sqlContext=new org.apache.spark.sql.SparkSession.Builder().enableHiveSupport().getOrCreate();
String query=“将数据本地INPATH'/home/user/outputfiles/P20170613097'加载到表table1分区(p1='20170613',p2='P2017061301')”;
sql(查询)代码>
最后,配置单元表中的分区P2017061301收集数据,该分区不包含大小均匀的均匀分布分区文件,而是类似于:
第m部分-00000 125 KB
第m-00001部分763 KB
第m-00002部分28171 KB
第m-00003部分68 KB等
为了提高表的效率,我尝试在将数据加载到配置单元表之前使用“spark.sql.shuffle.partitions=10”
重新划分数据,但这不起作用。有什么帮助吗