Apache spark Spark SQL如何读取拼花地板分区文件
我有一个大约1GB的拼花文件。每个数据记录都是来自物联网设备的读数,它捕获设备在最后一分钟内消耗的能量。 模式:houseId、deviceId、energy 拼花地板文件在houseId和deviceId上进行分区。文件仅包含过去24小时的数据 我想使用Spark SQL对这个拼花地板文件中的数据执行一些查询。一个示例查询可以找出给定房子在过去24小时内每个设备消耗的平均能量Apache spark Spark SQL如何读取拼花地板分区文件,apache-spark,apache-spark-sql,partitioning,parquet,Apache Spark,Apache Spark Sql,Partitioning,Parquet,我有一个大约1GB的拼花文件。每个数据记录都是来自物联网设备的读数,它捕获设备在最后一分钟内消耗的能量。 模式:houseId、deviceId、energy 拼花地板文件在houseId和deviceId上进行分区。文件仅包含过去24小时的数据 我想使用Spark SQL对这个拼花地板文件中的数据执行一些查询。一个示例查询可以找出给定房子在过去24小时内每个设备消耗的平均能量 Dataset df4=ss.read().parquet(“/reads.parquet”); as(编码器)。寄存
Dataset df4=ss.read().parquet(“/reads.parquet”);
as(编码器)。寄存器可清空(“deviceReadings”);
sql(“从deviceReadings中选择平均(能量),其中houseId=3123).show();
上面的代码运行良好。我想了解spark是如何执行此查询的