Scala Spark无法从';地图类型';
我正在使用以下缓冲区模式编写udaf:Scala Spark无法从';地图类型';,scala,apache-spark,apache-spark-sql,Scala,Apache Spark,Apache Spark Sql,我正在使用以下缓冲区模式编写udaf: bufferSchema: StructType = StructType( StructField("grades", MapType(StructType(StructField("subject", StringType) :: StructField("subject_type", StringType) :: Nil), ArrayType(StructType(StructField("date", LongType) ::
bufferSchema: StructType = StructType(
StructField("grades", MapType(StructType(StructField("subject", StringType) :: StructField("subject_type", StringType) :: Nil),
ArrayType(StructType(StructField("date", LongType) :: StructField("grade", IntegerType) :: Nil)))) :: Nil)
看起来spark内部将密钥类型解释为GenericRowWithSchema,而不是simple(String,String)。
因此,每当我试图从地图上画:
override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
var buffer_scoresMap = buffer.getAs[Map[(String,String), Array[..]](0)
buffer\u scoresMap.get((“k1”,“k2”))
返回None即使这个键肯定在映射中,我甚至在调试中看到它。
我尝试将键变异到GenericRowWithSchema
,然后返回到(String,String)
,然后从地图上获取,但没有成功
有什么想法吗?事实上,元组被转换为结构,而不是转换回元组,当它们是深度嵌套列的一部分时。换句话说,
buffer\u scoresMap
实际上具有类型Map[Row,Array[…]]]
,因此您可以创建一个行
从中提取项目:
var buffer_scoresMap = buffer.getAs[Map[Row, Array[..]](0)
buffer_scoresMap.get(Row("k1","k2")) // should not be None if key exists
这里有一个简短的例子可以证明这一点:
// create a simple DF with similar schema:
case class Record(grades: Map[(String, String), Array[Int]])
val df = sc.parallelize(Seq(Record(Map(("a", "b") -> Array(1, 2))))).toDF("grades")
// this indeed fails:
df.rdd.map(r => r.getAs[Map[(String, String), Array[Int]]](0).get(("a", "b"))).first() // None
// but this works:
df.rdd.map(r => r.getAs[Map[Row, Array[Int]]](0).get(Row("a", "b"))).first() // Some(WrappedArray(1, 2))