Scala 将[U]]设置为[U]:数据集[U]。它就像是一个的替代品。。。但这只是冰山一角——由于复杂的管道(连接,聚合器…),我真的很难保持在“可检查”的路径内。我想知道投票否决我的答案的原因。我正在分享我的实践经验。你的回答是正确的,但这并不意味着我的回答是错误
Scala 将[U]]设置为[U]:数据集[U]。它就像是一个的替代品。。。但这只是冰山一角——由于复杂的管道(连接,聚合器…),我真的很难保持在“可检查”的路径内。我想知道投票否决我的答案的原因。我正在分享我的实践经验。你的回答是正确的,但这并不意味着我的回答是错误,scala,apache-spark,apache-spark-sql,apache-spark-dataset,apache-spark-2.0,Scala,Apache Spark,Apache Spark Sql,Apache Spark Dataset,Apache Spark 2.0,将[U]]设置为[U]:数据集[U]。它就像是一个的替代品。。。但这只是冰山一角——由于复杂的管道(连接,聚合器…),我真的很难保持在“可检查”的路径内。我想知道投票否决我的答案的原因。我正在分享我的实践经验。你的回答是正确的,但这并不意味着我的回答是错误的。我相信过去有人已经指出了这一点,但不知何故,注释被删除了——你在这里提出的这一点是无效的,因为你比较了不同类型的对象数据集是一个类型构造函数DataFame是一种类型,更具体地说,它是一个别名Dataset[Row]。您真正应该比较的是Da
将[U]]设置为[U]:数据集[U]。它就像是一个的替代品。。。但这只是冰山一角——由于复杂的管道(连接,
聚合器
…),我真的很难保持在“可检查”的路径内。我想知道投票否决我的答案的原因。我正在分享我的实践经验。你的回答是正确的,但这并不意味着我的回答是错误的。我相信过去有人已经指出了这一点,但不知何故,注释被删除了——你在这里提出的这一点是无效的,因为你比较了不同类型的对象<代码>数据集是一个类型构造函数DataFame
是一种类型,更具体地说,它是一个别名Dataset[Row]
。您真正应该比较的是Dataset[Row]
与Dataset[U]
,其中不是一个子类Row
@user6910411完全一致。
ds.select($"bar".as[Int])
ds.groupBy("foo").agg(sum($"bar") as "bar").as[FooBar].filter(x => true).where($"foo" === 1).explain
ds.groupBy("foo").agg(sum($"bar") as "bar").as[FooBar].where($"foo" === 1).explain
case class Employee(id:Int,name:String)
Dataset[Employee] // is valid
Dataframe[Employee] // is invalid