如何在ApacheSparkSQL数据帧中找到每一行的大小,并以KB为单位显示大小超过阈值大小的行

如何在ApacheSparkSQL数据帧中找到每一行的大小,并以KB为单位显示大小超过阈值大小的行,sql,scala,apache-spark,Sql,Scala,Apache Spark,我是scala中apache spark sql的新手 如何在ApacheSparkSQL数据帧中找到每一行的大小,并以KB为单位显示大小超过阈值大小的行。我正在寻找scala解决方案。这实际上是一个棘手的问题。Spark SQL使用列式数据存储,因此考虑单个行的大小不是很自然。当然,我们可以调用.rdd,从这里开始,您可以使用from等技术过滤生成的rdd以确定对象大小,然后您可以使用SQLContext将行的rdd转换回数据帧。这实际上是一个棘手的问题。Spark SQL使用列式数据存储,因

我是scala中apache spark sql的新手


如何在ApacheSparkSQL数据帧中找到每一行的大小,并以KB为单位显示大小超过阈值大小的行。我正在寻找scala解决方案。

这实际上是一个棘手的问题。Spark SQL使用列式数据存储,因此考虑单个行的大小不是很自然。当然,我们可以调用.rdd,从这里开始,您可以使用from等技术过滤生成的rdd以确定对象大小,然后您可以使用SQLContext将行的rdd转换回数据帧。

这实际上是一个棘手的问题。Spark SQL使用列式数据存储,因此考虑单个行的大小不是很自然。当然,我们可以从那里调用.rdd,您可以使用技术筛选结果rdd,如从,以确定对象大小,然后您可以获取行的rdd,并使用SQLContext将其转换回数据帧