Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 使用RDD或数据帧在spark中进行除法操作_Apache Spark - Fatal编程技术网

Apache spark 使用RDD或数据帧在spark中进行除法操作

Apache spark 使用RDD或数据帧在spark中进行除法操作,apache-spark,Apache Spark,假设有一个具有一定行数的数据集 我需要找出异质性,即 不同行数除以总行数。 请帮助我使用spark query执行相同的操作。数据集和数据帧支持distinct函数,该函数在数据集中查找不同的行 所以基本上你需要这样做 val heterogeneity = dataset.distinct.count / dataset.count 唯一的问题是,如果数据集很大,distinct可能会很昂贵,您可能需要正确设置spark shuffle分区。只需找到distinct行数(df.distinc

假设有一个具有一定行数的数据集

我需要找出异质性,即

不同行数除以总行数。


请帮助我使用spark query执行相同的操作。

数据集和数据帧支持distinct函数,该函数在数据集中查找不同的行

所以基本上你需要这样做

val heterogeneity = dataset.distinct.count / dataset.count

唯一的问题是,如果数据集很大,distinct可能会很昂贵,您可能需要正确设置spark shuffle分区。

只需找到distinct行数(
df.distinct.count
),然后除以行数(
df.count
)。如果对您有效,请接受答案