Apache spark 使用RDD或数据帧在spark中进行除法操作
假设有一个具有一定行数的数据集 我需要找出异质性,即Apache spark 使用RDD或数据帧在spark中进行除法操作,apache-spark,Apache Spark,假设有一个具有一定行数的数据集 我需要找出异质性,即 不同行数除以总行数。 请帮助我使用spark query执行相同的操作。数据集和数据帧支持distinct函数,该函数在数据集中查找不同的行 所以基本上你需要这样做 val heterogeneity = dataset.distinct.count / dataset.count 唯一的问题是,如果数据集很大,distinct可能会很昂贵,您可能需要正确设置spark shuffle分区。只需找到distinct行数(df.distinc
不同行数除以总行数。
请帮助我使用spark query执行相同的操作。数据集和数据帧支持distinct函数,该函数在数据集中查找不同的行 所以基本上你需要这样做
val heterogeneity = dataset.distinct.count / dataset.count
唯一的问题是,如果数据集很大,distinct可能会很昂贵,您可能需要正确设置spark shuffle分区。只需找到distinct行数(
df.distinct.count
),然后除以行数(df.count
)。如果对您有效,请接受答案