Python 最小观测数相关矩阵Pypark
使用pandas,可以指定每对列的最小观测数,以创建相关矩阵Python 最小观测数相关矩阵Pypark,python,pyspark,Python,Pyspark,使用pandas,可以指定每对列的最小观测数,以创建相关矩阵 这样:corrMatrix=df.corr(method='pearson',min_periods=100) 我想对pyspark也这么做 我设法用pyspark创建了我的相关矩阵,但我不知道如何定义观测的最小数量 vector\u col=“corr\u特征” col_name=[“col1”、“col2”、“col3”] 汇编器=向量汇编器(inputCols=列名称,outputCol=向量列) df_vector=assem
这样:
corrMatrix=df.corr(method='pearson',min_periods=100)
我想对pyspark也这么做
我设法用pyspark创建了我的相关矩阵,但我不知道如何定义观测的最小数量
vector\u col=“corr\u特征”
col_name=[“col1”、“col2”、“col3”]
汇编器=向量汇编器(inputCols=列名称,outputCol=向量列)
df_vector=assembler.setHandleInvalid(“keep”).transform(df).select(vector_col)
矩阵=Correlation.corr(df_向量,向量_col)
r=matrix.collect()[0][“pearson({})”.format(vector_col)].values
corrMatrix=pd.DataFrame(r.Reformate(-1,len(col_name)),columns=col_name,index=col_name)