Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/357.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 最小观测数相关矩阵Pypark_Python_Pyspark - Fatal编程技术网

Python 最小观测数相关矩阵Pypark

Python 最小观测数相关矩阵Pypark,python,pyspark,Python,Pyspark,使用pandas,可以指定每对列的最小观测数,以创建相关矩阵 这样:corrMatrix=df.corr(method='pearson',min_periods=100) 我想对pyspark也这么做 我设法用pyspark创建了我的相关矩阵,但我不知道如何定义观测的最小数量 vector\u col=“corr\u特征” col_name=[“col1”、“col2”、“col3”] 汇编器=向量汇编器(inputCols=列名称,outputCol=向量列) df_vector=assem

使用pandas,可以指定每对列的最小观测数,以创建相关矩阵
这样:
corrMatrix=df.corr(method='pearson',min_periods=100)

我想对pyspark也这么做

我设法用pyspark创建了我的相关矩阵,但我不知道如何定义观测的最小数量

vector\u col=“corr\u特征”
col_name=[“col1”、“col2”、“col3”]
汇编器=向量汇编器(inputCols=列名称,outputCol=向量列)
df_vector=assembler.setHandleInvalid(“keep”).transform(df).select(vector_col)
矩阵=Correlation.corr(df_向量,向量_col)
r=matrix.collect()[0][“pearson({})”.format(vector_col)].values
corrMatrix=pd.DataFrame(r.Reformate(-1,len(col_name)),columns=col_name,index=col_name)