pyspark中的高斯混合模型

pyspark中的高斯混合模型,pyspark,gmm,Pyspark,Gmm,我已经通过了关于在pyspark中安装GMM的链接。我已经在python中成功地执行了相同的操作,但经过多次迭代后,我无法在pyspark中运行 我的问题如下:; 1.上面提到的链接&在pyspark中安装GMM的另一个例子,我选中了它,它使用一个没有列标题的txt文件。我有一个17列的csv。代码是 data = sc.textFile("..path/mydata.csv") parsedData = data.map(lambda line: array([float(x) for x i

我已经通过了关于在pyspark中安装GMM的链接。我已经在python中成功地执行了相同的操作,但经过多次迭代后,我无法在pyspark中运行

我的问题如下:; 1.上面提到的链接&在pyspark中安装GMM的另一个例子,我选中了它,它使用一个没有列标题的txt文件。我有一个17列的csv。代码是

data = sc.textFile("..path/mydata.csv")
parsedData = data.map(lambda line: array([float(x) for x in line.strip().split(' ')]))
这是可行的,但当我尝试拟合GaussianMixture.train指定某些组件时,它不起作用

如果示例中使用的数据没有列标题,我如何判断哪个列来自哪个分布以及模式的变化是如何出现的

我如何从这里获得热图,以便每当有新数据出现时,我将使用经过训练的模型热图来判断新测试数据的分布模式,并指出错误匹配

谢谢