Matrix 从Java中的spark数据集创建密集矩阵

Matrix 从Java中的spark数据集创建密集矩阵,matrix,apache-spark,pca,Matrix,Apache Spark,Pca,需要一些关于如何从数据集创建密集矩阵的指针 假设我的数据集是一个csv文件,数据行为1:1.1,1.0,1.2和2:1.4,1.1,1.3 如何将数据集转换为矩阵..以便可以应用矩阵运算 Java/Spark 谢谢大家! 您可以使用vectorassember。它是一个功能转换器,将多个列合并为一个向量列 val dataset = spark.createDataFrame( Seq((0, 18, 1.0, Vectors.dense(0.0, 10.0, 0.5), 1.0)) ).

需要一些关于如何从数据集创建密集矩阵的指针

假设我的数据集是一个csv文件,数据行为1:1.1,1.0,1.2和2:1.4,1.1,1.3 如何将数据集转换为矩阵..以便可以应用矩阵运算

Java/Spark


谢谢大家!

您可以使用vectorassember。它是一个功能转换器,将多个列合并为一个向量列

val dataset = spark.createDataFrame(
  Seq((0, 18, 1.0, Vectors.dense(0.0, 10.0, 0.5), 1.0))
).toDF("id", "hour", "mobile", "userFeatures", "clicked")

val assembler = new VectorAssembler()
  .setInputCols(Array("hour", "mobile", "userFeatures"))
  .setOutputCol("features")

val vd= assembler.transform(dataset)