Apache spark 如何创建Spark数据框以运行线性回归Spark 2 ML_Apache Spark_Dataframe_Pyspark

Apache spark 如何创建Spark数据框以运行线性回归Spark 2 ML

apache-spark dataframe pyspark

Apache spark 如何创建Spark数据框以运行线性回归Spark 2 ML,apache-spark,dataframe,pyspark,Apache Spark,Dataframe,Pyspark,我正在研究Spark 2和板条箱数据帧 sdf=sqlContext.createDataFrame(a) sdf.show(5) 成功是因变量其他都是自变量。都很好，我找到了解决方案， +-------+-----+-----+--------+--------+-------+ |success| apt1| apr2|extraver|itdegree|otherit| +-------+-----+-----+--------+--------+-------+ | 68.0|1

我正在研究Spark 2和板条箱数据帧

sdf=sqlContext.createDataFrame(a)
sdf.show(5)

成功是因变量

其他都是自变量。

都很好，我找到了解决方案， +-------+-----+-----+--------+--------+-------+ |success| apt1| apr2|extraver|itdegree|otherit| +-------+-----+-----+--------+--------+-------+ | 68.0|117.0|104.0| 27.0| 0.0| 0.0| | 36.0| 93.0| 90.0| 43.0| 0.0| 0.0| | 25.0|101.0| 96.0| 48.0| 1.0| 0.0| | 36.0|116.0|108.0| 59.0| 0.0| 0.0| | 35.0|103.0| 92.0| 45.0| 1.0| 0.0| +-------+-----+-----+--------+--------+-------+

from pyspark.ml.linalg import Vectors
>>> sdf1 = spark.createDataFrame([
...     (1.0, 2.0, Vectors.dense(1.0)),
...     (0.0, 2.0, Vectors.sparse(1, [], []))], ["label", "weight", "features"])
>>> lr = LinearRegression(maxIter=5, regParam=0.0, solver="normal", weightCol="weight")
>>> model = lr.fit(sdf1)[enter image description here][1]