Python 2.7 装配模型时出现AssertError错误

Python 2.7 装配模型时出现AssertError错误,python-2.7,apache-spark,pyspark,spark-dataframe,Python 2.7,Apache Spark,Pyspark,Spark Dataframe,我有一个小数据集,它的行数少于2000行。我试图用ML拟合一个线性回归模型,数据集只有一个特征(我已经标准化了),在模型拟合后,我使用回归评估器和度量指标R2和RMSE对其进行评估。然后我注意到误差很大,因此决定创建更多的人工特征,以便更好地描述现象。为了实现这一点,我创建了以下UDF(注意,我检查了它是否有效) 在此之后,我修改了我的DataFrame以添加更多功能,使用addFeaturesUDF,我可以在下面显示它 dtBoosted = dt.withColumn("features",

我有一个小数据集,它的行数少于2000行。我试图用
ML
拟合一个
线性回归模型
,数据集只有一个
特征
(我已经标准化了),在模型拟合后,我使用
回归评估器
和度量指标
R2
RMSE
对其进行评估。然后我注意到误差很大,因此决定创建更多的人工特征,以便更好地描述现象。为了实现这一点,我创建了以下
UDF
(注意,我检查了它是否有效)

在此之后,我修改了我的
DataFrame
以添加更多功能,使用
addFeaturesUDF
,我可以在下面显示它

dtBoosted = dt.withColumn("features", addFeaturesUDF(col("features")))
dtBoosted.show(5)
#+--------+-----+----------+--------------------+
#|    date|price|   feature|            features|
#+--------+-----+----------+--------------------+
#|733946.0| 9.92|[733946.0]|[0.0,0.0,0.0,0.0,...|
#|733948.0| 8.05|[733948.0]|[4.88997555012224...|
#|733949.0| 8.05|[733949.0]|[7.33496332518337...|
#|733950.0| 7.91|[733950.0]|[9.77995110024449...|
#|733951.0| 7.91|[733951.0]|[0.00122249388753...|
#+--------+-----+----------+--------------------+
# only showing top 5 rows
而且有效,但当我尝试拟合模型时,它显示出


有什么问题?我做错了什么?它与一个功能和一些其他功能一起工作

看起来像是数字问题。@zero323还有其他数据类型可以使用吗?
dtBoosted = dt.withColumn("features", addFeaturesUDF(col("features")))
dtBoosted.show(5)
#+--------+-----+----------+--------------------+
#|    date|price|   feature|            features|
#+--------+-----+----------+--------------------+
#|733946.0| 9.92|[733946.0]|[0.0,0.0,0.0,0.0,...|
#|733948.0| 8.05|[733948.0]|[4.88997555012224...|
#|733949.0| 8.05|[733949.0]|[7.33496332518337...|
#|733950.0| 7.91|[733950.0]|[9.77995110024449...|
#|733951.0| 7.91|[733951.0]|[0.00122249388753...|
#+--------+-----+----------+--------------------+
# only showing top 5 rows
dtTrain, dtValidation = dtBoosted.randomSplit([0.75, 0.25], seed=107)
lr = LinearRegression(maxIter=100, labelCol="price", featuresCol="features")
lrm = lr.fit(dtTrain)