Apache spark MLlib估计器如何知道特征和目标列是什么？_Apache Spark_Pyspark_Apache Spark Mllib

Apache spark MLlib估计器如何知道特征和目标列是什么？

apache-spark pyspark

Apache spark MLlib估计器如何知道特征和目标列是什么？,apache-spark,pyspark,apache-spark-mllib,Apache Spark,Pyspark,Apache Spark Mllib,我试着遵循这一点。我理解估计量的概念。它将一个数据帧作为输入，并使用它来训练和返回一个预测模型，该模型在MLlib术语中是一个转换器（将一个数据帧作为输入并返回另一个数据帧）我不清楚的是，估计员如何知道数据框中的哪些列应被视为特征，哪些列应被视为目标让我们看一看这个例子：来自pyspark.ml.classification导入逻辑回归 #从（标签、特征）元组列表中准备训练数据。 training=spark.createDataFrame([ （1.0，向量密集（[0.0,1.1,0.1

我试着遵循这一点。我理解估计量的概念。它将一个数据帧作为输入，并使用它来训练和返回一个预测模型，该模型在MLlib术语中是一个转换器（将一个数据帧作为输入并返回另一个数据帧）

我不清楚的是，估计员如何知道数据框中的哪些列应被视为特征，哪些列应被视为目标

让我们看一看这个例子：

来自pyspark.ml.classification导入逻辑回归
#从（标签、特征）元组列表中准备训练数据。
training=spark.createDataFrame([
（1.0，向量密集（[0.0,1.1,0.1]），
（0.0，向量密集（[2.0,1.0，-1.0]），
（0.0，向量密集（[2.0,1.3,1.0]），
（1.0，Vectors.dense（[0.0，1.2，-0.5]），[“标签”，“特征]）
#创建一个LogisticRegression实例。这个例子是一个估计量。
lr=逻辑回归（最大值=10，正则参数=0.01）
#打印出参数、文档和任何默认值。
打印（“逻辑回归参数：\n”+lr.explainParams（）+“\n”）
#学习逻辑回归模型。这将使用lr中存储的参数。
模型1=lr.fit（培训）

我猜该模型将

features

列作为特征，并将

label

列作为目标。对吗？如果是这种情况，是否可以更改此默认行为？

LogisticRegression

had和

Params

，它们默认为

标签

和

功能

。两者都可以在构造函数中设置

逻辑回归（maxIter=10，regParam=0.01，labelCol=“foo”，featuresCol=“bar”）或使用相应的setter方法：

lr.setLabelCol（“foo”）.setFeaturesCol（“bar”）

大多数

ml

分类和预测算法都使用相同的

Params