Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/ember.js/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark MLlib估计器如何知道特征和目标列是什么?_Apache Spark_Pyspark_Apache Spark Mllib - Fatal编程技术网

Apache spark MLlib估计器如何知道特征和目标列是什么?

Apache spark MLlib估计器如何知道特征和目标列是什么?,apache-spark,pyspark,apache-spark-mllib,Apache Spark,Pyspark,Apache Spark Mllib,我试着遵循这一点。我理解估计量的概念。它将一个数据帧作为输入,并使用它来训练和返回一个预测模型,该模型在MLlib术语中是一个转换器(将一个数据帧作为输入并返回另一个数据帧) 我不清楚的是,估计员如何知道数据框中的哪些列应被视为特征,哪些列应被视为目标 让我们看一看这个例子: 来自pyspark.ml.classification导入逻辑回归 #从(标签、特征)元组列表中准备训练数据。 training=spark.createDataFrame([ (1.0,向量密集([0.0,1.1,0.1

我试着遵循这一点。我理解估计量的概念。它将一个数据帧作为输入,并使用它来训练和返回一个预测模型,该模型在MLlib术语中是一个转换器(将一个数据帧作为输入并返回另一个数据帧)

我不清楚的是,估计员如何知道数据框中的哪些列应被视为特征,哪些列应被视为目标

让我们看一看这个例子:

来自pyspark.ml.classification导入逻辑回归
#从(标签、特征)元组列表中准备训练数据。
training=spark.createDataFrame([
(1.0,向量密集([0.0,1.1,0.1]),
(0.0,向量密集([2.0,1.0,-1.0]),
(0.0,向量密集([2.0,1.3,1.0]),
(1.0,Vectors.dense([0.0,1.2,-0.5]),[“标签”,“特征])
#创建一个LogisticRegression实例。这个例子是一个估计量。
lr=逻辑回归(最大值=10,正则参数=0.01)
#打印出参数、文档和任何默认值。
打印(“逻辑回归参数:\n”+lr.explainParams()+“\n”)
#学习逻辑回归模型。这将使用lr中存储的参数。
模型1=lr.fit(培训)

我猜该模型将
features
列作为特征,并将
label
列作为目标。对吗?如果是这种情况,是否可以更改此默认行为?

LogisticRegression
had和
Params
,它们默认为
标签
功能
。两者都可以在构造函数中设置

逻辑回归(maxIter=10,regParam=0.01,labelCol=“foo”,featuresCol=“bar”) 或使用相应的setter方法:

lr.setLabelCol(“foo”).setFeaturesCol(“bar”)
大多数
ml
分类和预测算法都使用相同的
Params