Python Spark Databricks二进制分类教程-如何对未标记的数据进行预测?

Python Spark Databricks二进制分类教程-如何对未标记的数据进行预测?,python,apache-spark,pyspark,databricks,Python,Apache Spark,Pyspark,Databricks,我希望可以问一个与特定教程相关的问题。也许有人在这里使用了相同的教程,并知道答案 我正在跟踪,使用 本教程使用带标签的数据集。执行以下步骤: 预处理:索引所有分类特征,将所有特征放入一个称为“特征”的向量中 建立模型 评估模型 预测 本教程使用一个大的、带标签的数据集,该数据集被分成一列和一个测试来构建模型,然后对其进行评估。我用我的火车数据集工作时没有问题 现在,我想从Kaggle中预测一个没有标签的单独的“测试”数据集(在我的例子中是“幸存”列,在教程中是“收入”列缺失) 有人知道怎么做

我希望可以问一个与特定教程相关的问题。也许有人在这里使用了相同的教程,并知道答案

我正在跟踪,使用

本教程使用带标签的数据集。执行以下步骤:

  • 预处理:索引所有分类特征,将所有特征放入一个称为“特征”的向量中
  • 建立模型
  • 评估模型
  • 预测
本教程使用一个大的、带标签的数据集,该数据集被分成一列和一个测试来构建模型,然后对其进行评估。我用我的火车数据集工作时没有问题

现在,我想从Kaggle中预测一个没有标签的单独的“测试”数据集(在我的例子中是“幸存”列,在教程中是“收入”列缺失)

有人知道怎么做吗? 我是否必须在测试数据集上单独执行本教程的整个预处理部分,然后调用以下命令:

finalPredictions = bestModel.transform(preprocessedUnlabelledTestDataset)

或者我是否需要将缺少的标签列(income/Surved)添加到测试数据集中,然后进行预处理,然后调用上面的

据我所知,您希望使用泰坦尼克号数据集的教程模型。最简单的方法是:

添加cols名称,并添加一个名为train\u或\u test的列

然后进行SQL转换,然后进行预处理

然后替换这一行


(trainingData,testData)=dataset.randomSplit([0.7,0.3],种子=100)
对于

trainData=dataset.filter([dataset.train_或_test==1)#假设train设置为1
testData=dataset.filter(dataset.train_或_test==0)#假设test设置为0

然后放下COL,继续进行。

据我所知,您希望使用泰坦尼克号数据集的教程模型。最简单的方法是:

添加cols名称,并添加一个名为train\u或\u test的列

然后进行SQL转换,然后进行预处理

然后替换这一行


(trainingData,testData)=dataset.randomSplit([0.7,0.3],种子=100)
对于

trainData=dataset.filter([dataset.train_或_test==1)#假设train设置为1
testData=dataset.filter(dataset.train_或_test==0)#假设test设置为0
然后放下架子,继续你的工作