Python Spark Databricks二进制分类教程-如何对未标记的数据进行预测？_Python_Apache Spark_Pyspark_Databricks

Python Spark Databricks二进制分类教程-如何对未标记的数据进行预测？

python apache-spark pyspark

Python Spark Databricks二进制分类教程-如何对未标记的数据进行预测？,python,apache-spark,pyspark,databricks,Python,Apache Spark,Pyspark,Databricks,我希望可以问一个与特定教程相关的问题。也许有人在这里使用了相同的教程，并知道答案我正在跟踪，使用本教程使用带标签的数据集。执行以下步骤：预处理：索引所有分类特征，将所有特征放入一个称为“特征”的向量中建立模型评估模型预测本教程使用一个大的、带标签的数据集，该数据集被分成一列和一个测试来构建模型，然后对其进行评估。我用我的火车数据集工作时没有问题现在，我想从Kaggle中预测一个没有标签的单独的“测试”数据集（在我的例子中是“幸存”列，在教程中是“收入”列缺失）有人知道怎么做

我希望可以问一个与特定教程相关的问题。也许有人在这里使用了相同的教程，并知道答案

我正在跟踪，使用

本教程使用带标签的数据集。执行以下步骤：

预处理：索引所有分类特征，将所有特征放入一个称为“特征”的向量中
建立模型
评估模型
预测

本教程使用一个大的、带标签的数据集，该数据集被分成一列和一个测试来构建模型，然后对其进行评估。我用我的火车数据集工作时没有问题

现在，我想从Kaggle中预测一个没有标签的单独的“测试”数据集（在我的例子中是“幸存”列，在教程中是“收入”列缺失）

有人知道怎么做吗？我是否必须在测试数据集上单独执行本教程的整个预处理部分，然后调用以下命令：

finalPredictions = bestModel.transform(preprocessedUnlabelledTestDataset)

或者我是否需要将缺少的标签列（income/Surved）添加到测试数据集中，然后进行预处理，然后调用上面的

据我所知，您希望使用泰坦尼克号数据集的教程模型。最简单的方法是：

添加cols名称，并添加一个名为train\u或\u test的列

然后进行SQL转换，然后进行预处理

然后替换这一行


（trainingData，testData）=dataset.randomSplit（[0.7,0.3]，种子=100）

对于


trainData=dataset.filter（[dataset.train_或_test==1）#假设train设置为1
testData=dataset.filter（dataset.train_或_test==0）#假设test设置为0

然后放下COL，继续进行。

据我所知，您希望使用泰坦尼克号数据集的教程模型。最简单的方法是：

添加cols名称，并添加一个名为train\u或\u test的列

然后进行SQL转换，然后进行预处理

然后替换这一行


（trainingData，testData）=dataset.randomSplit（[0.7,0.3]，种子=100）

对于


trainData=dataset.filter（[dataset.train_或_test==1）#假设train设置为1
testData=dataset.filter（dataset.train_或_test==0）#假设test设置为0

然后放下架子，继续你的工作