Scikit learn 决策树状态列&;相关数值列

Scikit learn 决策树状态列&;相关数值列,scikit-learn,numeric,decision-tree,categorical-data,Scikit Learn,Numeric,Decision Tree,Categorical Data,我有一个包含两列的数据,其中一列分类显示特征的状态,另一列数字显示相关值。如下图所示: 我想通过scikit运行一个决策树算法来学习这些数据。我不确定如何处理这两个列,因为从概念上讲,我不知道如何将这些非常相关的特性结合起来。基本上,我们不应该留下空数据,然而,这个数据本质上应该在数字列中为空。如果我们把它设为“0”,它有另一个含义 那么,我应该如何预处理这些数据以使决策树算法正常工作?我的prefossor提供了一个合理的答案,如下所示 首先,用“0”填充空单元格。 如果您将数据插入具有这两

我有一个包含两列的数据,其中一列分类显示特征的状态,另一列数字显示相关值。如下图所示:

我想通过scikit运行一个决策树算法来学习这些数据。我不确定如何处理这两个列,因为从概念上讲,我不知道如何将这些非常相关的特性结合起来。基本上,我们不应该留下空数据,然而,这个数据本质上应该在数字列中为空。如果我们把它设为“0”,它有另一个含义


那么,我应该如何预处理这些数据以使决策树算法正常工作?

我的prefossor提供了一个合理的答案,如下所示

首先,用“0”填充空单元格。 如果您将数据插入具有这两个功能的决策树算法,我们有两种情况:

  • 如果“状态”排在第一位: 该树将0和1拆分为两个分支。在0下,所有金额值都将为0,因此不会选择此功能。在1下,将不会有任何0状态

  • 如果“金额”排在第一位:所有状态0将只属于一个分支,并且它们将与金额非常小的分支聚集在一起


因此,如果数量数据有噪声,保留Status列可能会有所帮助。否则,我将删除状态栏。

请分享您迄今为止的尝试,以及您面临的具体编程问题;因此,这不是一个代码设计服务,我恳请您重新阅读和。感谢您的洞察力。