Machine learning 将所有特性置于与目标变量相同的范围内如何影响性能?

Machine learning 将所有特性置于与目标变量相同的范围内如何影响性能?,machine-learning,regression,categorical-data,dimensionality-reduction,feature-engineering,Machine Learning,Regression,Categorical Data,Dimensionality Reduction,Feature Engineering,假设我有以下数据集。(数据完全是随机的) 我必须预测[颜色、尺寸、形状、预订数量]的特定组合的价格 考虑以下特征工程方法 我接受彩色v/s价格。我按颜色分组,找出每组(颜色)的平均价格,并简单地用它们各自的平均值替换颜色变量。我对每个分类变量都这样做。对于非分类变量,我将它们保持原样 Colour Size Shape Pre booking number Price 1536 1400 1336 600

假设我有以下数据集。(数据完全是随机的)

我必须预测[颜色、尺寸、形状、预订数量]的特定组合的价格

考虑以下特征工程方法 我接受彩色v/s价格。我按颜色分组,找出每组(颜色)的平均价格,并简单地用它们各自的平均值替换颜色变量。我对每个分类变量都这样做。对于非分类变量,我将它们保持原样

Colour  Size        Shape   Pre booking number      Price
1536    1400        1336        600                 1400
1854    1854        1854        435                 1854
1272    1272        1336        873                 1272
1536    1777        1777        221                 1777
1536    1434        1434        532                 1434
1272    1854        1777.       221                 ????
现在我把这些数据输入到任何ML回归模型中

我的问题是:

  • 这种方法有多好/有多坏?内部发生了什么

  • 一般来说,将所有变量与目标变量紧密相关(可能在同一尺度上)的效果如何

  • 最重要的是,如果我仅仅通过添加/乘以以减少维度来合并两个或多个分类列,它将如何影响预测

  • 谢谢

  • 据我所知,一个热编码的名义特征,如颜色和形状表现更好。像您这样放置整数值会在蓝白相间添加一个附加值,这是没有意义的。你已经假设了颜色和价格之间的高度相关性,这可能是错误的,也可能不是错误的。我会运行一个顺序反向选择来检查功能的实际重要性。如果颜色和价格高度相关,您的方法可能是正确的,您现在应该缩放功能
  • 使功能达到相同的规模是非常有效的,因为它有助于赋予每个功能合理的重要性。如果某个特征的数量级为数千,且未进行缩放,则权重可能会对该特征给予过度的重视。很明显,与目标变量高度相关的特征应该包括在训练中
  • 合并两个不相关的分类列会影响结果。另一方面,如果它们高度相关,则可以合并它们。 但是,我不确定您是否应该为这个数据集承担降维的痛苦,因为它没有太多的特征列。 然而,如果您想知道如何组合两个相互弱相关但与目标变量高度相关的特征,这里有一个线索:
  • 下面是另一篇关于数据过滤的好文章:

    最后,对某种方法的评论可能并不准确。您始终需要了解它们之间的关联程度,并尝试不同的方法和模型。检查您的数据是否具有线性或非线性相关性,并相应地选择您的模型。对相对简单的数据进行复杂的修改并使用不必要的复杂模型可能并不总是一个好方法

  • 据我所知,一个热编码的名义特征,如颜色和形状表现更好。像您这样放置整数值会在蓝白相间添加一个附加值,这是没有意义的。你已经假设了颜色和价格之间的高度相关性,这可能是错误的,也可能不是错误的。我会运行一个顺序反向选择来检查功能的实际重要性。如果颜色和价格高度相关,您的方法可能是正确的,您现在应该缩放功能
  • 使功能达到相同的规模是非常有效的,因为它有助于赋予每个功能合理的重要性。如果某个特征的数量级为数千,且未进行缩放,则权重可能会对该特征给予过度的重视。很明显,与目标变量高度相关的特征应该包括在训练中
  • 合并两个不相关的分类列会影响结果。另一方面,如果它们高度相关,则可以合并它们。 但是,我不确定您是否应该为这个数据集承担降维的痛苦,因为它没有太多的特征列。 然而,如果您想知道如何组合两个相互弱相关但与目标变量高度相关的特征,这里有一个线索:
  • 下面是另一篇关于数据过滤的好文章:


    最后,对某种方法的评论可能并不准确。您始终需要了解它们之间的关联程度,并尝试不同的方法和模型。检查您的数据是否具有线性或非线性相关性,并相应地选择您的模型。对相对简单的数据进行复杂的修改并使用不必要的复杂模型可能并不总是一个好方法。

    为什么不直接使用这些功能(至少在第一步)?似乎不清楚您试图通过您的方法实现什么。他试图降低数据的维度。@MarijnvanVliet他在特征工程后的示例中仍然有相同数量的维度。再说一次:如果他只有4个特征和因变量,为什么这是必要的?@petezurich:为了理解和讨论,这是一个有4个特征的示例案例。我试图处理的特性是分类的,所以编码它们是一种方法,但它会创建(总类别-1)特性来替代这一特性。所以我只是在寻找另一种方法。@petezurich:另外,如果能够以一种可以理解的数字尺度有效地转换分类特征,我可能能够组合这些特征,如果我有80-90个分类变量要处理,这将非常有帮助。你为什么不直接使用这些特征(至少在第一步中)? 似乎不清楚您试图通过您的方法实现什么。他试图降低数据的维度。@MarijnvanVliet他在特征工程后的示例中仍然有相同数量的维度。再说一次:如果他只有4个特征和因变量,为什么这是必要的?@petezurich:这是一个具有4个特征f的样本案例
    Colour  Size        Shape   Pre booking number      Price
    1536    1400        1336        600                 1400
    1854    1854        1854        435                 1854
    1272    1272        1336        873                 1272
    1536    1777        1777        221                 1777
    1536    1434        1434        532                 1434
    1272    1854        1777.       221                 ????