Machine learning 将所有特性置于与目标变量相同的范围内如何影响性能?
假设我有以下数据集。(数据完全是随机的) 我必须预测[颜色、尺寸、形状、预订数量]的特定组合的价格 考虑以下特征工程方法 我接受彩色v/s价格。我按颜色分组,找出每组(颜色)的平均价格,并简单地用它们各自的平均值替换颜色变量。我对每个分类变量都这样做。对于非分类变量,我将它们保持原样Machine learning 将所有特性置于与目标变量相同的范围内如何影响性能?,machine-learning,regression,categorical-data,dimensionality-reduction,feature-engineering,Machine Learning,Regression,Categorical Data,Dimensionality Reduction,Feature Engineering,假设我有以下数据集。(数据完全是随机的) 我必须预测[颜色、尺寸、形状、预订数量]的特定组合的价格 考虑以下特征工程方法 我接受彩色v/s价格。我按颜色分组,找出每组(颜色)的平均价格,并简单地用它们各自的平均值替换颜色变量。我对每个分类变量都这样做。对于非分类变量,我将它们保持原样 Colour Size Shape Pre booking number Price 1536 1400 1336 600
Colour Size Shape Pre booking number Price
1536 1400 1336 600 1400
1854 1854 1854 435 1854
1272 1272 1336 873 1272
1536 1777 1777 221 1777
1536 1434 1434 532 1434
1272 1854 1777. 221 ????
现在我把这些数据输入到任何ML回归模型中
我的问题是:
最后,对某种方法的评论可能并不准确。您始终需要了解它们之间的关联程度,并尝试不同的方法和模型。检查您的数据是否具有线性或非线性相关性,并相应地选择您的模型。对相对简单的数据进行复杂的修改并使用不必要的复杂模型可能并不总是一个好方法。为什么不直接使用这些功能(至少在第一步)?似乎不清楚您试图通过您的方法实现什么。他试图降低数据的维度。@MarijnvanVliet他在特征工程后的示例中仍然有相同数量的维度。再说一次:如果他只有4个特征和因变量,为什么这是必要的?@petezurich:为了理解和讨论,这是一个有4个特征的示例案例。我试图处理的特性是分类的,所以编码它们是一种方法,但它会创建(总类别-1)特性来替代这一特性。所以我只是在寻找另一种方法。@petezurich:另外,如果能够以一种可以理解的数字尺度有效地转换分类特征,我可能能够组合这些特征,如果我有80-90个分类变量要处理,这将非常有帮助。你为什么不直接使用这些特征(至少在第一步中)? 似乎不清楚您试图通过您的方法实现什么。他试图降低数据的维度。@MarijnvanVliet他在特征工程后的示例中仍然有相同数量的维度。再说一次:如果他只有4个特征和因变量,为什么这是必要的?@petezurich:这是一个具有4个特征f的样本案例
Colour Size Shape Pre booking number Price
1536 1400 1336 600 1400
1854 1854 1854 435 1854
1272 1272 1336 873 1272
1536 1777 1777 221 1777
1536 1434 1434 532 1434
1272 1854 1777. 221 ????