Machine learning 利用机器学习预测二手车价格

Machine learning 利用机器学习预测二手车价格,machine-learning,cluster-analysis,prediction,Machine Learning,Cluster Analysis,Prediction,我有一大桌二手车。 标题如下所示: maker | model | year | kilometers | transmission | gas_type | price 我做了一个预测模型,它是这样工作的:每次我想知道一辆车的价格时,我都会根据制造商和模型过滤数据,然后用年份和公里数作为参数进行二次回归 结果还可以,但不是每辆车都可以 问题是同一制造商和型号有不同的“版本”。 (完整版与简单版、四轮驱动或真皮座椅等不同) 我如何识别差异?我可以使用某种聚类来识别同一型号和制造商的汽车之间的

我有一大桌二手车。 标题如下所示:

maker  | model | year | kilometers | transmission | gas_type | price
我做了一个预测模型,它是这样工作的:每次我想知道一辆车的价格时,我都会根据制造商和模型过滤数据,然后用年份和公里数作为参数进行二次回归

结果还可以,但不是每辆车都可以

问题是同一制造商和型号有不同的“版本”。 (完整版与简单版、四轮驱动或真皮座椅等不同)

我如何识别差异?我可以使用某种聚类来识别同一型号和制造商的汽车之间的不同版本吗


任何帮助都将不胜感激

这不是群集问题,只是子模型功能。此外,您可能希望区分子车型(标准版、豪华版、掀背车等)和独立于车型的功能(四轮驱动、真皮座椅、高级音响系统、天窗等)。子模型可能是单个要素(文本列),而选项可能是单个要素(布尔列)

OP澄清后更新

我明白了:这些特性是输出,而不是输入


是的,您可以使用集群。但是,这可能会也可能不会识别子模型(您的“版本”)。如果只对用途非常相似(公里数)且所有其他特征相同的观测值进行聚类,则会发现一些有用的聚类。然而,只有在版本是剩余价格变化的主要因素的情况下,这才有效。您可能会发现,您的集群还受到地理区域和其他因素的影响。

我没有版本数据,正如我在表格标题中所示。我在寻求一种推断这些信息的方法。聚类会犯更多的错误。它将尝试合并类似的模型。