Machine learning 特征工程中经纬度的处理

Machine learning 特征工程中经纬度的处理,machine-learning,neural-network,feature-engineering,Machine Learning,Neural Network,Feature Engineering,我有一个数据集,其中包含了有关世界各地房屋的信息,具有以下特征:房屋大小、卧室数量、城市名称、国家名称、花园与否。。。(以及许多其他典型的房屋信息)。目标变量是房子的价格 我知道字符串不能作为机器学习或神经网络模型的输入,因此我决定用地理坐标(一列为经度,一列为纬度)替换城市名称,而不是对城市名称和国家名称进行一次热编码(因为我最终会有几百列). 房子所在的城市显然有助于确定房子的价格 那么,用经度和纬度更改城市名称是否保留了这一重要信息?可以用经纬度来更改城市名称吗 笛卡尔坐标在某种程度上可

我有一个数据集,其中包含了有关世界各地房屋的信息,具有以下特征:房屋大小、卧室数量、城市名称、国家名称、花园与否。。。(以及许多其他典型的房屋信息)。目标变量是房子的价格

我知道字符串不能作为机器学习或神经网络模型的输入,因此我决定用地理坐标(一列为经度,一列为纬度)替换城市名称,而不是对城市名称和国家名称进行一次热编码(因为我最终会有几百列). 房子所在的城市显然有助于确定房子的价格

那么,用经度和纬度更改城市名称是否保留了这一重要信息?可以用经纬度来更改城市名称吗

笛卡尔坐标在某种程度上可用于模型。然而,对于某些模型(如决策树),正确建模目标变量对地理坐标的依赖关系可能需要过于复杂的模型。为了清楚直观地了解这一点,您可以查看

在这些情况下,一种常见的方法是将坐标转换为新特征,并将其添加为新特征。当你思考它的时候,你正在添加一种新的方式来表达同样的东西,只是在一个不同的尺度或系统中。这样,树将需要较少的拆分,以便能够对样本的这种空间相关性进行建模


也就是说,我不会用坐标完全替换现有的地理位置数据。添加一些基于城市国家数据的聚合/统计数据可能也很有趣,而不是对它们进行热编码或仅用坐标替换。

谢谢您的回答。我将用一些关于这个城市的统计数字来代替这个城市。