Artificial intelligence 这是错误的预测。如何正确准备学习数据?

Artificial intelligence 这是错误的预测。如何正确准备学习数据?,artificial-intelligence,vowpalwabbit,Artificial Intelligence,Vowpalwabbit,我试图学习大众如何根据卧室、浴室、面积和其他特征预测房价。我的培训数据示例行是: 68000 '51-OMAHA-CT| city=SACRAMENTO zip=95823 state=CA beds:3 baths:1 sq__ft:1167 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.478902 longitude=-121.431028 56333 '3526-HIGH-ST| city=SACR

我试图学习大众如何根据卧室、浴室、面积和其他特征预测房价。我的培训数据示例行是:

68000 '51-OMAHA-CT| city=SACRAMENTO zip=95823 state=CA beds:3 baths:1 sq__ft:1167 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.478902 longitude=-121.431028
56333 '3526-HIGH-ST| city=SACRAMENTO zip=95838 state=CA beds:2 baths:1 sq__ft:836 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.631913 longitude=-121.434879
68790 '2796-BRANCH-ST| city=SACRAMENTO zip=95815 state=CA beds:2 baths:1 sq__ft:796 type=Residential sale_date=Wed-May-21-00-00-00-EDT-2008 latitude=38.618305 longitude=-121.443839
普莱斯街。。。 总共约500个记录。 我的测试数据是(大约500条记录):

预测给出了这些值:

4819.900391 51-OMAHA-CT
4609.826172 3526-HIGH-ST
4537.140137 2796-BRANCH-ST

这些都不是正确的预测。我不确定我的训练数据是否有问题?我仍然对| char和placeing特征感到困惑。

当您将特征构造为
city=SACRAMENTO
时,VW将其解释为一个名为
city=SACRAMENTO
的字符串特征,并为其指定一个隐式值
1.0
city=SACRAMENTO
是散列的,它构成了特征的索引


当您将要素构造为
beds:2
时,VW将其解释为名称为
beds
且要素值为
2.0
的要素
beds
被散列并形成索引

因此,可以将形式为
\uuuu=\uuuu
的特征看作是枚举,或者是离散集合中的值。如果具有连续特征,则应使用浮点值

对于城市名称,使用
\uuu=\uuuu
格式似乎很好,但当您对纬度和经度使用相同的格式时,另一个示例很可能会共享相同的lat/lng字符串,从而能够在预测中使用该功能。在我看来,lat/lng应该是基于浮子的feautre

对于
销售日期
您也有类似的问题。这可能更像是一项功能工程,但您可能希望将此功能分为年、星期几、月份等。

您能否使用
--audit
选项深入了解大众如何看待这些功能?
4819.900391 51-OMAHA-CT
4609.826172 3526-HIGH-ST
4537.140137 2796-BRANCH-ST