Input 神经网络输入和输出数据格式化

Input 神经网络输入和输出数据格式化,input,normalization,scaling,radial,Input,Normalization,Scaling,Radial,谢谢你阅读我的帖子 我已经阅读了一些关于神经网络输入数据格式化/规范化的文章,但找不到专门针对我的查询的内容。我为这封长信道歉 我试图建立一个径向基函数网络来分析赛马数据。我意识到这以前已经做过了,但我拥有的数据是“特殊的”,我对赛车/体育博彩/编程有着浓厚的兴趣,所以我想尝试一下 虽然我认为我了解RBFN本身的原理,但我在理解输入数据的规范化/格式设置/缩放方面遇到了一些困难,因此无法以“合理的方式”为网络呈现数据,我不确定应该如何制定输出目标值 例如,在我的数据中,我查看了“等级变化”,它将

谢谢你阅读我的帖子

我已经阅读了一些关于神经网络输入数据格式化/规范化的文章,但找不到专门针对我的查询的内容。我为这封长信道歉

我试图建立一个径向基函数网络来分析赛马数据。我意识到这以前已经做过了,但我拥有的数据是“特殊的”,我对赛车/体育博彩/编程有着浓厚的兴趣,所以我想尝试一下

虽然我认为我了解RBFN本身的原理,但我在理解输入数据的规范化/格式设置/缩放方面遇到了一些困难,因此无法以“合理的方式”为网络呈现数据,我不确定应该如何制定输出目标值

例如,在我的数据中,我查看了“等级变化”,它将马现在参加的比赛等级与之前的比赛等级进行比较,其值可以介于-5和+5之间。我希望我需要将这些值重新缩放到-1和+1之间(对吧?!),但我注意到,比任何其他值都有更多的跑步者的级别更改为1、0或-1,因此我担心“过度表现”。不可能为高/低阶层的变化收集更多的数据,因为这只是“数据的来源”。最好使用缩放后的数据,还是修剪极值,或者其他什么

类似地,也有“连续”输入,比如“自上次运行以来的天数”。它的值可以在1到1000之间,但10到40之间的值占主导地位。我打算将这些值缩放到0到1之间,但即使在缩放之前修剪最极端的值,我仍然会有一个特定范围的巨大表示-这会给我带来问题吗?像这样的问题通常是如何处理的

最后,我很难理解如何向网络展示培训的“目标”值。我现有的成绩数据有“赢/输”(0或1?)和跑步者赢或输的几率。如果我只是用“赢/输”这个词,它会把所有的赢和输都一视同仁,而实际上它们不是——我会很高兴看到这样一个网络,它忽略了所有的小赢家,但却从10-1投中获得了高额利润。类似地,一个网络在20比1的情况下“输”是可以原谅的,但在2/5的情况下输掉一次赌注将是一个糟糕的损失。我曾考虑为赢家和输家分别计算(+1*赔率)和(-1/赔率)的结果,以解决上述问题,但这意味着我的结果不是一个连续函数,因为卖空价格赢家和卖空价格输家之间存在“不连续性”

我应该有两个输出来解决这个问题吗?一个用于下注/不下注,另一个用于“赌注”

我为大量的问题和冗长的帖子感到抱歉,但这确实会帮助我走上正确的道路

谢谢大家对我的帮助

亲切问候,


Paul

RBFN附带的文档是回答其中一些问题的良好起点。 修剪数据(也称为“钳制”或“winsorizing”)是我用于类似数据的东西。例如,马的“最后一次跑步后的天数”可以是一天到几年,但往往集中在20到30天的范围内。一些专家使用63天的数字来表示“咒语”,因此可以使用“>63=1或0”等指标变量。一个线索是查看异常值,即任何变量的上限或下限5%,然后钳制这些异常值。 如果您在任何地方使用赔率/红利,请确保使用概率,即1/(赔率+1),一个有用的想法是将其标准化为100%。 赔率或共同价格往往会淹没其他预测因素,因此一种技术是开发单独的模型,一种用于市场变量(市场模型),另一种用于非市场变量(通常称为“基本”模型)