Input 神经网络输入和输出数据格式化_Input_Normalization_Scaling_Radial

Input 神经网络输入和输出数据格式化

input

Input 神经网络输入和输出数据格式化,input,normalization,scaling,radial,Input,Normalization,Scaling,Radial,谢谢你阅读我的帖子我已经阅读了一些关于神经网络输入数据格式化/规范化的文章，但找不到专门针对我的查询的内容。我为这封长信道歉我试图建立一个径向基函数网络来分析赛马数据。我意识到这以前已经做过了，但我拥有的数据是“特殊的”，我对赛车/体育博彩/编程有着浓厚的兴趣，所以我想尝试一下虽然我认为我了解RBFN本身的原理，但我在理解输入数据的规范化/格式设置/缩放方面遇到了一些困难，因此无法以“合理的方式”为网络呈现数据，我不确定应该如何制定输出目标值例如，在我的数据中，我查看了“等级变化”，它将

谢谢你阅读我的帖子

我已经阅读了一些关于神经网络输入数据格式化/规范化的文章，但找不到专门针对我的查询的内容。我为这封长信道歉

我试图建立一个径向基函数网络来分析赛马数据。我意识到这以前已经做过了，但我拥有的数据是“特殊的”，我对赛车/体育博彩/编程有着浓厚的兴趣，所以我想尝试一下

虽然我认为我了解RBFN本身的原理，但我在理解输入数据的规范化/格式设置/缩放方面遇到了一些困难，因此无法以“合理的方式”为网络呈现数据，我不确定应该如何制定输出目标值

例如，在我的数据中，我查看了“等级变化”，它将马现在参加的比赛等级与之前的比赛等级进行比较，其值可以介于-5和+5之间。我希望我需要将这些值重新缩放到-1和+1之间（对吧？！），但我注意到，比任何其他值都有更多的跑步者的级别更改为1、0或-1，因此我担心“过度表现”。不可能为高/低阶层的变化收集更多的数据，因为这只是“数据的来源”。最好使用缩放后的数据，还是修剪极值，或者其他什么

类似地，也有“连续”输入，比如“自上次运行以来的天数”。它的值可以在1到1000之间，但10到40之间的值占主导地位。我打算将这些值缩放到0到1之间，但即使在缩放之前修剪最极端的值，我仍然会有一个特定范围的巨大表示-这会给我带来问题吗？像这样的问题通常是如何处理的

最后，我很难理解如何向网络展示培训的“目标”值。我现有的成绩数据有“赢/输”（0或1？）和跑步者赢或输的几率。如果我只是用“赢/输”这个词，它会把所有的赢和输都一视同仁，而实际上它们不是——我会很高兴看到这样一个网络，它忽略了所有的小赢家，但却从10-1投中获得了高额利润。类似地，一个网络在20比1的情况下“输”是可以原谅的，但在2/5的情况下输掉一次赌注将是一个糟糕的损失。我曾考虑为赢家和输家分别计算（+1*赔率）和（-1/赔率）的结果，以解决上述问题，但这意味着我的结果不是一个连续函数，因为卖空价格赢家和卖空价格输家之间存在“不连续性”

我应该有两个输出来解决这个问题吗？一个用于下注/不下注，另一个用于“赌注”

我为大量的问题和冗长的帖子感到抱歉，但这确实会帮助我走上正确的道路

谢谢大家对我的帮助

亲切问候,

Paul

RBFN附带的文档是回答其中一些问题的良好起点。修剪数据（也称为“钳制”或“winsorizing”）是我用于类似数据的东西。例如，马的“最后一次跑步后的天数”可以是一天到几年，但往往集中在20到30天的范围内。一些专家使用63天的数字来表示“咒语”，因此可以使用“>63=1或0”等指标变量。一个线索是查看异常值，即任何变量的上限或下限5%，然后钳制这些异常值。如果您在任何地方使用赔率/红利，请确保使用概率，即1/（赔率+1），一个有用的想法是将其标准化为100%。赔率或共同价格往往会淹没其他预测因素，因此一种技术是开发单独的模型，一种用于市场变量（市场模型），另一种用于非市场变量（通常称为“基本”模型）