Model 数据处理中过于复杂的模型_Model_Data Mining

Model 数据处理中过于复杂的模型

model

Model 数据处理中过于复杂的模型,model,data-mining,Model,Data Mining,对于那些处理数据的人来说，有一句谚语：“如果你对数据严加拷问，它几乎会坦白一切”。这在数学上得到了Boferoni定理的支持，该定理指出“随着统计测试次数的增加，获得错误显著性发现（I型错误）的可能性也会增加”。例如，我们知道的情况是：“Leinweber（个人通信）提供了一个关于这种预测的特别幽默的例子世卫组织几乎完美地预测了著名的标准普尔500金融指数（Standard and Poor 500 financial index）的年值，并将其作为前几年美国黄油生产、奶酪生产和绵羊种群年值的函

对于那些处理数据的人来说，有一句谚语：“如果你对数据严加拷问，它几乎会坦白一切”。这在数学上得到了Boferoni定理的支持，该定理指出“随着统计测试次数的增加，获得错误显著性发现（I型错误）的可能性也会增加”。例如，我们知道的情况是：“Leinweber（个人通信）提供了一个关于这种预测的特别幽默的例子世卫组织几乎完美地预测了著名的标准普尔500金融指数（Standard and Poor 500 financial index）的年值，并将其作为前几年美国黄油生产、奶酪生产和绵羊种群年值的函数孟加拉国和美国。”

在使用过于复杂的模型时，您是否遇到过实际情况，结果是错误的？你能把这种情况和你所使用的方法一起描述一下吗？

根据我的经验，主要的问题是统计方法使用不当。一个常见的错误是没有提前确定要测试的数据。我听说有一位教授把这比作一场赛马，在赛马中，你不是在预定的地点，而是在你的马在前面的时候，拍最后一张照片。这在医学研究中很常见

我知道的另一个例子是，有人做了一个统计测试，假设数据是正态分布的，而事实并非如此

永远不要认为静态依赖是因果关系（例如，在法兰克福，HIV和飞机噪音之间存在依赖关系——这并不意味着飞行噪音会导致HIV）

基本上，这不是模型的复杂性。您必须使用正确的方法和正确的数据。这已经够难了。您必须在测试之前确定数据。如果你想了解这一点，只需对掷骰子或掷硬币进行公平性测试。在每次翻滚/翻转后使用所有数据进行操作。你会发现，你的死并不公平。当然-如果你做了大量的独立测试，你会发现他是不公平的-但这是统计测试中预期的错误

统计检验中的另一件非常基本的事情：确定你的假设是什么。有些时候，测试不能显示你想要什么——它只能拒绝它

简言之，在没有思考和教育的情况下，不要进行数据挖掘/统计分析。统计工作的方式与人类的直觉相反，你可以很容易地欺骗（自己和他人）