Algorithm 如何从非实验数据中获得科学结果(数据挖掘?) 我想从一个有许多变量的过程中获得最大的性能,其中许多变量是无法控制的 我不能做成千上万的实验,所以如果我能做几百个实验和 改变许多可控参数 收集指示性能的许多参数的数据 “正确”,对于那些我无法控制的参数,请尽可能多地回答 为我能控制的事情挑出“最佳”值,然后重新开始

Algorithm 如何从非实验数据中获得科学结果(数据挖掘?) 我想从一个有许多变量的过程中获得最大的性能,其中许多变量是无法控制的 我不能做成千上万的实验,所以如果我能做几百个实验和 改变许多可控参数 收集指示性能的许多参数的数据 “正确”,对于那些我无法控制的参数,请尽可能多地回答 为我能控制的事情挑出“最佳”值,然后重新开始,algorithm,data-mining,Algorithm,Data Mining,感觉上这就是所谓的数据挖掘,在这里,你要处理大量的数据,这些数据看起来并不是立即相关的,但经过一些努力后确实显示出相关性 所以。。。我从哪里开始研究这类事情的算法、概念和理论?即使是用于搜索目的的相关术语也会很有用 背景:我喜欢参加超级马拉松自行车赛,并记录每次骑行的情况。我想保留更多的数据,经过数百次的骑乘之后,我能够提取出关于我表现的信息 然而,一切都是不同的——路线、环境(温度、压力、嗡嗡声、太阳负荷、风、精度等)、燃料、姿态、重量、水负荷等。我可以控制一些事情,但运行同一条路线20次以测

感觉上这就是所谓的数据挖掘,在这里,你要处理大量的数据,这些数据看起来并不是立即相关的,但经过一些努力后确实显示出相关性

所以。。。我从哪里开始研究这类事情的算法、概念和理论?即使是用于搜索目的的相关术语也会很有用

背景:我喜欢参加超级马拉松自行车赛,并记录每次骑行的情况。我想保留更多的数据,经过数百次的骑乘之后,我能够提取出关于我表现的信息


然而,一切都是不同的——路线、环境(温度、压力、嗡嗡声、太阳负荷、风、精度等)、燃料、姿态、重量、水负荷等。我可以控制一些事情,但运行同一条路线20次以测试新的燃料状况只会让人沮丧,并且需要几年时间来完成我想做的所有实验。然而,我可以记录所有这些以及更多(自行车FTW遥测)。

听起来你想做一些。你当然有很多数据


回归分析是统计学和科学中极为常见的建模技术。(可以说统计是回归分析的艺术和科学。)有很多统计软件包可以进行你需要的计算。(我想推荐一个,但我已经过时多年了。)

数据挖掘之所以名声不好,是因为人们往往认为相关性等于因果关系。我发现一个好的方法是从你知道有影响的变量开始,首先围绕它们建立一个统计模型。因此,您知道风、重量和爬升对您的旅行速度有影响,统计软件可以获取数据集并计算这些因素之间的相关性。这将为您提供一个统计模型或线性方程:

speed = x*weight + y*wind + z*climb + constant
当您探索新的变量时,您将能够通过比较拟合优度度量(如R平方)来查看模型是否得到改进。因此,您可以检查一天中的温度或时间是否为模型添加了任何内容

您可能希望对数据应用转换。例如,你可能会发现你在寒冷的日子表现更好。但是非常寒冷的天气和非常炎热的天气可能会影响性能。在这种情况下,您可以为料仓指定温度或:<0°C;0°C至40°C;>40°C或类似温度。关键是转换数据的方式要与现实世界中发生的事情的理性模型相匹配,而不仅仅是数据本身



如果有人认为这不是一个与编程相关的主题,请注意,您可以使用这些相同的技术来分析系统性能。

我过去曾使用Perl模块来解决一些类似的问题。然而,请注意,回归分析绝对是一门艺术。正如Perl模块中的警告所说,如果您没有学习适当的数学,那么它对您来说没有意义。

由于变量太多,您的维度太多,您可能需要查看。它将回归分析中的一些“艺术”去掉,让数据自己说话。链接底部显示了一些用于进行此类分析的软件