Machine learning 在1d中发现模式并预测
第一行表示一维时间线。小罢工是数据点 第二条线表示线的聚集,在中心表示线的中心 使用哪些方法预测第三张图像中显示的下一个星团撞击/质心 我发现这些问题: 如果有帮助的话。我无法提供培训数据,只能提供历史数据,因为它可能会发生变化。也许历史数据可以用作培训数据?有趣的问题 我将尝试两种方法,这取决于我们计算每个簇的质心的健壮程度 第1条 如图所示,可以使用基于阈值的方法对数据点进行聚类。我们可以首先计算出c1、c2和c3处的质心,并将集群质心视为一个时间序列。然后,使用一些方法预测质心c4的下一个位置应该不难。假设您的原始数据如下所示:Machine learning 在1d中发现模式并预测,machine-learning,pattern-recognition,Machine Learning,Pattern Recognition,第一行表示一维时间线。小罢工是数据点 第二条线表示线的聚集,在中心表示线的中心 使用哪些方法预测第三张图像中显示的下一个星团撞击/质心 我发现这些问题: 如果有帮助的话。我无法提供培训数据,只能提供历史数据,因为它可能会发生变化。也许历史数据可以用作培训数据?有趣的问题 我将尝试两种方法,这取决于我们计算每个簇的质心的健壮程度 第1条 如图所示,可以使用基于阈值的方法对数据点进行聚类。我们可以首先计算出c1、c2和c3处的质心,并将集群质心视为一个时间序列。然后,使用一些方法预测质心c4的下一个
0 3 4 5 11 12 14 21 23 25 34 37 38 ???
(cluster1) (cluster2) (cluster3) (cluster4)
如果我们将任意两个连续数据点之间的最大距离设为5,我们可以很容易地计算出上面的4个簇。然后我们可以得到低于质心的位置。例如,21+23+25/3=23
假设在应用一些基本的指数平滑后,您得到下一个质心位置c4=42
下一步是根据质心预测打击的相对位置。我们可以使用以前集群中所有以前的攻击作为我们的训练数据。我只是从历史数据中得到一些统计数据,看看它的工作情况如何
簇内罢工之间的平均距离:
(3+1+1)+(1+2) + (2+2) + (3+1)
---------------------------- = 1.55
9
及
然后我们可以用25%对75%的抽签来决定在c4是4次还是3次。可以使用平均距离统计数据得出罢工的相对位置。例如,如果我们有3次打击,且质心位于42:
strike1: 42-1.55 = 40.55
strike2: 42
strike3: 42+1.55 = 43.55
如果我们有4次罢工:
strike1: 42-1.55/2-1.55
strike2: 42-1.55/2
strike3: 42+1.55/2
strike4: 42+1.55/2+1.55
注:一旦我们观察到c4中的实际数据点,我们将更新统计数据,以便我们始终能够更正预测。一旦观察到c4中的实际数据点,我们将更新质心预测的指数平滑。现在我们已经准备好预测c5和c5中的罢工等
方法2
如果我们没有一种可靠的方法来进行聚类,可以尝试使用一些特征工程的线性回归。目标变量将是下一次打击的x位置。我们可以使用的功能包括:
前面的k点
每两个连续点之间的k-1距离
最近3点的移动平均值
最近5点的移动平均值
...
最近9点的移动平均线
测量簇间距离的两个连续点之间的n个最大距离
测量簇内距离的两个连续点之间的n个最小距离
发挥你的想象力,继续。希望能有所帮助。我实际上做了两次分层聚类,以消除这条1d线中的噪音。原始数据有5个特征,这是拼图的最后一个特征!。我想你可以称之为特征工程。你是对的,通过单链接层次聚类的阈值将使我得到中心线,所以这不是一个问题。我将尝试您的第一种方法,但是如果模式看起来不同,这将不起作用示例:1 2 4 5 7 8等。然而,这不是问题:
strike1: 42-1.55 = 40.55
strike2: 42
strike3: 42+1.55 = 43.55
strike1: 42-1.55/2-1.55
strike2: 42-1.55/2
strike3: 42+1.55/2
strike4: 42+1.55/2+1.55