Python 如何对具有NAN的时间序列数据使用k均值?
我有很多时间序列记录,有时会重叠,不一定有相同的开始和结束日期。每行代表不同的时间序列。我让它们都保持相同的长度,以保持数据收集的实际时间 例如,在t(1,2,3,4,5,6)处: 我正试图用Python运行一个聚类分析来对具有类似行为的站点进行分组,因为行为的时间安排很重要,所以我不能仅仅去掉NAN。(据我所知)Python 如何对具有NAN的时间序列数据使用k均值?,python,numpy,time-series,cluster-analysis,Python,Numpy,Time Series,Cluster Analysis,我有很多时间序列记录,有时会重叠,不一定有相同的开始和结束日期。每行代表不同的时间序列。我让它们都保持相同的长度,以保持数据收集的实际时间 例如,在t(1,2,3,4,5,6)处: 我正试图用Python运行一个聚类分析来对具有类似行为的站点进行分组,因为行为的时间安排很重要,所以我不能仅仅去掉NAN。(据我所知) 有什么想法吗?K-means不是这类数据的最佳算法 K-均值旨在最小化簇内方差(=平方和,WCS) 但是如何计算与NaN的方差呢?这里的差异到底有多大意义 相反,您可能希望使用 为
有什么想法吗?K-means不是这类数据的最佳算法 K-均值旨在最小化簇内方差(=平方和,WCS) 但是如何计算与NaN的方差呢?这里的差异到底有多大意义 相反,您可能希望使用
- 为时间序列设计的相似性度量,如DTW、阈值交叉距离等
- 一种基于距离的聚类算法。如果您只有几个系列,那么分层集群就可以了
Station 1: nan, nan, 2, 4, 5, 10
Station 2: nan, 1, 4, nan, 10, 8
Station 3: 1, 9, 4, 7, nan, nan