Python 如何用100k数据样本推广基于序列的模型?

Python 如何用100k数据样本推广基于序列的模型?,python,machine-learning,time-series,sequence,prediction,Python,Machine Learning,Time Series,Sequence,Prediction,我们有一个数据集,其中有超过40万个独立用户,他们每年在网站上的访问天数顺序如下所示。值可以在1和365之间变化 { U1:[3,6,28,57,128,129,247,289,...], U2:[18,77,81,179,340,...], U3:[192,195,289,298,310,376,...], U4:[93], ... ... U400k:[54,97,164,167,250,...] } 我们有四年的类似数据集。我们希望为个人用户预测,用户可能会在一年中的第二天再次访问该网站

我们有一个数据集,其中有超过40万个独立用户,他们每年在网站上的访问天数顺序如下所示。值可以在1和365之间变化

{
U1:[3,6,28,57,128,129,247,289,...],
U2:[18,77,81,179,340,...],
U3:[192,195,289,298,310,376,...],
U4:[93],
...
...
U400k:[54,97,164,167,250,...]
}
我们有四年的类似数据集。我们希望为个人用户预测,用户可能会在一年中的第二天再次访问该网站。我在考虑如何推广基于序列的模型;但任何其他想法都是受欢迎的。有人知道我们如何解决这个问题吗?

1)一种方法是对数据进行分类/聚类,并在组级别进行分析。(动态时间序列扭曲或聚类技术)

如果您想在用户级别进行分析,那么构建所有100K时间序列

2) 我觉得根据你们掌握的数据,不可能预测“用户将在哪一天登陆网站”。你可以通过时间序列算法预测明年的访问量。然后使用访问次数来确定他可能何时到达现场

3) 您还可以尝试Facebook的prophet时间序列预测模型,esp构建用于预测网站访问量


这太宽了。您在代码方面做了哪些尝试,您到底遇到了什么困难?我们一直在寻找解决此问题的正确方法。我们最初考虑的是基于序列的模型,与上面所示的序列有天数间隔。您可以从一年中的某一天向数据集添加更多功能,如季节、月份、工作日/周末、假日。这有助于确定用户之间的趋势。