Python 如何用100k数据样本推广基于序列的模型？_Python_Machine Learning_Time Series_Sequence_Prediction

Python 如何用100k数据样本推广基于序列的模型？

python machine-learning

Python 如何用100k数据样本推广基于序列的模型？,python,machine-learning,time-series,sequence,prediction,Python,Machine Learning,Time Series,Sequence,Prediction,我们有一个数据集，其中有超过40万个独立用户，他们每年在网站上的访问天数顺序如下所示。值可以在1和365之间变化 { U1:[3,6,28,57,128,129,247,289,...], U2:[18,77,81,179,340,...], U3:[192,195,289,298,310,376,...], U4:[93], ... ... U400k:[54,97,164,167,250,...] } 我们有四年的类似数据集。我们希望为个人用户预测，用户可能会在一年中的第二天再次访问该网站

我们有一个数据集，其中有超过40万个独立用户，他们每年在网站上的访问天数顺序如下所示。值可以在1和365之间变化

{
U1:[3,6,28,57,128,129,247,289,...],
U2:[18,77,81,179,340,...],
U3:[192,195,289,298,310,376,...],
U4:[93],
...
...
U400k:[54,97,164,167,250,...]
}

我们有四年的类似数据集。我们希望为个人用户预测，用户可能会在一年中的第二天再次访问该网站。我在考虑如何推广基于序列的模型；但任何其他想法都是受欢迎的。有人知道我们如何解决这个问题吗？

1）一种方法是对数据进行分类/聚类，并在组级别进行分析。（动态时间序列扭曲或聚类技术）

如果您想在用户级别进行分析，那么构建所有100K时间序列

2）我觉得根据你们掌握的数据，不可能预测“用户将在哪一天登陆网站”。你可以通过时间序列算法预测明年的访问量。然后使用访问次数来确定他可能何时到达现场

3）您还可以尝试Facebook的prophet时间序列预测模型，esp构建用于预测网站访问量

这太宽了。您在代码方面做了哪些尝试，您到底遇到了什么困难？我们一直在寻找解决此问题的正确方法。我们最初考虑的是基于序列的模型，与上面所示的序列有天数间隔。您可以从一年中的某一天向数据集添加更多功能，如季节、月份、工作日/周末、假日。这有助于确定用户之间的趋势。