Statistics 用户行为随时间变化的监督学习_Statistics_Machine Learning

Statistics 用户行为随时间变化的监督学习

statistics machine-learning

Statistics 用户行为随时间变化的监督学习,statistics,machine-learning,Statistics,Machine Learning,我想使用机器学习来识别一个用户的签名，该用户根据其随时间变化的行为转换为一个网站的订户假设我的网站有6种不同的功能，可以在订阅前使用，用户可以随时转换为订户对于给定的用户，我有一些统计数据，表示该用户每天与功能1-6交互的连续范围内的强度，因此： D1:f1、f2、f3、f4、f5、f6 D2:f1、f2、f3、f4、f5、f6 D3:f1、f2、f3、f4、f5、f6 D4:f1、f2、f3、f4、f5、f6 假设在第5天，用户转换什么机器使用算法可以帮助我确定哪些是导致转换的功能使

我想使用机器学习来识别一个用户的签名，该用户根据其随时间变化的行为转换为一个网站的订户

假设我的网站有6种不同的功能，可以在订阅前使用，用户可以随时转换为订户

对于给定的用户，我有一些统计数据，表示该用户每天与功能1-6交互的连续范围内的强度，因此：

D1:f1、f2、f3、f4、f5、f6
D2:f1、f2、f3、f4、f5、f6
D3:f1、f2、f3、f4、f5、f6
D4:f1、f2、f3、f4、f5、f6

假设在第5天，用户转换

什么机器使用算法可以帮助我确定哪些是导致转换的功能使用中最常见的模式

（我知道这是一个超基本的分类问题，但我找不到一个使用纵向数据的好例子，在纵向数据中，输入向量像我一样按时间排序）

为了进一步研究这个问题，我们假设每个特性都有3个强度，用户可以在这3个强度下进行交互（H、M、L）

然后，我们可以将每个用户表示为一系列交互强度的状态。因此，对于用户：

LLLLMM LLMMHH llhhh

这意味着在第一天，他们只与功能5和6进行了显著的交互，但到了第三天，他们与功能3到6进行了高度交互

N-gram样式我可以把这些状态和用户的生命周期变成一句话。（可能还需要在词汇表中添加一个“转换”词）

如果我通过一个n-gram模型来运行这些“句子”，我可以得到一个用户可能的未来状态，给出他/她过去的几个状态，这有点有趣。但是，我真正想知道的是导致转换词的最常见的n-gram集合。我不想输入一个n-gram然后得到下一个预测词，我想给出预测词，然后从我的数据中得到10个最常见的n-gram，这可能会导致这个词

阿玛çHerdağdelen建议将n-gram识别为实际n，然后计算每个用户有多少n-gram状态。然后与转换数据关联（我猜在这个例子中没有转换词）。我担心的是，将有太多的n-gram使这种方法变得实用。（如果每个州都有729种可能性，而我们使用的是三角图，那么就有很多可能的三角图！）

或者，我可以通过记录导致转换词的n-gram的数据，然后对它们运行某种类型的聚类，看看转换的常见路径是什么吗？

生存方式根据迭代器的建议，我理解对生存问题的类比，但这里的文献似乎侧重于预测死亡时间，而不是导致死亡的常见事件序列。此外，在查找考克斯比例风险模型时，我发现它不适应随时间变化的变量（它有助于区分静态属性，如性别和种族），因此它似乎非常适合于一个与我不同的问题

决策树风格这似乎很有希望，尽管我不能完全集中精力思考如何构造数据。由于数据不是平面的，树建模是否有可能从一种状态向下移动到另一种状态，以及何时导致转换？这与我所能找到的决策树数据文献非常不同

此外，需要明确如何识别导致转换的模式，而不是模型预测给定序列后可能发生的转换。

理论上，可能是解决问题的合适方法。网站上的功能将构成字母表，根据用户是否最终订阅，您可以将交互序列用作正面或负面实例。我不知道隐藏状态的数量应该是多少，但为该参数找到合适的值毕竟是问题的一部分

作为旁注，肯定的实例很容易识别，但是用户到目前为止还没有订阅并不一定意味着他/她不会订阅。您可能会考虑将数据限制在足够大的用户上。

我也会考虑把数据转换成固定长度的向量，并应用概念上更简单的模型来给你一些直觉。可以使用（长度为n的连续交互序列）

例如，假设给定用户的交互序列ise“f1，f3，f5”，“f1，f3，f5”将构成3-gram（三元图）。类似地，对于相同的用户和相同的交互序列，您将使用“f1，f3”和“f3，f5”作为2-grams（bigrams）。为了将每个用户表示为一个向量，您将识别所有n-gram，直到实际n，并计算用户使用给定n-gram的次数。向量中的每一列将表示给定用户观察给定n-gram的次数

然后——可能借助于一些合适的规范化技术，比如or——你可以查看n-gram和最终结果之间的相关性，以了解发生了什么，执行以找到用户参与的最显著的序列，或者应用分类方法，如最近邻法，支持机器或朴素贝叶斯建立预测模型。

这很像生存分析问题：随着时间的推移，用户将转换或退出群体，或将继续出现在数据中，而不是（尚未）落入两个阵营。为此，你可能会发现考克斯比例风险模型很有用

如果你想从另一个角度来研究问题，也就是从图形模型的角度来看问题，那么卡尔曼滤波器可能更具吸引力。这是@Am建议的HMMs的推广