Python 识别相似数据的算法?
我得到了一个youtube趋势数据集,任务是制作一个预测模型,输出视频进入趋势的概率,准确率至少为60% 我有标题,频道,缩略图链接,视图,喜欢,不喜欢,评论,日期 我做了一些分析,找出了重要的专栏 类别、标签(以“|”分隔的列表) 问题是,假设所有视频都有趋势,所以我不能使用分类器并将其与训练数据相匹配来预测趋势是/否列,或者使用回归算法,而不改变目标“预测喜欢程度”或其他内容 听起来我想要的是一个集群alg,我已经研究了KMeans,但据我所知,它不会起作用 我想我可以一个视频一个视频地比较它包含哪些类别和标签,并根据它们的流行程度来评分,或者做一个距离计算相似性函数,但这意味着我应该使用scikit,这听起来像个问题。有些选择是:Python 识别相似数据的算法?,python,machine-learning,scikit-learn,classification,cluster-analysis,Python,Machine Learning,Scikit Learn,Classification,Cluster Analysis,我得到了一个youtube趋势数据集,任务是制作一个预测模型,输出视频进入趋势的概率,准确率至少为60% 我有标题,频道,缩略图链接,视图,喜欢,不喜欢,评论,日期 我做了一些分析,找出了重要的专栏 类别、标签(以“|”分隔的列表) 问题是,假设所有视频都有趋势,所以我不能使用分类器并将其与训练数据相匹配来预测趋势是/否列,或者使用回归算法,而不改变目标“预测喜欢程度”或其他内容 听起来我想要的是一个集群alg,我已经研究了KMeans,但据我所知,它不会起作用 我想我可以一个视频一个视频地比较
- 拟合数据的代表性分布,然后进行新的观察(视频),检查来自该分布的可能性
- 安装一个基本上会找到数据边界的分类器,然后对于一个新的观察,告诉您它在边界的内侧/外侧有多远,例如
- 拟合聚类中心,或找到原型示例,然后对于新的观察,与训练数据中的平均观察值相比,告诉它离聚类中心有多远
只是一些想法,当然还有其他方法。:) 谢谢你给我指出了正确的方向,我会努力回去的。我尝试了一个类支持向量机,经过大量的修补,我得到了72%的预测准确率和64.86%的lol。我还没有亲自处理异常值