Python 识别相似数据的算法？_Python_Machine Learning_Scikit Learn_Classification_Cluster Analysis

Python 识别相似数据的算法？

python machine-learning scikit-learn

Python 识别相似数据的算法？,python,machine-learning,scikit-learn,classification,cluster-analysis,Python,Machine Learning,Scikit Learn,Classification,Cluster Analysis,我得到了一个youtube趋势数据集，任务是制作一个预测模型，输出视频进入趋势的概率，准确率至少为60% 我有标题，频道，缩略图链接，视图，喜欢，不喜欢，评论，日期我做了一些分析，找出了重要的专栏类别、标签（以“|”分隔的列表）问题是，假设所有视频都有趋势，所以我不能使用分类器并将其与训练数据相匹配来预测趋势是/否列，或者使用回归算法，而不改变目标“预测喜欢程度”或其他内容听起来我想要的是一个集群alg，我已经研究了KMeans，但据我所知，它不会起作用我想我可以一个视频一个视频地比较

我得到了一个youtube趋势数据集，任务是制作一个预测模型，输出视频进入趋势的概率，准确率至少为60%

我有标题，频道，缩略图链接，视图，喜欢，不喜欢，评论，日期

我做了一些分析，找出了重要的专栏

类别、标签（以“|”分隔的列表）

问题是，假设所有视频都有趋势，所以我不能使用分类器并将其与训练数据相匹配来预测趋势是/否列，或者使用回归算法，而不改变目标“预测喜欢程度”或其他内容

听起来我想要的是一个集群alg，我已经研究了KMeans，但据我所知，它不会起作用

我想我可以一个视频一个视频地比较它包含哪些类别和标签，并根据它们的流行程度来评分，或者做一个距离计算相似性函数，但这意味着我应该使用scikit，这听起来像个问题。有些选择是：

拟合数据的代表性分布，然后进行新的观察（视频），检查来自该分布的可能性
安装一个基本上会找到数据边界的分类器，然后对于一个新的观察，告诉您它在边界的内侧/外侧有多远，例如
拟合聚类中心，或找到原型示例，然后对于新的观察，与训练数据中的平均观察值相比，告诉它离聚类中心有多远

只是一些想法，当然还有其他方法。：）

谢谢你给我指出了正确的方向，我会努力回去的。我尝试了一个类支持向量机，经过大量的修补，我得到了72%的预测准确率和64.86%的lol。我还没有亲自处理异常值