Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/311.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 识别相似数据的算法?_Python_Machine Learning_Scikit Learn_Classification_Cluster Analysis - Fatal编程技术网

Python 识别相似数据的算法?

Python 识别相似数据的算法?,python,machine-learning,scikit-learn,classification,cluster-analysis,Python,Machine Learning,Scikit Learn,Classification,Cluster Analysis,我得到了一个youtube趋势数据集,任务是制作一个预测模型,输出视频进入趋势的概率,准确率至少为60% 我有标题,频道,缩略图链接,视图,喜欢,不喜欢,评论,日期 我做了一些分析,找出了重要的专栏 类别、标签(以“|”分隔的列表) 问题是,假设所有视频都有趋势,所以我不能使用分类器并将其与训练数据相匹配来预测趋势是/否列,或者使用回归算法,而不改变目标“预测喜欢程度”或其他内容 听起来我想要的是一个集群alg,我已经研究了KMeans,但据我所知,它不会起作用 我想我可以一个视频一个视频地比较

我得到了一个youtube趋势数据集,任务是制作一个预测模型,输出视频进入趋势的概率,准确率至少为60%

我有标题,频道,缩略图链接,视图,喜欢,不喜欢,评论,日期

我做了一些分析,找出了重要的专栏

类别、标签(以“|”分隔的列表)

问题是,假设所有视频都有趋势,所以我不能使用分类器并将其与训练数据相匹配来预测趋势是/否列,或者使用回归算法,而不改变目标“预测喜欢程度”或其他内容

听起来我想要的是一个集群alg,我已经研究了KMeans,但据我所知,它不会起作用

我想我可以一个视频一个视频地比较它包含哪些类别和标签,并根据它们的流行程度来评分,或者做一个距离计算相似性函数,但这意味着我应该使用scikit,这听起来像个问题。有些选择是:

  • 拟合数据的代表性分布,然后进行新的观察(视频),检查来自该分布的可能性

  • 安装一个基本上会找到数据边界的分类器,然后对于一个新的观察,告诉您它在边界的内侧/外侧有多远,例如

  • 拟合聚类中心,或找到原型示例,然后对于新的观察,与训练数据中的平均观察值相比,告诉它离聚类中心有多远


只是一些想法,当然还有其他方法。:)

谢谢你给我指出了正确的方向,我会努力回去的。我尝试了一个类支持向量机,经过大量的修补,我得到了72%的预测准确率和64.86%的lol。我还没有亲自处理异常值