Filter 论坛帖子的贝叶斯过滤

Filter 论坛帖子的贝叶斯过滤,filter,classification,ranking,bayesian,forum,Filter,Classification,Ranking,Bayesian,Forum,有没有人使用贝叶斯过滤器让论坛成员对帖子进行分类,所以随着时间的推移,论坛只会显示有趣的帖子?贝叶斯过滤器似乎可以很好地检测垃圾邮件。实施贝叶斯过滤是为用户过滤论坛帖子的可行方法吗?试图通过贝叶斯分类器或任何其他自动分类系统对感兴趣/好的论坛帖子进行分类的困难在于帖子的单词和/或单词结构与它们的相对值或属性之间可能缺乏相关性效用 垃圾邮件过滤器的工作主要是因为词语选择和结构总体上是系统性的不寻常:垃圾邮件发送者试图推广特定的产品、服务等。虽然垃圾邮件发送者可以尝试通过各种技术增加推广的难度,但有

有没有人使用贝叶斯过滤器让论坛成员对帖子进行分类,所以随着时间的推移,论坛只会显示有趣的帖子?贝叶斯过滤器似乎可以很好地检测垃圾邮件。实施贝叶斯过滤是为用户过滤论坛帖子的可行方法吗?

试图通过贝叶斯分类器或任何其他自动分类系统对感兴趣/好的论坛帖子进行分类的困难在于帖子的单词和/或单词结构与它们的相对值或属性之间可能缺乏相关性效用

垃圾邮件过滤器的工作主要是因为词语选择和结构总体上是系统性的不寻常:垃圾邮件发送者试图推广特定的产品、服务等。虽然垃圾邮件发送者可以尝试通过各种技术增加推广的难度,但有合理的相关性和模式可以学习

这样的单词/结构模式不太可能存在于好的或坏的论坛帖子中。但是,有一种可能有用的替代方法来重组问题:

  • 允许用户将文章分类为好的或坏的,或者按照您的描述对其进行排名
  • 使用贝叶斯分类器或其他一些统计推断方法来识别与整个社区的排名行为具有最高相关性的论坛用户,即具有最佳品味的用户,并且是整个社区如何查看内容的良好预测者
  • 使用步骤2中确定的优秀预测用户池中的论坛帖子排名来筛选论坛帖子。这需要一个或多个这样的用户在某个点上对新内容进行实际排序,因此该池需要具有一定的大小,并包括常规用户,这样的过滤系统才有用
  • 该分类器系统需要定期重建,因为用户社区可能是动态的,具有不断变化的兴趣等

  • 我提出的方法对你的问题的实际效果在很大程度上取决于论坛的性质、用户对内容排名的意愿,以及他们对所发布内容的价值有多少共同点。此外,用户社区的总体规模可能是一个因素:如果太小,可能没有足够的数据来处理;如果太大,您可能会遇到针对排名数据运行分类器推理方法的计算缩放问题。

    协同过滤不是更好吗?

    协同过滤对于这样的论坛来说效果相当好,对于Slashdot来说效果也不太好,但它也需要论坛用户的大量关注。我认为在基于社区和自动过滤之间进行某种混合是可取的,并且具有相当大的潜力,但这也可能是一个有效实现的挑战。