Algorithm 用户提交的内容过滤

Algorithm 用户提交的内容过滤,algorithm,filter,filtering,Algorithm,Filter,Filtering,有没有人对过滤不可信用户提交的内容有什么想法 以Yelp为例,他们需要防止竞争对手对其竞争对手撰写商业评论。他们需要防止企业主积极审查自己的业务,或强迫朋友/家人这样做。他们需要防止质量差的评论影响企业评级等等 我想不出他们会用什么来做这件事: 防止来自同一IP的多个用户查看某些内容 防止企业主审查自己的业务(甚至可能是与自己的业务类别相同的其他业务?) 以某种方式确定审查的内容以及审查背后的实际意图 除了第一点和第二点,我想不出任何聪明/简单的方法来过滤可能有害的评论,除了一个人这样做。显

有没有人对过滤不可信用户提交的内容有什么想法

以Yelp为例,他们需要防止竞争对手对其竞争对手撰写商业评论。他们需要防止企业主积极审查自己的业务,或强迫朋友/家人这样做。他们需要防止质量差的评论影响企业评级等等

我想不出他们会用什么来做这件事:

  • 防止来自同一IP的多个用户查看某些内容
  • 防止企业主审查自己的业务(甚至可能是与自己的业务类别相同的其他业务?)
  • 以某种方式确定审查的内容以及审查背后的实际意图
除了第一点和第二点,我想不出任何聪明/简单的方法来过滤可能有害的评论,除了一个人这样做。显然,对于一个像Yelp这样规模的网站来说,这是不可行的,那么他们可以考虑哪些参数呢?即使有人为干预,怎么会有人知道是老板最好的朋友在不了解人的情况下写了一篇假评论

我在一项关于自动过滤用户内容的大型研究中以此为例。有人知道这些系统是如何工作的吗?他们考虑了什么


谢谢

如果没有一台能够读懂用户思想的计算机,第三种方法听起来是完全不可能的,到那时,这仍然是对隐私的侵犯。尽管有他们的理由,人们应该可以根据他们想要的任何标准自由地审查某些东西

我认为像IMDB或yelp这样的基于评论的网站会做一些其他的事情:

  • 要求用户对如此多的项目进行评分,或者在他们的评分真正起作用之前的一段时间内成为会员

  • 希望评论的数量足够高,这样两个极端中的一些异常值都不会影响平均值。您可能会考虑使用不同于纯平均值的算法来计算最终分数,或者使用中位数


  • 我支持Zachary,因为他不能真正阻止人们出于任何特殊原因发布内容

    最好的事情是期待有一些不好或不可靠的评论,一些垃圾邮件,一些白痴试图破坏它为我们其余的人,但也有大多数人是善意的。堆栈溢出是建立在这些思想之上的。因此:

  • 保留一个IP地址字典,并给每个地址一个等级。限制给定IP可以发布多个评论的频率,如果他们试图淹没系统,则在一段时间内禁止该IP。这样,他们的行为越恶劣,对他们来说就越困难
  • 让网站用户对每一篇评论进行评分——亚马逊会用“这篇评论有用吗?”
  • 除了2之外,为每个用户(公开或私下)保留一个分数,比如SO声誉分数,并使用它来限制新用户或行为不好的用户的行为。如果你的声誉太低,你就不能给别人的评价打分。Slashdot允许您选择是否过滤低分数的响应
  • 让业务部门在一份列在榜首的特别评论中提出自己的观点(并将其标记为这样),这样他们就有地方说所有他们必须说的废话
  • 注意惩罚和奖励行为而不是个人的原则。这样,行为稍有不端的人就可以得到纠正,并转变为富有成效的贡献者,因为不管怎样,他们通常都会受到关注
  • 将得分较低的回答放在列表底部,就像命令答案一样。这样,寻求关注的冲动会驱使用户产生高质量的评论,而不是发布虚假的帖子!!!!11!!
  • 阅读杰夫·阿特伍德的博客;并按顺序收听SO播客条目。那里有一座经验矿

  • 我想是的,所以我想知道他们能用什么魔法。我想音量有助于过滤掉很多垃圾。谢谢你的意见,非常感谢!