Java 推特价值预测:什么样的分析(贝叶斯?)可以预测推特用户对推特的价值?

Java 推特价值预测:什么样的分析(贝叶斯?)可以预测推特用户对推特的价值?,java,scala,twitter,bayesian,Java,Scala,Twitter,Bayesian,我正在考虑向Twitter客户端添加一个功能,在与用户进行一些培训后,它可以根据预测值对收到的推文进行排名。Java虚拟机(Scala或Java首选)有什么解决方案来做这类事情?这是一个分类问题,您本质上想了解一个函数y(x),它预测“x”(未标记的tweet)属于“有价值”类还是“无价值”类 这里最棘手的不是算法(朴素贝叶斯只是计数和乘法,很容易编码!),而是: 收集培训数据 定义最佳特征集 首先,我建议您跟踪用户最喜欢、回复和转发的推文,其次,查看推文的作者、推文中的文字以及是否包含链接等质

我正在考虑向Twitter客户端添加一个功能,在与用户进行一些培训后,它可以根据预测值对收到的推文进行排名。Java虚拟机(Scala或Java首选)有什么解决方案来做这类事情?

这是一个分类问题,您本质上想了解一个函数y(x),它预测“x”(未标记的tweet)属于“有价值”类还是“无价值”类

这里最棘手的不是算法(朴素贝叶斯只是计数和乘法,很容易编码!),而是:

  • 收集培训数据
  • 定义最佳特征集
  • 首先,我建议您跟踪用户最喜欢、回复和转发的推文,其次,查看推文的作者、推文中的文字以及是否包含链接等质量。

    做好这一点并不容易。谷歌希望能够做到这一点(“用户会重视哪些链接”),Netflix(“他们会重视哪些电影”)和其他许多公司也是如此。事实上,你最好通读一下关于这个问题的笔记

    然后,您需要提取一组特性,正如@hmason所说的。然后你需要一个合适的机器学习算法;你要么需要一个函数逼近器(在这里你尝试使用你的功能来预测一个介于0和1之间的值,其中1是“有史以来最好的tweet”,0是“omg谁在乎”),要么需要一个分类器(在这里你使用你的功能来尝试预测它是“好”还是“坏”tweet)

    如果你选择后者——这使得用户培训变得容易,因为他们只需要用“喜欢”(混合社交网络隐喻)来为推特打分——那么你通常会用支持向量机做得最好,因为支持向量机存在一个简单的概念

    在前一种情况下,有多种技术可能值得尝试;如果您决定使用LIBSVM库,它们也有用于回归(即参数估计)的变量