Java 推特价值预测：什么样的分析（贝叶斯？）可以预测推特用户对推特的价值？_Java_Scala_Twitter_Bayesian

Java 推特价值预测：什么样的分析（贝叶斯？）可以预测推特用户对推特的价值？

java scala twitter

Java 推特价值预测：什么样的分析（贝叶斯？）可以预测推特用户对推特的价值？,java,scala,twitter,bayesian,Java,Scala,Twitter,Bayesian,我正在考虑向Twitter客户端添加一个功能，在与用户进行一些培训后，它可以根据预测值对收到的推文进行排名。Java虚拟机（Scala或Java首选）有什么解决方案来做这类事情？这是一个分类问题，您本质上想了解一个函数y（x），它预测“x”（未标记的tweet）属于“有价值”类还是“无价值”类这里最棘手的不是算法（朴素贝叶斯只是计数和乘法，很容易编码！），而是：收集培训数据定义最佳特征集首先，我建议您跟踪用户最喜欢、回复和转发的推文，其次，查看推文的作者、推文中的文字以及是否包含链接等质

我正在考虑向Twitter客户端添加一个功能，在与用户进行一些培训后，它可以根据预测值对收到的推文进行排名。Java虚拟机（Scala或Java首选）有什么解决方案来做这类事情？

这是一个分类问题，您本质上想了解一个函数y（x），它预测“x”（未标记的tweet）属于“有价值”类还是“无价值”类

这里最棘手的不是算法（朴素贝叶斯只是计数和乘法，很容易编码！），而是：

收集培训数据

定义最佳特征集

首先，我建议您跟踪用户最喜欢、回复和转发的推文，其次，查看推文的作者、推文中的文字以及是否包含链接等质量。

做好这一点并不容易。谷歌希望能够做到这一点（“用户会重视哪些链接”），Netflix（“他们会重视哪些电影”）和其他许多公司也是如此。事实上，你最好通读一下关于这个问题的笔记

然后，您需要提取一组特性，正如@hmason所说的。然后你需要一个合适的机器学习算法；你要么需要一个函数逼近器（在这里你尝试使用你的功能来预测一个介于0和1之间的值，其中1是“有史以来最好的tweet”，0是“omg谁在乎”），要么需要一个分类器（在这里你使用你的功能来尝试预测它是“好”还是“坏”tweet）

如果你选择后者——这使得用户培训变得容易，因为他们只需要用“喜欢”（混合社交网络隐喻）来为推特打分——那么你通常会用支持向量机做得最好，因为支持向量机存在一个简单的概念

在前一种情况下，有多种技术可能值得尝试；如果您决定使用LIBSVM库，它们也有用于回归（即参数估计）的变量