PHP和Twitter |创建索引引擎
以下是我的想法: 1) 创建一个大约每小时运行一次的服务,并使用特定条件搜索twits 2) 我还需要过滤掉垃圾(索引引擎需要足够智能,有点像反垃圾邮件服务) 实现这一目标的最佳策略/想法是什么? PSPHP和Twitter |创建索引引擎,php,indexing,twitter,Php,Indexing,Twitter,以下是我的想法: 1) 创建一个大约每小时运行一次的服务,并使用特定条件搜索twits 2) 我还需要过滤掉垃圾(索引引擎需要足够智能,有点像反垃圾邮件服务) 实现这一目标的最佳策略/想法是什么? PS 如果已经为twitter创建了反垃圾邮件引擎,你有什么想法吗?对于初学者来说,最好从twitter API(来自谷歌的链接)开始,让你的搜索工作起来。如果您的服务器堆栈是*nix说服型的,那么使用调度wget/curl请求到您的搜索页面可能是最简单的策略。不幸的是,我的windows任务调度知识
如果已经为twitter创建了反垃圾邮件引擎,你有什么想法吗?对于初学者来说,最好从twitter API(来自谷歌的链接)开始,让你的搜索工作起来。如果您的服务器堆栈是*nix说服型的,那么使用调度wget/curl请求到您的搜索页面可能是最简单的策略。不幸的是,我的windows任务调度知识非常缺乏,但我确信有比使用易怒的任务调度程序更好的方法 最后,对于你的过滤来说,编写一个分类器可能有点过头了,因为可能有一些服务你可以订阅,但我不知道Twitter有哪些服务。贝叶斯分类器是非常常见的,我敢肯定,通过您最喜欢的搜索引擎的一点研究,应该会得出一个固定的解决方案,或者至少是关于如何创建自己的分类器的方向。请记住,垃圾邮件是相对的,所以你必须训练你的分类器,这在一开始是有点费时的。事实上,PHP可能不是执行此任务的最佳语言,但是您的crontab也可以定期调用它来进行培训
我意识到这是一个非常高的层次,但链接应该足以作为一个起点,让您朝着正确的方向开始。您可能想了解一下。他们提供的服务将满足您的需求。谢谢。我已经开始搜索了。研究贝叶斯。你认为哪种语言最适合这项任务?函数式语言似乎非常适合这类任务。Haskell或Erlang可能是一些建议,但希望其他评论者能够进一步阐明这一决定。