Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/247.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
PHP和Twitter |创建索引引擎_Php_Indexing_Twitter - Fatal编程技术网

PHP和Twitter |创建索引引擎

PHP和Twitter |创建索引引擎,php,indexing,twitter,Php,Indexing,Twitter,以下是我的想法: 1) 创建一个大约每小时运行一次的服务,并使用特定条件搜索twits 2) 我还需要过滤掉垃圾(索引引擎需要足够智能,有点像反垃圾邮件服务) 实现这一目标的最佳策略/想法是什么? PS 如果已经为twitter创建了反垃圾邮件引擎,你有什么想法吗?对于初学者来说,最好从twitter API(来自谷歌的链接)开始,让你的搜索工作起来。如果您的服务器堆栈是*nix说服型的,那么使用调度wget/curl请求到您的搜索页面可能是最简单的策略。不幸的是,我的windows任务调度知识

以下是我的想法:

1) 创建一个大约每小时运行一次的服务,并使用特定条件搜索twits

2) 我还需要过滤掉垃圾(索引引擎需要足够智能,有点像反垃圾邮件服务)

实现这一目标的最佳策略/想法是什么?

PS


如果已经为twitter创建了反垃圾邮件引擎,你有什么想法吗?

对于初学者来说,最好从twitter API(来自谷歌的链接)开始,让你的搜索工作起来。如果您的服务器堆栈是*nix说服型的,那么使用调度wget/curl请求到您的搜索页面可能是最简单的策略。不幸的是,我的windows任务调度知识非常缺乏,但我确信有比使用易怒的任务调度程序更好的方法

最后,对于你的过滤来说,编写一个分类器可能有点过头了,因为可能有一些服务你可以订阅,但我不知道Twitter有哪些服务。贝叶斯分类器是非常常见的,我敢肯定,通过您最喜欢的搜索引擎的一点研究,应该会得出一个固定的解决方案,或者至少是关于如何创建自己的分类器的方向。请记住,垃圾邮件是相对的,所以你必须训练你的分类器,这在一开始是有点费时的。事实上,PHP可能不是执行此任务的最佳语言,但是您的crontab也可以定期调用它来进行培训


我意识到这是一个非常高的层次,但链接应该足以作为一个起点,让您朝着正确的方向开始。

您可能想了解一下。他们提供的服务将满足您的需求。

谢谢。我已经开始搜索了。研究贝叶斯。你认为哪种语言最适合这项任务?函数式语言似乎非常适合这类任务。Haskell或Erlang可能是一些建议,但希望其他评论者能够进一步阐明这一决定。