Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/264.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
用于检查重复字符/伪文本的php代码_Php_String_Full Text Search - Fatal编程技术网

用于检查重复字符/伪文本的php代码

用于检查重复字符/伪文本的php代码,php,string,full-text-search,Php,String,Full Text Search,我正在运行一个交友网站,有一个地方,人们可以输入他们的个人资料-我已经有一个坏词过滤器,但现在我有一个问题,人们输入的个人资料只是垃圾字符或只是“aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa我正在寻找一种有效的方法来过滤掉重复字符的长单词。提前谢谢。也许你需要一些类似的过滤器来过滤这类东西

我正在运行一个交友网站,有一个地方,人们可以输入他们的个人资料-我已经有一个坏词过滤器,但现在我有一个问题,人们输入的个人资料只是垃圾字符或只是“aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa我正在寻找一种有效的方法来过滤掉重复字符的长单词。提前谢谢。

也许你需要一些类似的过滤器来过滤这类东西

特定词语在垃圾邮件和合法电子邮件中出现的概率特别大。例如,大多数电子邮件用户经常在垃圾邮件中遇到“伟哥”这个词,但很少在其他电子邮件中看到。过滤器事先不知道这些概率,必须首先进行训练,以便能够建立这些概率。要训练过滤器,用户必须手动指示新电子邮件是否为垃圾邮件。


您可以使用单词列表,并标记列表中没有长单词(例如5+字符)的每条消息-如果字段包含5个8字母的单词,其中没有一个在字典中,则可能是没有意义的数据。

这应该可以做到(但它也将替换双字符,可能您需要编辑一点):


OT:真不敢相信还有人使用…

也许你可以检查一下为什么人们不填写你的个人资料?需要一页完整的注册数据往往会让人厌烦,所以他们只是在垃圾堆里填东西。你可以做的是只要求注册的基本字段,然后在页面的某个地方显示一个进度条(“你的个人资料完成了10%,填写出生日期达到20%”)。许多网站(如FB)就是这样做的,它实际上能更好地激励用户。
preg_replace('{(.)\1+}','$1',$text);