Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/263.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用PHP查找有关文本质量的基本信息?_Php_Text - Fatal编程技术网

如何使用PHP查找有关文本质量的基本信息?

如何使用PHP查找有关文本质量的基本信息?,php,text,Php,Text,我有一个PHP/MySQL驱动的站点,在过去6个月里我都没有维护过。这是一个用户来提交文章的网站。我有50000篇文章,通过一些“特别”测试,我应该说大约50-60%是垃圾邮件和从其他网站复制粘贴的文本 我正在寻找写一个PHP脚本,将采取一些基本参数来标记/删除垃圾邮件文本(不是复制/粘贴,这一步只是纯粹的垃圾邮件),所以我的想法是使脚本采取每一个单位,计数字符,单词,不同的单词和短语的使用和单词密度,并根据这些因素删除为纯粹的垃圾邮件(重复了很多短语等)。因此,我将损失一整天的时间,我的问题是

我有一个PHP/MySQL驱动的站点,在过去6个月里我都没有维护过。这是一个用户来提交文章的网站。我有50000篇文章,通过一些“特别”测试,我应该说大约50-60%是垃圾邮件和从其他网站复制粘贴的文本

我正在寻找写一个PHP脚本,将采取一些基本参数来标记/删除垃圾邮件文本(不是复制/粘贴,这一步只是纯粹的垃圾邮件),所以我的想法是使脚本采取每一个单位,计数字符,单词,不同的单词和短语的使用和单词密度,并根据这些因素删除为纯粹的垃圾邮件(重复了很多短语等)。因此,我将损失一整天的时间,我的问题是:

有没有已经用PHP开发的解决方案?
如果我需要自己编写代码,我应该使用哪些参数来确定垃圾邮件?

这是我过去使用过的一个PHP类-
我不是作者,所以我对代码造成的潜在损害不承担任何责任。不过,我用它来检查短文本-网站上的用户评论,所以我不确定在50k长文章上的性能,也许你需要对其进行一些增强。但至少你有一些东西可以从它开始。

我没有观察到像这样的网站上的很多垃圾邮件帖子都没有文章。它们只包含一堆关键字和链接。你可以添加一个最小文章数的参数。如果少于1%的帖子是文章,你可以将其作为垃圾邮件拒绝


例如,如果你在上面的段落中计算
a
a
s
a
s和
一些
s的数量,你会得到3篇
a
s和1篇
a
(43个单词中有4篇文章占9.3%)

也许你可以看看和。第一篇分析你已经拥有的文章(以及未来的)和不良行为,以打击垃圾邮件之前,它曾经进入您的数据库


它们可能不太理想,但可以在路上帮助您。

谢谢,这非常有用,我正在考虑这个选项。