Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/228.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Php 文档比较引擎/搜索_Php_Comparison_Document - Fatal编程技术网

Php 文档比较引擎/搜索

Php 文档比较引擎/搜索,php,comparison,document,Php,Comparison,Document,我有大量的文档文件,包括.pdf、.one、.doc、.docx等。我正在试图找到一种方法来比较文件的文本内容,以查找重复或接近匹配的内容。我有一个基于LAMP堆栈的站点,用户可以将文件上传到该站点。我可以比较上传的文档,也可以运行cron作业。我在类似的上下文中看到过ApacheLucene,Zend Search Lucene似乎是它的一个强大的PHP版本,但它们更面向搜索,而不是比较。有没有办法利用这些数据进行比较 谢谢, Chris我认为比较匹配的文件可能比比较接近匹配的文件容易得多。这

我有大量的文档文件,包括.pdf、.one、.doc、.docx等。我正在试图找到一种方法来比较文件的文本内容,以查找重复或接近匹配的内容。我有一个基于LAMP堆栈的站点,用户可以将文件上传到该站点。我可以比较上传的文档,也可以运行cron作业。我在类似的上下文中看到过ApacheLucene,Zend Search Lucene似乎是它的一个强大的PHP版本,但它们更面向搜索,而不是比较。有没有办法利用这些数据进行比较

谢谢,
Chris

我认为比较匹配的文件可能比比较接近匹配的文件容易得多。这可能需要一系列的方法


马上,我将使用类似()的东西来获取文件内容的哈希值。然后,您可以使用文件内容的超短表示形式与其他文件哈希匹配以查找重复项。您可以尝试散列不同的值,或者尝试收集有关文件的一些信息,例如()或类似的信息,以便比较“近似重复”。希望这是有帮助的。听起来确实是个挑战

说实话,我需要找到的是近距离的匹配。我需要能够找到是否有一个文件,例如,具有与.one文件相同内容(文本)的.doc格式。