Php 为大量类似文档提供归档服务

Php 为大量类似文档提供归档服务,php,mysql,database,Php,Mysql,Database,我想建立一种存档服务。我的想法是,我向服务发送一个文档(数10 KB的HTML),它向我返回一个简短的标识符,然后我可以使用该标识符检索文档。许多文件彼此非常相似;对于任何一个文档,可能有1000个其他文档与它重叠95%。因此,每次我发送文档时,归档服务都应该尝试查找相似的文档,并只存储差异 现在已经有这样的系统了吗?如果可能的话,我更喜欢基于PHP/MySQL的东西。从您的用例中可以想到CouchDB。了解他们如何将文档存储为JSON,以及如何对文档进行修订(存储在_rev字段中) 但是,它

我想建立一种存档服务。我的想法是,我向服务发送一个文档(数10 KB的HTML),它向我返回一个简短的标识符,然后我可以使用该标识符检索文档。许多文件彼此非常相似;对于任何一个文档,可能有1000个其他文档与它重叠95%。因此,每次我发送文档时,归档服务都应该尝试查找相似的文档,并只存储差异


现在已经有这样的系统了吗?如果可能的话,我更喜欢基于PHP/MySQL的东西。

从您的用例中可以想到CouchDB。了解他们如何将文档存储为JSON,以及如何对文档进行修订(存储在_rev字段中)

但是,它不会为您进行比较。这个责任将落在一个简单的CouchDB实现上,但它确实可以很好地为您处理版本

不幸的是,我不知道有什么现成的数据库可以比较文档,然后找到相似的内容并替换它们