Content management system 大数据CMS全文搜索

Content management system 大数据CMS全文搜索,content-management-system,full-text-search,bigdata,Content Management System,Full Text Search,Bigdata,目前,我有一个用户上传文档的应用程序(PDF/excel/word,少量图像)。寻找大数据(Hadoop MangoDB)解决方案 存储数千个pdf、word、excel文件(因为我们的大小也在增长) 搜索图像元信息 全文搜索(主要是实时搜索) 更快的检索 请建议也看看apache Hbase..您可能会发现它对您的用例很有用..它是一个运行在Hdfs之上的NOSQL数据库,提供随机实时读/写访问..您也可以看看apache Hive..虽然它与Hbase不同,不是用于实时处理,它在Hadoop

目前,我有一个用户上传文档的应用程序(PDF/excel/word,少量图像)。寻找大数据(Hadoop MangoDB)解决方案

  • 存储数千个pdf、word、excel文件(因为我们的大小也在增长)

  • 搜索图像元信息

  • 全文搜索(主要是实时搜索)

  • 更快的检索


  • 请建议

    也看看apache Hbase..您可能会发现它对您的用例很有用..它是一个运行在Hdfs之上的NOSQL数据库,提供随机实时读/写访问..您也可以看看apache Hive..虽然它与Hbase不同,不是用于实时处理,它在Hadoop集群上提供了一个数据仓库,具有类似SQL的接口。您可以在后台运行配置单元作业,如果您事先知道处理的类型,则可以随时处理数据。如果您来自SQL后台,这将非常有用。

    我在其他项目中使用了HBase、配置单元。。HBase是克隆定向的,可用于索引solr和hive在这里完全无关。我正在寻找像Mongo这样的面向文档的系统。但是我不喜欢这个想法,我没有说过你应该用蜂巢来代替Mongo或者类似的东西。如果你想使用像Terrastore、ApacheCouchDB、Amazon SimpleDB等面向文档的系统,有几种选择。你可以根据自己的方便选择一种