Hadoop 关于这个BIGDATA用例的技术/设计建议

Hadoop 关于这个BIGDATA用例的技术/设计建议,hadoop,lucene,mapreduce,cassandra,bigdata,Hadoop,Lucene,Mapreduce,Cassandra,Bigdata,我不熟悉大数据技术和设计,因此希望从java world获得帮助 我有标签和标签组合的概念。 例如,U.S.A和Pen是两个标记,如果它们在某种定义中结合在一起,则为其注册标记组合(U.S.A-Pen) 标签(美国、钢笔、铅笔、印度、洗发水) 标记组合(美国钢笔、印度铅笔、美国铅笔、印度钢笔、印度钢笔洗发水) 数以百万计的标签 数十亿个标记组合 一个标记组合通常有2-8个标记 每天我们都有成千上万的新组合要写 通过一组标记查找匹配组合的每日查询次数 查询需要支持: 一个标记或一组标记出现在多

我不熟悉大数据技术和设计,因此希望从java world获得帮助

我有标签和标签组合的概念。 例如,U.S.A和Pen是两个标记,如果它们在某种定义中结合在一起,则为其注册标记组合(U.S.A-Pen)

标签(美国、钢笔、铅笔、印度、洗发水) 标记组合(美国钢笔、印度铅笔、美国铅笔、印度钢笔、印度钢笔洗发水)

  • 数以百万计的标签
  • 数十亿个标记组合
  • 一个标记组合通常有2-8个标记
  • 每天我们都有成千上万的新组合要写
  • 通过一组标记查找匹配组合的每日查询次数
查询需要支持: 一个标记或一组标记出现在多少标记组合ID中???? 若我查询Pen,India,那个么它应该返回两个标记组合(India Pen,India Pen Shampion))…应用程序将实时触发查询

请推荐一个与java客户端一起分发的解决方案,并且可以 处理我正在寻找的数据规模

已经在卡桑德拉身上试过了,但不能断定这与我的问题相匹配

谢谢
Naresh

我建议您研究Apache Lucene项目:

您不能直接使用Cassandra进行此操作,但如果您将数据存储在Cassandra中,则可以使用Solr在数据之上添加额外的索引。DataStax有一个名为DataStax Enterprise的捆绑解决方案,它将Cassandra/Solr结合在一起:


非常感谢..从我的研究中,我也达到了那里…DSE无法获得许可..我看到了一个项目lucandra,该项目将lucene存储在cassandra column系列中…任何关于此或类似解决方案的反馈???出于开发目的,DataStax Enterprise是免费的。