Hadoop 关于这个BIGDATA用例的技术/设计建议_Hadoop_Lucene_Mapreduce_Cassandra_Bigdata

Hadoop 关于这个BIGDATA用例的技术/设计建议

hadoop lucene mapreduce cassandra

Hadoop 关于这个BIGDATA用例的技术/设计建议,hadoop,lucene,mapreduce,cassandra,bigdata,Hadoop,Lucene,Mapreduce,Cassandra,Bigdata,我不熟悉大数据技术和设计，因此希望从java world获得帮助我有标签和标签组合的概念。例如，U.S.A和Pen是两个标记，如果它们在某种定义中结合在一起，则为其注册标记组合（U.S.A-Pen）标签（美国、钢笔、铅笔、印度、洗发水）标记组合（美国钢笔、印度铅笔、美国铅笔、印度钢笔、印度钢笔洗发水）数以百万计的标签数十亿个标记组合一个标记组合通常有2-8个标记每天我们都有成千上万的新组合要写通过一组标记查找匹配组合的每日查询次数查询需要支持：一个标记或一组标记出现在多

我不熟悉大数据技术和设计，因此希望从java world获得帮助

我有标签和标签组合的概念。例如，U.S.A和Pen是两个标记，如果它们在某种定义中结合在一起，则为其注册标记组合（U.S.A-Pen）

标签（美国、钢笔、铅笔、印度、洗发水）标记组合（美国钢笔、印度铅笔、美国铅笔、印度钢笔、印度钢笔洗发水）

数以百万计的标签
数十亿个标记组合
一个标记组合通常有2-8个标记
每天我们都有成千上万的新组合要写
通过一组标记查找匹配组合的每日查询次数

查询需要支持：一个标记或一组标记出现在多少标记组合ID中？？？？若我查询Pen，India，那个么它应该返回两个标记组合（India Pen，India Pen Shampion））…应用程序将实时触发查询

请推荐一个与java客户端一起分发的解决方案，并且可以处理我正在寻找的数据规模

已经在卡桑德拉身上试过了，但不能断定这与我的问题相匹配

谢谢

Naresh

我建议您研究Apache Lucene项目：

您不能直接使用Cassandra进行此操作，但如果您将数据存储在Cassandra中，则可以使用Solr在数据之上添加额外的索引。DataStax有一个名为DataStax Enterprise的捆绑解决方案，它将Cassandra/Solr结合在一起：

非常感谢..从我的研究中，我也达到了那里…DSE无法获得许可..我看到了一个项目lucandra，该项目将lucene存储在cassandra column系列中…任何关于此或类似解决方案的反馈？？？出于开发目的，DataStax Enterprise是免费的。