Hadoop 关于这个BIGDATA用例的技术/设计建议
我不熟悉大数据技术和设计,因此希望从java world获得帮助 我有标签和标签组合的概念。 例如,U.S.A和Pen是两个标记,如果它们在某种定义中结合在一起,则为其注册标记组合(U.S.A-Pen) 标签(美国、钢笔、铅笔、印度、洗发水) 标记组合(美国钢笔、印度铅笔、美国铅笔、印度钢笔、印度钢笔洗发水)Hadoop 关于这个BIGDATA用例的技术/设计建议,hadoop,lucene,mapreduce,cassandra,bigdata,Hadoop,Lucene,Mapreduce,Cassandra,Bigdata,我不熟悉大数据技术和设计,因此希望从java world获得帮助 我有标签和标签组合的概念。 例如,U.S.A和Pen是两个标记,如果它们在某种定义中结合在一起,则为其注册标记组合(U.S.A-Pen) 标签(美国、钢笔、铅笔、印度、洗发水) 标记组合(美国钢笔、印度铅笔、美国铅笔、印度钢笔、印度钢笔洗发水) 数以百万计的标签 数十亿个标记组合 一个标记组合通常有2-8个标记 每天我们都有成千上万的新组合要写 通过一组标记查找匹配组合的每日查询次数 查询需要支持: 一个标记或一组标记出现在多
- 数以百万计的标签
- 数十亿个标记组合
- 一个标记组合通常有2-8个标记
- 每天我们都有成千上万的新组合要写
- 通过一组标记查找匹配组合的每日查询次数
Naresh我建议您研究Apache Lucene项目: 您不能直接使用Cassandra进行此操作,但如果您将数据存储在Cassandra中,则可以使用Solr在数据之上添加额外的索引。DataStax有一个名为DataStax Enterprise的捆绑解决方案,它将Cassandra/Solr结合在一起:
非常感谢..从我的研究中,我也达到了那里…DSE无法获得许可..我看到了一个项目lucandra,该项目将lucene存储在cassandra column系列中…任何关于此或类似解决方案的反馈???出于开发目的,DataStax Enterprise是免费的。