Java 使用Storm的动态枢轴_Java_Cassandra_Pivot_Apache Storm_Trident

Java 使用Storm的动态枢轴

java cassandra apache-storm

Java 使用Storm的动态枢轴,java,cassandra,pivot,apache-storm,trident,Java,Cassandra,Pivot,Apache Storm,Trident,我在bigdatadb中有行（在我的例子中是Cassandra），列名称为col1、col2、col3、val1、val2 在SQL方法中，我可以按col1、col2或col2、col1或任何其他可能的方式进行分组。这样我可以很容易地形成树层次结构但是现在我们使用Cassandra来存储不支持分组的数据。因此，我们希望使用Storm进行分组和聚合。我们编写了一些用于聚合和分组的示例代码，但我们无法确定是否能够实现数据如下所示 col1,col2,col3,val1,val2 -------

我在bigdatadb中有行（在我的例子中是Cassandra），列名称为col1、col2、col3、val1、val2

在SQL方法中，我可以按col1、col2或col2、col1或任何其他可能的方式进行分组。这样我可以很容易地形成树层次结构

但是现在我们使用Cassandra来存储不支持分组的数据。因此，我们希望使用Storm进行分组和聚合。我们编写了一些用于聚合和分组的示例代码，但我们无法确定是否能够实现

数据如下所示

col1,col2,col3,val1,val2
------------------------
a1,b1,c1,10,20
a1,b1,c2,11,13
a1,b2,c1,9,15
a1,b2,c3,13,88
a2,b1,c1,30,44
a2,b3,c2,22,33
a4,b4,c4,99,66

c1          {49,79}
    --a1        {19,35}
        --b1    10,20
        --b2    9,15
    --a2        {30,44}
        --b1    30,44
c2          {11,13}
    --a1        {11,13}
        --b1    11,13
    --a2        {22,33}
        --b3    22,33
c3          {13,88}
    --a1        {13,88}
        --b2    13,88
c4          {99,66}
    --a4        {99,66}
        --b4    99,66

就像在excel pivot中一样，我想构建层次结构root->child1->child2->child3-val1，val2，如果我的层次结构是col1->col2->col3，那么它可能是这样的

a1          {43,136}
    --b1        {21,33}
        --c1    10,20
        --c2    11,13
    --b2        {22,103}
        --c1    9,15
        --c3    13,88
a2          {52,77}
    --b1        {30,44}
        --c1    30,44
    --b3        {22,33}
    --c2    22,33
a4          {99,66}
    --b4        {99,66}
        --c4    99,66

我想为用户提供重新排列层次结构元素的功能，比如col3->col1->col2（或者其他动态的东西）在本例中，数据将如下所示

col1,col2,col3,val1,val2
------------------------
a1,b1,c1,10,20
a1,b1,c2,11,13
a1,b2,c1,9,15
a1,b2,c3,13,88
a2,b1,c1,30,44
a2,b3,c2,22,33
a4,b4,c4,99,66

c1          {49,79}
    --a1        {19,35}
        --b1    10,20
        --b2    9,15
    --a2        {30,44}
        --b1    30,44
c2          {11,13}
    --a1        {11,13}
        --b1    11,13
    --a2        {22,33}
        --b3    22,33
c3          {13,88}
    --a1        {13,88}
        --b2    13,88
c4          {99,66}
    --a4        {99,66}
        --b4    99,66

我的trident代码中有几行是这样的，它并没有像预期的那样工作

topology.newStream("aggregation", spout)
.groupBy(new Fields("col1","col2","col3","val1","val2"))
.aggregate(new Fields("val1","val2"), new Sum(), new Fields("val1sum","val2sum"))
.each(new Fields("col1","col2","col3","val1sum","val2sum"), new Utils.PrintFilter());

为了完成上述转换，我想使用Storm，无论是否支持Trident API。

谁能指导我如何实现它？非常感谢任何计划想法。

您应该只在groupBy中包含维度（您的col1、col2和col3），而不包括度量（您的val1、val2）。当需要聚合多个度量值时，需要使用chainedAgg（）构造。以下是针对您的用例更改的拓扑代码：

            topology.newStream("aggregation", spout)
    .groupBy(new Fields("col1","col2"))
    .chainedAgg()
    .aggregate(new Fields("val1"), new Sum(), new Fields("val1sum"))
    .aggregate(new Fields("val2"), new Sum(), new Fields("val2sum"))
    .chainEnd()
    .each(new Fields("col1","col2","val1sum", "val2sum"), new Utils.PrintFilter());

它会产生如下输出，正如您所期望的那样

分区ID=0[a1、b1、21、33]

分区ID=0[a1、b2、22、103]

分区ID=0[a4，b4，99，66]

分区ID=0[a2，b1，30，44]

分区ID=0[a2，b3，22，33]

干杯