Twitter流式API的Apache Cassandra数据模式

Twitter流式API的Apache Cassandra数据模式,api,twitter,streaming,cassandra,Api,Twitter,Streaming,Cassandra,我知道哪一个是使用Cassandra的twitter克隆示例,但我很想知道是否有人共享了一个Cassandra模式,不克隆twitter,而是用于存储通过twitter流媒体API发送的推文?这在很大程度上取决于您接收数据后要对数据执行何种查询-我从您的上一个问题“转储推特流API推文…”您可能只想对其进行大批量处理 如果是这种情况,您只需要担心负载平衡,确保集群中的每个节点处理1/n的写负载,并包含1/n的数据-使用随机分区,并在每个tweets中插入一行,其中status id作为行键将实现

我知道哪一个是使用Cassandra的twitter克隆示例,但我很想知道是否有人共享了一个Cassandra模式,不克隆twitter,而是用于存储通过twitter流媒体API发送的推文?

这在很大程度上取决于您接收数据后要对数据执行何种查询-我从您的上一个问题“转储推特流API推文…”您可能只想对其进行大批量处理

如果是这种情况,您只需要担心负载平衡,确保集群中的每个节点处理1/n的写负载,并包含1/n的数据-使用随机分区,并在每个tweets中插入一行,其中status id作为行键将实现这一点

但是,如果您想执行诸如“为给定用户提供所有tweets”之类的查询,您将需要一个稍微复杂一些的模式,因为上面建议的模式将要求您扫描所有数据。每行可以插入多条tweet,行键为userid,列键为tweet id,值为tweet。然后您可以使用get_slice来回答该查询


一篇好的(有点相关的)博客帖子:

这在很大程度上取决于你在接收数据后想对数据进行何种查询——我从你之前的问题“转储推特流媒体API推文…”中看到,你可能只想对其进行大批量处理

如果是这种情况,您只需要担心负载平衡,确保集群中的每个节点处理1/n的写负载,并包含1/n的数据-使用随机分区,并在每个tweets中插入一行,其中status id作为行键将实现这一点

但是,如果您想执行诸如“为给定用户提供所有tweets”之类的查询,您将需要一个稍微复杂一些的模式,因为上面建议的模式将要求您扫描所有数据。每行可以插入多条tweet,行键为userid,列键为tweet id,值为tweet。然后您可以使用get_slice来回答该查询


一篇好的(有些相关的)博文:

您对此有任何更新吗?你有一个对你有用的方案吗?我放弃了Cassandra,用HBase来代替自定义方案你有什么更新吗?你有一个对你有用的方案吗?我放弃了Cassandra,用HBase来代替自定义模式