Twitter流式API的Apache Cassandra数据模式_Api_Twitter_Streaming_Cassandra

Twitter流式API的Apache Cassandra数据模式

api twitter streaming cassandra

Twitter流式API的Apache Cassandra数据模式,api,twitter,streaming,cassandra,Api,Twitter,Streaming,Cassandra,我知道哪一个是使用Cassandra的twitter克隆示例，但我很想知道是否有人共享了一个Cassandra模式，不克隆twitter，而是用于存储通过twitter流媒体API发送的推文？这在很大程度上取决于您接收数据后要对数据执行何种查询-我从您的上一个问题“转储推特流API推文…”您可能只想对其进行大批量处理如果是这种情况，您只需要担心负载平衡，确保集群中的每个节点处理1/n的写负载，并包含1/n的数据-使用随机分区，并在每个tweets中插入一行，其中status id作为行键将实现

我知道哪一个是使用Cassandra的twitter克隆示例，但我很想知道是否有人共享了一个Cassandra模式，不克隆twitter，而是用于存储通过twitter流媒体API发送的推文？

这在很大程度上取决于您接收数据后要对数据执行何种查询-我从您的上一个问题“转储推特流API推文…”您可能只想对其进行大批量处理

如果是这种情况，您只需要担心负载平衡，确保集群中的每个节点处理1/n的写负载，并包含1/n的数据-使用随机分区，并在每个tweets中插入一行，其中status id作为行键将实现这一点

但是，如果您想执行诸如“为给定用户提供所有tweets”之类的查询，您将需要一个稍微复杂一些的模式，因为上面建议的模式将要求您扫描所有数据。每行可以插入多条tweet，行键为userid，列键为tweet id，值为tweet。然后您可以使用get_slice来回答该查询

一篇好的（有点相关的）博客帖子：

这在很大程度上取决于你在接收数据后想对数据进行何种查询——我从你之前的问题“转储推特流媒体API推文…”中看到，你可能只想对其进行大批量处理

一篇好的（有些相关的）博文：

您对此有任何更新吗？你有一个对你有用的方案吗？我放弃了Cassandra，用HBase来代替自定义方案你有什么更新吗？你有一个对你有用的方案吗？我放弃了Cassandra，用HBase来代替自定义模式