Apache spark 使用spark streaming从流数据构造图形
我是新手。我需要构建一个共现图(在tweet中,单词将成为节点,如果单词来自同一个tweet,我们将在它们之间添加一条边),该图来自twitter tweets等流数据。我们可以使用spark streaming来构建一个实时的共现twitter图吗。spark streaming是否适用于此用例?。我不确定是否可以使用spark streaming来完成。如果不是,还有什么选择?共现频率可以看作是一个图表或邻接矩阵,但这是单词列表乘积空间中的一个大的稀疏直方图(频率计数)。您很可能希望检测移动窗口相关性,因此应该设计一个草图数据结构来跟踪流中发生率的异常增加或减少。e、 g.计算应用于每个词对的bloom过滤器或count min草图-请参见任何人都能回答这个问题吗?我猜spark graphX使用的是google pregel计算模型,用于批处理。弗林克·盖利也采用了同样的方法。我一直在努力寻找我自己的图书馆,它可以处理流数据图形处理。到目前为止,我发现了一个实验性的单通道图形流媒体库,它在Flink上工作。如果您自己有任何发现,也请告诉我。:)对不起,我不明白你想说什么。你能详细说明一下你说的话吗?Apache spark 使用spark streaming从流数据构造图形,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我是新手。我需要构建一个共现图(在tweet中,单词将成为节点,如果单词来自同一个tweet,我们将在它们之间添加一条边),该图来自twitter tweets等流数据。我们可以使用spark streaming来构建一个实时的共现twitter图吗。spark streaming是否适用于此用例?。我不确定是否可以使用spark streaming来完成。如果不是,还有什么选择?共现频率可以看作是一个图表或邻接矩阵,但这是单词列表乘积空间中的一个大的稀疏直方图(频率计数)。您很可能希望检测移动