哪种技术可以将数据从社交媒体流到hadoop?

哪种技术可以将数据从社交媒体流到hadoop?,hadoop,flume,apache-kafka,social-media,Hadoop,Flume,Apache Kafka,Social Media,我正在寻找可以用来从社交媒体流式传输数据的技术 到hadoop。 我搜索并找到了那些技术人员 水槽 风暴 卡夫卡 哪种工具最好?为什么?有人熟悉其他一些工具吗?最有可能的情况是,您希望使用Flume,因为它是为与hdfs一起工作而构建的。然而,与所有事情一样,这取决于情况 Kafka基本上是一个排队系统,通常用于在分析体系结构出现故障时保存数据。如果这听起来像是你需要的,它可能值得研究,或者可能 Storm用于复杂事件处理。如果您使用storm,您将在引擎盖下使用zeroMQ,并且可能需要设置一

我正在寻找可以用来从社交媒体流式传输数据的技术 到hadoop。 我搜索并找到了那些技术人员

  • 水槽
  • 风暴
  • 卡夫卡

  • 哪种工具最好?为什么?有人熟悉其他一些工具吗?

    最有可能的情况是,您希望使用Flume,因为它是为与hdfs一起工作而构建的。然而,与所有事情一样,这取决于情况

    Kafka基本上是一个排队系统,通常用于在分析体系结构出现故障时保存数据。如果这听起来像是你需要的,它可能值得研究,或者可能

    Storm用于复杂事件处理。如果您使用storm,您将在引擎盖下使用zeroMQ,并且可能需要设置一个连接到kafka或RabbitMQ的喷口。如果您需要在存储之前对数据进行复杂的扫描,这可能是正确的选择。还有其他的选择,你也可以使用。我倾向于纯粹出于个人喜好而建议风暴。我听说linkedin也发布了一个实时复杂事件处理框架,但我记不起它的名字了。我会在找到后更新帖子

    另一方面,如果你问这个问题,可能是因为你还没有建立这个东西。如果是这样的话,如果需要流式处理,您可能需要研究hadoop以外的东西。生态系统正在迅速扩展,可能有很多方法可以做你想做的事情。

    是一个分布式消息传递系统。简言之,它就像您使用卡夫卡生产者将一些消息推送到(发布)卡夫卡队列,而在另一端,您使用卡夫卡消费者(订阅者)将其消费。消息/提要可分为名为
    主题
    的类别。现在,您可以在集群中运行Kafka,这使得它非常具有可扩展性,并且可以在不停机的情况下进行扩展

    这可能是一个很好的选择,用于保存您的社交媒体流。卡夫卡在一段可配置的时间内保留推送到它的信息,最好的部分来自他们的文档

    Kafka的性能在数据大小方面实际上是恒定的,因此保留大量数据不是问题

    查看以获得更好的可见性

    现在是一个非常可扩展、容错的分布式计算系统,它可以轻松地与任何队列(如Kafka)或数据库(HDFS/Cassandra等)集成。因此,您可以将消息馈送到storm群集,以便根据需要进行进一步处理。有一种被称为“风暴”和卡夫卡之间的无缝融合

    您还应该看看@github,它创建了
    Hadoop作业,用于将来自Kafka主题的消息增量加载到具有多文件输出语义的hdfs上

    正如@Peter Klipfel所说: 如果需要流式处理,您可能需要研究hadoop以外的其他东西
    您还可以检查其他可用的替代方案,例如,非常适合延迟非常低的流式数据

    我认为这取决于你在哪里提取数据,以及你试图用数据做什么

    另一种选择是使用IBM Streams,您可以直接从社交媒体流中提取数据并存储到您选择的许多不同的数据存储

    例如,您可以从这里使用streamsx.social工具包:它允许您直接从HTTP流中提取推文

    一旦您将数据导入流,该产品还提供了许多适配器,允许您将流数据存储到数据存储中(例如,HDFS使用streamsx.HDFS,HBase使用streamsx.HBase)

    我认为另一个考虑因素是你对社交媒体数据做了什么样的分析。如果您希望在存储数据之前分析流中的社交数据,IBM Streams还提供了一个文本工具包,允许您从社交数据非结构化文本中提取见解。您可以分析数据,而无需将其存储在任何地方


    希望有帮助

    @ShlomiHassan如果你和卡夫卡一起去的话,有一个问题。我能帮你解决卡夫卡使用加缪的问题吗?我在hortonworks 2.0.6发行版上使用卡夫卡0.8的加缪制作了truble