Logging Cloudera';s Flume vs Facebook';抄写员

Logging Cloudera';s Flume vs Facebook';抄写员,logging,flume,scribe-server,Logging,Flume,Scribe Server,有没有人有机会在这两方面都努力?我需要建立一个框架来移动数据。基本上,我们有clickstream数据作为文本文件输入。这些数据需要从应用服务器移动到HDF,然后在存档后移动到S3 我需要帮助在水槽和划线器之间进行选择。在可管理性、设置和自定义方面,哪一个更好?查看发布的答案 我会引用答案: Flume允许您从服务器配置Flume安装 中心点,无需ssh到每台机器,更新 配置变量并重新启动一两个守护进程。你可以开始, 停止、创建、删除和重新配置任何计算机上的逻辑节点 使用Flume从网络中的任何

有没有人有机会在这两方面都努力?我需要建立一个框架来移动数据。基本上,我们有clickstream数据作为文本文件输入。这些数据需要从应用服务器移动到HDF,然后在存档后移动到S3

我需要帮助在水槽和划线器之间进行选择。在可管理性、设置和自定义方面,哪一个更好?

查看发布的答案

我会引用答案:

  • Flume允许您从服务器配置Flume安装 中心点,无需ssh到每台机器,更新 配置变量并重新启动一两个守护进程。你可以开始, 停止、创建、删除和重新配置任何计算机上的逻辑节点 使用Flume从网络中的任何命令行运行Flume 罐子可用

  • 水槽也有集中的活性监测。我们听到了一个消息 关于抄写过程的两个故事默默地失败了,但是说谎了 数日未被发现,直到其余的划线器安装 在增加的负载下开始吱吱作响。水槽可以让你看到 所有逻辑节点在一个位置的运行状况(请注意,这是 与机器活动性监控不同;机器通常保持 在进程可能失败时启动)

  • Flume支持三种不同类型的可靠性保证, 允许您在资源使用和 可靠性。特别是,水槽支持完全认可的可靠性, 保证所有事件最终都会顺利进行 通过事件流

  • Flume还具有很强的可扩展性——编写自己的Flume非常容易 源或汇,并将大多数系统与水槽集成。如果滚动 你自己的是不切实际的,拥有你的 应用程序以Flume可以理解的形式输出事件(Flume 例如,可以运行Unix进程,因此如果可以使用shell脚本 要获取您的数据,您是黄金)

  • 这并不是使用Flume的全部好处,我还没有 涉及使用装饰器进行轻量级转换或 元数据提取、配置语言、运行能力 单个水槽流程中的多个逻辑节点,自动扣带 以及在HDFS中滚动日志文件。。。关于水槽还有很多 我们期待着与大家分享

    对我来说,关键的区别在于Cloudera积极支持 水槽。虽然我通常相信Facebook会保持良好的开放性 源项目,Cloudera的业务围绕提供支持而构建 对于这样的工具,我相信Flume将长期使用 得到更好的支持。我想尽量减少思考的时间 这是一个特殊的问题。也就是说,到目前为止,我经历了很多令人讨厌的事情 Flume在抽象方面有点复杂,或者 它的实现有缺陷,正如您可能从1.0之前的版本中所期望的那样 技术如果Asana还没有进入测试阶段,我可能会选择 抄写员