Logging Cloudera'；s Flume vs Facebook'；抄写员_Logging_Flume_Scribe Server

Logging Cloudera'；s Flume vs Facebook'；抄写员

logging

Logging Cloudera'；s Flume vs Facebook'；抄写员,logging,flume,scribe-server,Logging,Flume,Scribe Server,有没有人有机会在这两方面都努力？我需要建立一个框架来移动数据。基本上，我们有clickstream数据作为文本文件输入。这些数据需要从应用服务器移动到HDF，然后在存档后移动到S3 我需要帮助在水槽和划线器之间进行选择。在可管理性、设置和自定义方面，哪一个更好？查看发布的答案我会引用答案： Flume允许您从服务器配置Flume安装中心点，无需ssh到每台机器，更新配置变量并重新启动一两个守护进程。你可以开始，停止、创建、删除和重新配置任何计算机上的逻辑节点使用Flume从网络中的任何

有没有人有机会在这两方面都努力？我需要建立一个框架来移动数据。基本上，我们有clickstream数据作为文本文件输入。这些数据需要从应用服务器移动到HDF，然后在存档后移动到S3

我需要帮助在水槽和划线器之间进行选择。在可管理性、设置和自定义方面，哪一个更好？

查看发布的答案

我会引用答案：

Flume允许您从服务器配置Flume安装中心点，无需ssh到每台机器，更新配置变量并重新启动一两个守护进程。你可以开始，停止、创建、删除和重新配置任何计算机上的逻辑节点使用Flume从网络中的任何命令行运行Flume 罐子可用

水槽也有集中的活性监测。我们听到了一个消息关于抄写过程的两个故事默默地失败了，但是说谎了数日未被发现，直到其余的划线器安装在增加的负载下开始吱吱作响。水槽可以让你看到所有逻辑节点在一个位置的运行状况（请注意，这是与机器活动性监控不同；机器通常保持在进程可能失败时启动）

Flume支持三种不同类型的可靠性保证，允许您在资源使用和可靠性。特别是，水槽支持完全认可的可靠性，保证所有事件最终都会顺利进行通过事件流

Flume还具有很强的可扩展性——编写自己的Flume非常容易源或汇，并将大多数系统与水槽集成。如果滚动你自己的是不切实际的，拥有你的应用程序以Flume可以理解的形式输出事件（Flume 例如，可以运行Unix进程，因此如果可以使用shell脚本要获取您的数据，您是黄金）

这并不是使用Flume的全部好处，我还没有涉及使用装饰器进行轻量级转换或元数据提取、配置语言、运行能力单个水槽流程中的多个逻辑节点，自动扣带以及在HDFS中滚动日志文件。。。关于水槽还有很多我们期待着与大家分享

对我来说，关键的区别在于Cloudera积极支持水槽。虽然我通常相信Facebook会保持良好的开放性源项目，Cloudera的业务围绕提供支持而构建对于这样的工具，我相信Flume将长期使用得到更好的支持。我想尽量减少思考的时间这是一个特殊的问题。也就是说，到目前为止，我经历了很多令人讨厌的事情 Flume在抽象方面有点复杂，或者它的实现有缺陷，正如您可能从1.0之前的版本中所期望的那样技术如果Asana还没有进入测试阶段，我可能会选择抄写员