Apache camel 如何将磁盘上的大量文件移动到HDFS序列文件

Apache camel 如何将磁盘上的大量文件移动到HDFS序列文件,apache-camel,hdfs,flume,Apache Camel,Hdfs,Flume,我想将大量小文件移动到HDFS序列文件。我有两种选择: 使用水槽。Flume没有内置的文件源,这需要自定义源来推送文件 使用apachecamel文件进行hdfs路由 尽管上述两种方法都能达到目的,但在选择一种方法之前,我想权衡一下其他可用的方法。我特别感兴趣的是一种更具可配置性的解决方案,它会导致更少的代码可维护性。看起来像是用Camel编写的几行代码。i、 e.从(“文件:/…”)到(“hdfs:…”再加上一些初始化和项目设置 不确定使用任何方法都能轻松多少(代码行数更少) 如果Camel中

我想将大量小文件移动到HDFS序列文件。我有两种选择:

  • 使用水槽。Flume没有内置的文件源,这需要自定义源来推送文件
  • 使用apachecamel文件进行hdfs路由

  • 尽管上述两种方法都能达到目的,但在选择一种方法之前,我想权衡一下其他可用的方法。我特别感兴趣的是一种更具可配置性的解决方案,它会导致更少的代码可维护性。

    看起来像是用Camel编写的几行代码。i、 e.
    从(“文件:/…”)到(“hdfs:…”
    再加上一些初始化和项目设置

    不确定使用任何方法都能轻松多少(代码行数更少)


    如果Camel中的配置和灵活性足够,那么我想这种方法是最好的。应该只需要几个小时(甚至几分钟)就可以启动并运行一些测试用例。

    看起来像是用Camel编写的几行代码。i、 e.
    从(“文件:/…”)到(“hdfs:…”
    再加上一些初始化和项目设置

    不确定使用任何方法都能轻松多少(代码行数更少)

    如果Camel中的配置和灵活性足够,那么我想这种方法是最好的。您只需要几个小时(甚至几分钟)就可以启动并运行一些测试用例

    使用水槽。Flume没有内置的文件源,这需要自定义源来推送文件

    嗯。。。不,那不对。水槽有一个可以达到你想要的高水平

    使用水槽。Flume没有内置的文件源,这需要自定义源来推送文件


    嗯。。。不,那不对。Flume有一个可以满足您需要的高级功能。

    谢谢。camel hdfs确实有助于移动文件。让我远离camel hdfs的两个原因是缺少对snappy压缩的支持,我们可能在异常关机时处于不一致的状态。我正在寻找来自SO用户的其他想法来权衡选择。我还研究了一种可能比编码、构建、维护和重建更具可配置性的方法,以便分析员和hadoop管理员能够处理任务,比如flume代理上的配置文件。如果构建新代码是更好的选择,我并不反对。谢谢。camel hdfs确实有助于移动文件。让我远离camel hdfs的两个原因是缺少对snappy压缩的支持,我们可能在异常关机时处于不一致的状态。我正在寻找来自SO用户的其他想法来权衡选择。我还研究了一种可能比编码、构建、维护和重建更具可配置性的方法,以便分析员和hadoop管理员能够处理任务,比如flume代理上的配置文件。如果这是一个更好的选择,我并不反对构建新代码。谢谢你给我指出这一点。我去看看。我想,我上一次查看flume源代码是很久以前的事了。看起来这个解决方案不适合移动非常大的文件,因为它不是流。你说的“不是流”是什么意思。你想让它做什么,但它不能做什么?想移动每个大小为120gb的文件。谢谢你告诉我。我去看看。我想,我上一次查看flume源代码是很久以前的事了。看起来这个解决方案不适合移动非常大的文件,因为它不是流。你说的“不是流”是什么意思。你想让它做什么而它不能做?想移动每个大小为120gb的文件。