Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
gpload实用程序:用于批量数据加载-将源hadoop加载到greenplum中_Hadoop_Greenplum - Fatal编程技术网

gpload实用程序:用于批量数据加载-将源hadoop加载到greenplum中

gpload实用程序:用于批量数据加载-将源hadoop加载到greenplum中,hadoop,greenplum,Hadoop,Greenplum,我们有小型Hadoop和greenplum集群。通过使用gpload merge语句,我们希望将Hadoop数据放入greenplum 请向流程提供建议。 问题: 我需要在基于Hadoop的Linux虚拟机上安装gpload实用程序吗 然后,我必须按固定的时间间隔安排基于合并的gpload脚本 是否可以通过仅在greenplum vm中运行gpload来摄取Hadoop文件 输入gpload.yml VERSION: 1.0.0.1 DATABASE: test USER: gpadmin HO

我们有小型Hadoop和greenplum集群。通过使用gpload merge语句,我们希望将Hadoop数据放入greenplum

请向流程提供建议。

问题:

  • 我需要在基于Hadoop的Linux虚拟机上安装gpload实用程序吗

  • 然后,我必须按固定的时间间隔安排基于合并的gpload脚本

  • 是否可以通过仅在greenplum vm中运行gpload来摄取Hadoop文件

    输入gpload.yml

    VERSION: 1.0.0.1
    DATABASE: test
    USER: gpadmin
    HOST: gpdbhostname
    PORT: 5432
    GPLOAD:
       INPUT:
        - SOURCE:
             LOCAL_HOSTNAME:
               - gpdbhostname
             PORT: 8080
             FILE:
               - /home/gpadmin/demo/input_table.txt
    
        - COLUMNS:
               - id: bigint
               - time: timestamp
    
        - FORMAT: text
        - DELIMITER: ';'
        - NULL_AS: ''
       OUTPUT:
        - TABLE: output_table
        - MODE: merge
        - MATCH_COLUMNS:
               - id
        - UPDATE_COLUMNS:
               - time
    ~
    
  • 在这种情况下,如果我想通过gpload合并脚本将源hdfs csv文件写入greenplum常规表,那么我的gpload.yml将是什么


  • 最后一个波浪号(
    ~
    )相当于使文件无效的YAML的
    Null
    标量。这是一个复制/粘贴错误吗?使用gphdfs的外部表从Hadoop中读取数据,然后使用DELETE和INSERT写入合并将更快更容易。使用DELETE和INSERT合并?你能告诉我这一点吗?我们想对任何源使用gpload合并,包括Hadoop在内gpdb@JonRoberts我想做增量加载。如何检查源中哪些列正在更改。当我无法访问CDC等。