gpload实用程序:用于批量数据加载-将源hadoop加载到greenplum中
我们有小型Hadoop和greenplum集群。通过使用gpload merge语句,我们希望将Hadoop数据放入greenplum 请向流程提供建议。 问题:gpload实用程序:用于批量数据加载-将源hadoop加载到greenplum中,hadoop,greenplum,Hadoop,Greenplum,我们有小型Hadoop和greenplum集群。通过使用gpload merge语句,我们希望将Hadoop数据放入greenplum 请向流程提供建议。 问题: 我需要在基于Hadoop的Linux虚拟机上安装gpload实用程序吗 然后,我必须按固定的时间间隔安排基于合并的gpload脚本 是否可以通过仅在greenplum vm中运行gpload来摄取Hadoop文件 输入gpload.yml VERSION: 1.0.0.1 DATABASE: test USER: gpadmin HO
VERSION: 1.0.0.1
DATABASE: test
USER: gpadmin
HOST: gpdbhostname
PORT: 5432
GPLOAD:
INPUT:
- SOURCE:
LOCAL_HOSTNAME:
- gpdbhostname
PORT: 8080
FILE:
- /home/gpadmin/demo/input_table.txt
- COLUMNS:
- id: bigint
- time: timestamp
- FORMAT: text
- DELIMITER: ';'
- NULL_AS: ''
OUTPUT:
- TABLE: output_table
- MODE: merge
- MATCH_COLUMNS:
- id
- UPDATE_COLUMNS:
- time
~
最后一个波浪号(
~
)相当于使文件无效的YAML的Null
标量。这是一个复制/粘贴错误吗?使用gphdfs的外部表从Hadoop中读取数据,然后使用DELETE和INSERT写入合并将更快更容易。使用DELETE和INSERT合并?你能告诉我这一点吗?我们想对任何源使用gpload合并,包括Hadoop在内gpdb@JonRoberts我想做增量加载。如何检查源中哪些列正在更改。当我无法访问CDC等。