Hadoop 如何将数据从生产群集传输到datalab群集以进行实时数据分析?

Hadoop 如何将数据从生产群集传输到datalab群集以进行实时数据分析?,hadoop,bigdata,mapr,Hadoop,Bigdata,Mapr,我们正在使用mapr,我们想部署一个新的(datalab)集群,我想问一下将数据从生产集群传输到datalab集群的最佳方式是什么 我们在两个集群之间使用镜像,但使用此选项,我们只能读取数据实验室中的数据,因此我们如何实时传输数据 如果您只想要一个FS.a==>FS.b“实时”管道,我知道最好的选择是ApacheNIFI或Streamset,因为不需要编码 Flume可能是另一种选择,因为它已经在大多数Hadoop供应商环境中可用 如果你更倾向于开发,你可以使用Spark或Flink 是故障安全

我们正在使用mapr,我们想部署一个新的(datalab)集群,我想问一下将数据从生产集群传输到datalab集群的最佳方式是什么


我们在两个集群之间使用镜像,但使用此选项,我们只能读取数据实验室中的数据,因此我们如何实时传输数据

如果您只想要一个FS.a==>FS.b“实时”管道,我知道最好的选择是ApacheNIFI或Streamset,因为不需要编码

Flume可能是另一种选择,因为它已经在大多数Hadoop供应商环境中可用

如果你更倾向于开发,你可以使用Spark或Flink


是故障安全解决方案

如果您只想要一个FS.a==>FS.b“实时”管道,我知道最好的选择是ApacheNIFI或Streamset,因为不需要编码

Flume可能是另一种选择,因为它已经在大多数Hadoop供应商环境中可用

如果你更倾向于开发,你可以使用Spark或Flink


是故障安全解决方案

您可以使用以下选项:

  • 但是在同一个系统中支持某些协议

  • 如果您正在使用hbase,则可以使用快照功能

  • 或者,您可以使用数据库实用程序创建转储 例如,如果您使用的是mysql,那么就使用
    mysqldump-u[username]-p
    [pass][dbname]|gzip>file.sql.gz
    然后您可以将其移动到其他服务器
    scp username@://file.sql.gz/

  • 或者,您可以使用ApacheFalcon,它使用oozie工作流进行复制 集群之间的数据。您可以设置一次性工作流并执行 它


您可以使用以下选项:

  • 但是在同一个系统中支持某些协议

  • 如果您正在使用hbase,则可以使用快照功能

  • 或者,您可以使用数据库实用程序创建转储 例如,如果您使用的是mysql,那么就使用
    mysqldump-u[username]-p
    [pass][dbname]|gzip>file.sql.gz
    然后您可以将其移动到其他服务器
    scp username@://file.sql.gz/

  • 或者,您可以使用ApacheFalcon,它使用oozie工作流进行复制 集群之间的数据。您可以设置一次性工作流并执行 它