Couchbase到本地文件导出

Couchbase到本地文件导出,couchbase,sqoop2,sqoop,Couchbase,Sqoop2,Sqoop,我需要将couchbase数据迁移到HDFS中,但db和Hadoop集群彼此无法访问。因此,我不能以推荐的方式使用sqoop。是否有一种方法可以使用sqoop将couchbase数据导入本地文件而不是HDF。如果可能,我可以这样做,然后使用ftp传输本地文件,然后再次使用sqoop将它们传输到HDFS 如果这是一个糟糕的解决方案,那么是否有其他方法可以传输本地文件中的所有cb数据。在这个cb集群上创建视图是一项困难的任务,我希望避免使用它。替代解决方案可能没有那么优雅,但它可以工作: 使用Cou

我需要将couchbase数据迁移到HDFS中,但db和Hadoop集群彼此无法访问。因此,我不能以推荐的方式使用sqoop。是否有一种方法可以使用sqoop将couchbase数据导入本地文件而不是HDF。如果可能,我可以这样做,然后使用ftp传输本地文件,然后再次使用sqoop将它们传输到HDFS


如果这是一个糟糕的解决方案,那么是否有其他方法可以传输本地文件中的所有cb数据。在这个cb集群上创建视图是一项困难的任务,我希望避免使用它。

替代解决方案可能没有那么优雅,但它可以工作:

使用Couchbase备份实用程序:cbbackup并本地保存所有数据。 将备份文件传输到HDFS可访问的网络主机。 在可访问HDFS的网段中安装Couchbase,并使用Couchbase restore from backup过程填充该实例。 以推荐的方式对可以访问HDFS的Couchbase实例使用Scoop。
您可以使用Couchbase安装附带的cbbackup实用程序将所有数据导出到备份文件。默认情况下,备份实际上是以SQLite格式存储的,因此您可以将它们移动到Hadoop集群中,然后使用任何JDBC SQLite驱动程序分别使用Sqoop从每个*.cbb文件导入数据。我之前写过一篇关于这个的文章,你可以看看


为了让你开始,这里有一个

您可以使用couchbase-kafka适配器将数据从couchbase流式传输到kafka,从kafka流式传输到您喜欢的任何文件系统。CouchbaseKafka适配器使用TAP协议将数据推送到kafka


这似乎是一个非常可能的解决方案:谢谢你的建议。一个问题;cbbackup如何处理复制副本?换句话说,如果我们从所有节点获取cbbackup,它将包含同一数据的多个副本还是在内部计算出来?否,cbbackup只导出活动数据而忽略副本。