Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/sql/67.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何在Spark中创建hbase sequencefile密钥以加载到Bigtable?_Apache Spark_Hbase_Google Cloud Bigtable_Sequencefile - Fatal编程技术网

Apache spark 如何在Spark中创建hbase sequencefile密钥以加载到Bigtable?

Apache spark 如何在Spark中创建hbase sequencefile密钥以加载到Bigtable?,apache-spark,hbase,google-cloud-bigtable,sequencefile,Apache Spark,Hbase,Google Cloud Bigtable,Sequencefile,我希望能够轻松地创建测试数据文件,可以随意保存并重新加载到dev Bigtable实例中,并将其传递给团队的其他成员,以便他们也可以这样做。建议的使用方法似乎重量太重了——任何加载新类型数据的人都不是为了生产目的,即使只是第一次使用Bigtable,也需要了解Apache Beam、Dataflow、Java、,Maven???-这可能会限制我的团队采用Bigtable,而且我的数据还不在HBase中,所以我不能只导出sequencefile 但是,根据,HBase的sequencefile键似

我希望能够轻松地创建测试数据文件,可以随意保存并重新加载到dev Bigtable实例中,并将其传递给团队的其他成员,以便他们也可以这样做。建议的使用方法似乎重量太重了——任何加载新类型数据的人都不是为了生产目的,即使只是第一次使用Bigtable,也需要了解Apache Beam、Dataflow、Java、,Maven???-这可能会限制我的团队采用Bigtable,而且我的数据还不在HBase中,所以我不能只导出sequencefile

但是,根据,HBase的sequencefile键似乎应该可以在常规Java/Scala/Python代码中构造:

HBase键包括:行键、列族、列限定符、时间戳和类型

它只是没有足够的细节让我真正去做。键的不同部分之间存在什么分隔符?这是我的主要问题

从那以后,Spark至少有了一个方法,所以我认为我应该能够创建我想要的文件,只要我能够构造密钥


我知道中描述了一个替代方案,其示例链接被破坏,这将涉及编写脚本来启动Dataproc集群,将TSV文件推送到那里,并使用将数据推送到Bigtable。这对我来说似乎也太重了,但也许我还不习惯云世界

序列文件解决方案适用于需要从Cloud Bigtable导入和/或导出大型数据集的情况。如果您的文件足够小,则创建一个脚本,该脚本创建一个表,从文件中读取数据,并使用您喜欢的语言编写或写入到Cloud Bigtable