Apache spark 如何在Spark中创建hbase sequencefile密钥以加载到Bigtable？_Apache Spark_Hbase_Google Cloud Bigtable_Sequencefile

Apache spark 如何在Spark中创建hbase sequencefile密钥以加载到Bigtable？

apache-spark hbase

Apache spark 如何在Spark中创建hbase sequencefile密钥以加载到Bigtable？,apache-spark,hbase,google-cloud-bigtable,sequencefile,Apache Spark,Hbase,Google Cloud Bigtable,Sequencefile,我希望能够轻松地创建测试数据文件，可以随意保存并重新加载到dev Bigtable实例中，并将其传递给团队的其他成员，以便他们也可以这样做。建议的使用方法似乎重量太重了——任何加载新类型数据的人都不是为了生产目的，即使只是第一次使用Bigtable，也需要了解Apache Beam、Dataflow、Java、，Maven？？？-这可能会限制我的团队采用Bigtable，而且我的数据还不在HBase中，所以我不能只导出sequencefile 但是，根据，HBase的sequencefile键似

我希望能够轻松地创建测试数据文件，可以随意保存并重新加载到dev Bigtable实例中，并将其传递给团队的其他成员，以便他们也可以这样做。建议的使用方法似乎重量太重了——任何加载新类型数据的人都不是为了生产目的，即使只是第一次使用Bigtable，也需要了解Apache Beam、Dataflow、Java、，Maven？？？-这可能会限制我的团队采用Bigtable，而且我的数据还不在HBase中，所以我不能只导出sequencefile

但是，根据，HBase的sequencefile键似乎应该可以在常规Java/Scala/Python代码中构造：

HBase键包括：行键、列族、列限定符、时间戳和类型

它只是没有足够的细节让我真正去做。键的不同部分之间存在什么分隔符？这是我的主要问题

从那以后，Spark至少有了一个方法，所以我认为我应该能够创建我想要的文件，只要我能够构造密钥

我知道中描述了一个替代方案，其示例链接被破坏，这将涉及编写脚本来启动Dataproc集群，将TSV文件推送到那里，并使用将数据推送到Bigtable。这对我来说似乎也太重了，但也许我还不习惯云世界

序列文件解决方案适用于需要从Cloud Bigtable导入和/或导出大型数据集的情况。如果您的文件足够小，则创建一个脚本，该脚本创建一个表，从文件中读取数据，并使用您喜欢的语言编写或写入到Cloud Bigtable