Apache spark 如何在Spark中创建hbase sequencefile密钥以加载到Bigtable?
我希望能够轻松地创建测试数据文件,可以随意保存并重新加载到dev Bigtable实例中,并将其传递给团队的其他成员,以便他们也可以这样做。建议的使用方法似乎重量太重了——任何加载新类型数据的人都不是为了生产目的,即使只是第一次使用Bigtable,也需要了解Apache Beam、Dataflow、Java、,Maven???-这可能会限制我的团队采用Bigtable,而且我的数据还不在HBase中,所以我不能只导出sequencefile 但是,根据,HBase的sequencefile键似乎应该可以在常规Java/Scala/Python代码中构造: HBase键包括:行键、列族、列限定符、时间戳和类型 它只是没有足够的细节让我真正去做。键的不同部分之间存在什么分隔符?这是我的主要问题 从那以后,Spark至少有了一个方法,所以我认为我应该能够创建我想要的文件,只要我能够构造密钥Apache spark 如何在Spark中创建hbase sequencefile密钥以加载到Bigtable?,apache-spark,hbase,google-cloud-bigtable,sequencefile,Apache Spark,Hbase,Google Cloud Bigtable,Sequencefile,我希望能够轻松地创建测试数据文件,可以随意保存并重新加载到dev Bigtable实例中,并将其传递给团队的其他成员,以便他们也可以这样做。建议的使用方法似乎重量太重了——任何加载新类型数据的人都不是为了生产目的,即使只是第一次使用Bigtable,也需要了解Apache Beam、Dataflow、Java、,Maven???-这可能会限制我的团队采用Bigtable,而且我的数据还不在HBase中,所以我不能只导出sequencefile 但是,根据,HBase的sequencefile键似
我知道中描述了一个替代方案,其示例链接被破坏,这将涉及编写脚本来启动Dataproc集群,将TSV文件推送到那里,并使用将数据推送到Bigtable。这对我来说似乎也太重了,但也许我还不习惯云世界 序列文件解决方案适用于需要从Cloud Bigtable导入和/或导出大型数据集的情况。如果您的文件足够小,则创建一个脚本,该脚本创建一个表,从文件中读取数据,并使用您喜欢的语言编写或写入到Cloud Bigtable