Google cloud platform 谷歌云存储中的Concat Avro文件
我在谷歌云存储中有一些大的Google cloud platform 谷歌云存储中的Concat Avro文件,google-cloud-platform,google-cloud-storage,avro,gsutil,avro-tools,Google Cloud Platform,Google Cloud Storage,Avro,Gsutil,Avro Tools,我在谷歌云存储中有一些大的.avro文件,我想把它们都放在一个文件中 我得到 java-jar avro-tools.jar concat 但是,由于我的文件位于google存储路径:gs://files.avro我无法使用avro工具对其进行压缩。关于如何解决它有什么建议吗?您可以使用该命令。例如: gsutil compose gs://bucket/obj1 [gs://bucket/obj2 ...] gs://bucket/composite 注意:对于非常大的文件和/或非常低的每台
.avro
文件,我想把它们都放在一个文件中
我得到
java-jar avro-tools.jar concat
但是,由于我的文件位于google存储路径:gs://files.avro
我无法使用avro工具对其进行压缩。关于如何解决它有什么建议吗?您可以使用该命令。例如:
gsutil compose gs://bucket/obj1 [gs://bucket/obj2 ...] gs://bucket/composite
注意:对于非常大的文件和/或非常低的每台计算机带宽,您可能希望拆分文件并从多台计算机上载,然后手动合成文件的这些部分
在我的例子中,我用以下值对它进行了测试:foo.txt包含一个单词Hello和bar.txt包含一个单词World。运行此命令:
gsutil compose gs://bucket/foo.txt gs://bucket/bar.txt gs://bucket/baz.txt
baz.txt将返回:
Hello
World
注:地面军事系统不支持桶间合成
万一您遇到关于的异常错误,请运行
gsutil help crcmod
获取有关如何修复的说明。这是一个非常好的选项!但是,它对avro有用吗?(由于标题的原因)目前还没有任何允许您跳过标题的标志,为此,您可能需要编写自己的应用程序来处理连接。其他人已经用csv在他们的用例上完成了这项工作。