Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/ssh/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Google bigquery Google BigQuery支持拼花文件格式吗?_Google Bigquery_Parquet - Fatal编程技术网

Google bigquery Google BigQuery支持拼花文件格式吗?

Google bigquery Google BigQuery支持拼花文件格式吗?,google-bigquery,parquet,Google Bigquery,Parquet,我想知道Google BigQuery目前是否支持,或者是否有计划支持它 我知道它目前支持CSV和JSON格式。目前BigQuery不支持拼花文件格式。然而,我们有兴趣听到更多关于您的用例的信息-您对导入、导出或两者都感兴趣吗?你打算如何使用它?更好地理解这些场景将有助于BigQuery团队进行相应的规划。如果您想在BigQuery和Hadoop之间共享文件格式,可以使用换行分隔的JSON记录 BigQuery支持导入和导出 Hadoop也支持这一点。在互联网上搜索,可以找到许多显示使其发挥作用

我想知道Google BigQuery目前是否支持,或者是否有计划支持它


我知道它目前支持CSV和JSON格式。

目前BigQuery不支持拼花文件格式。然而,我们有兴趣听到更多关于您的用例的信息-您对导入、导出或两者都感兴趣吗?你打算如何使用它?更好地理解这些场景将有助于BigQuery团队进行相应的规划。

如果您想在BigQuery和Hadoop之间共享文件格式,可以使用换行分隔的JSON记录

BigQuery支持导入和导出


Hadoop也支持这一点。在互联网上搜索,可以找到许多显示使其发挥作用的方法的热门作品。这里有一个:

***自2018年3月1日起,对的支持可用。

在BigQuery CLI中,有
--source\u format PARQUET
选项,该选项在
bq--help
的输出中描述

我从来没有使用过它,因为当我尝试这个功能时,它仍然是仅邀请,而我没有请求邀请

我的用例是拼花地板文件的大小是Avro文件的一半。我想尝试一些新的东西并高效地上传数据(按此顺序)


当您处理数亿行并需要将数据移动到本地Hadoop集群时,这就是,从bigQuery导出json是不可行的选项,avro也不是更好,目前这种数据移动的唯一有效选项是gz,不幸的是gz无法在Hadoop中本机读取,Larquet是该用例的唯一有效方法,我们没有任何其他有效选项

Eample(部分-*是这里的秘方):


谢谢你的快速回复!我目前没有任何特定的用例。我们目前正在将CSV文件导入BigQuery,我想知道如果我们将格式更改为Parquet,它是否仍然有效。将文件存储在拼花地板或ORC中将使我们能够灵活地在Hadoop中以比CSV文件更快的方式分析文件。感谢您的请求。我已经打开了一个添加拼花地板的功能请求。请在那里添加您的用例。它将帮助我们评估外部利益。这里是:您得到的错误是“未启用”。在本期中,我看到有人提到项目能够使用此功能。也许这只是一个“beta”特性的问题,需要为您的实验启用。为了补充这个答案:如果我们使用“WriterVersion Parquet_1_0”版本,Parquet可以正确加载到BigQuery中。如果相反,拼花文件使用拼花_2_0,则无法将拼花加载到BigQuery中:
% bq load --source_format PARQUET test.test3 data.avro.parquet schema.json 
Upload complete.
Waiting on bqjob_r5b8a2b16d964eef7_0000015b0690a06a_1 ... (0s) Current 
status: DONE   
[...]
bq load --source_format=PARQUET --replace=true abc.def gs://abc/def/part-*