Hive 将数据从配置单元表复制到Bigquery的推荐方法是什么

Hive 将数据从配置单元表复制到Bigquery的推荐方法是什么,hive,google-cloud-platform,google-bigquery,orc,Hive,Google Cloud Platform,Google Bigquery,Orc,我见过 但distcp的问题是,它会将数据从hdfs移动到gs..并且我的表是ORC格式的。此外,到目前为止,bigquery声称只支持JSON、CSV和AVRO 所以需要帮助将数据从配置单元表(ORC格式)传输到BigQuery(任何格式)正如Elliot所提到的,ORC不受支持。因此,您必须将ORC数据转换为您提到的3种格式之一。 我个人更喜欢Avro,因为这种序列化比JSON或CSV更健壮 因此,接下来的过程是: 使用正确的数据类型创建BQ表(第一步需要完成,以确保使用一些Avro逻辑类

我见过

但distcp的问题是,它会将数据从hdfs移动到gs..并且我的表是ORC格式的。此外,到目前为止,bigquery声称只支持JSON、CSV和AVRO


所以需要帮助将数据从配置单元表(ORC格式)传输到BigQuery(任何格式)

正如Elliot所提到的,ORC不受支持。因此,您必须将ORC数据转换为您提到的3种格式之一。 我个人更喜欢Avro,因为这种序列化比JSON或CSV更健壮

因此,接下来的过程是:

  • 使用正确的数据类型创建BQ表(第一步需要完成,以确保使用一些Avro逻辑类型(如时间戳)进行正确的转换)
  • 启动配置单元查询以生成Avro格式的数据。看
  • disctp到谷歌云存储
  • “bq加载”到您的表中
  • 通过比较Hive和BigQuery上的表是否具有相同的数据,检查您是否没有犯任何错误:

  • orc是受支持的,您可以轻松地从GCP控制台创建表

    我已经做到了

    注意:在配置单元表的情况下,orc文件中从未提及表的架构,因此在上传时,您将获得如下图所示的列名。创建表后,需要重命名和更新列名。


    您可以添加一条评论,要求在该评论可用时被列入白名单。在此之前,您最好的选择可能只是转换为受支持的格式。今天早上我刚刚更新了我的gcloud堆栈,我在发行说明中看到了这条说明:“BigQuery▪ 添加了将ORC文件导入BigQuery的实验支持。“。所以它似乎比我预期的来得早这听起来很有希望。。谢谢你的回复。如果有帮助的话,请考虑接受/接受这个答案。