Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Google cloud platform 谷歌云数据目录可以用作Dataproc(Spark/Hive/Presto)和GCS文件的元数据存储库吗?_Google Cloud Platform_Google Cloud Storage_Google Cloud Dataproc_Google Data Catalog - Fatal编程技术网

Google cloud platform 谷歌云数据目录可以用作Dataproc(Spark/Hive/Presto)和GCS文件的元数据存储库吗?

Google cloud platform 谷歌云数据目录可以用作Dataproc(Spark/Hive/Presto)和GCS文件的元数据存储库吗?,google-cloud-platform,google-cloud-storage,google-cloud-dataproc,google-data-catalog,Google Cloud Platform,Google Cloud Storage,Google Cloud Dataproc,Google Data Catalog,我们正在使用MySQL(云SQL)作为Dataproc的元数据存储库。这不会存储不属于配置单元外部表的GCS文件的任何信息 有谁能建议在Google Cloud的一个目录中存储所有文件/数据详细信息的最佳方法吗?Google Cloud data catalog beta不适用于GCS或Hive Metastore。看到这个了吗 标记云存储资产(例如,存储桶和对象)在Data Catalog beta版本中不可用 但它与BigQuery一起工作,请参见此示例。dvorzhak 数据目录: 他们还

我们正在使用MySQL(云SQL)作为Dataproc的元数据存储库。这不会存储不属于配置单元外部表的GCS文件的任何信息


有谁能建议在Google Cloud的一个目录中存储所有文件/数据详细信息的最佳方法吗?

Google Cloud data catalog beta不适用于GCS或Hive Metastore。看到这个了吗

标记云存储资产(例如,存储桶和对象)在Data Catalog beta版本中不可用

但它与BigQuery一起工作,请参见此示例。

dvorzhak

数据目录:

他们还更新了文件集的文档:

另外,如果您想为每个云存储对象创建数据目录资产,您可以使用此开源脚本:它有一个为您的文件创建条目的选项


最后还有一个问题,如果您想将配置单元数据库/表摄取到数据目录中。

您正在尝试在Google Cloud中存储配置单元表的元数据?我是Cloud sql中的字符串配置单元/火花元数据。但是现在无法存储gcs文件(不属于配置单元外部表的一部分)的元数据没有在这些gcs文件上创建配置单元外部表的具体原因是什么?您始终可以将元数据构造为查询并存储在关系数据库中。但是创建配置单元外部表很容易。用于任何转换的文件都创建了外部表,并在数据处理过程中使用。但是我们从上游获取的文件,它们只是在大查询中加载,没有创建外部表。文件到达和加载之间存在延迟。我想要像胶水这样可以使用的东西。该元数据将用于我们接收或生成的所有数据集。