Kubernetes 在GCP中的Google Bucket上运行数据处理任务_Kubernetes_Google Cloud Platform_Google Cloud Storage

Kubernetes 在GCP中的Google Bucket上运行数据处理任务

kubernetes google-cloud-platform google-cloud-storage

Kubernetes 在GCP中的Google Bucket上运行数据处理任务,kubernetes,google-cloud-platform,google-cloud-storage,Kubernetes,Google Cloud Platform,Google Cloud Storage,我们的Google存储桶中有很多大文件（~GB）。我想处理这些文件并生成新文件。具体来说，这些是JSON文件，我想从中提取一个字段并将一些文件合并到一个字段中我可以在Kubernetes中编写一些以pod形式运行的脚本，这些脚本将连接到bucket并从那里流式传输数据。但我觉得这很难看——是否有专门针对桶中数据处理的东西？闻起来像是一个大数据问题使用大数据软件，如处理大型文件。因为，数据在谷歌云中，我建议。此外，K8S上的大数据是在制品，建议暂时离开K8S。将来可能会在K8上使用大数据。更多

我们的Google存储桶中有很多大文件（~GB）。我想处理这些文件并生成新文件。具体来说，这些是JSON文件，我想从中提取一个字段并将一些文件合并到一个字段中

我可以在Kubernetes中编写一些以pod形式运行的脚本，这些脚本将连接到bucket并从那里流式传输数据。但我觉得这很难看——是否有专门针对桶中数据处理的东西？

闻起来像是一个大数据问题

使用大数据软件，如处理大型文件。因为，数据在谷歌云中，我建议。此外，K8S上的大数据是在制品，建议暂时离开K8S。将来可能会在K8上使用大数据。更多关于K8S（和）大数据的信息

使用您的解决方案（使用K8S和手工代码），所有容错都必须手动处理。但是，在ApacheSpark的情况下，容错（节点宕机、网络故障等）是自动处理的

最后，我建议暂时忘掉K8S，专注于解决问题的大数据

闻起来像是一个大数据问题

使用您的解决方案（使用K8S和手工代码），所有容错都必须手动处理。但是，在ApacheSpark的情况下，容错（节点宕机、网络故障等）是自动处理的

最后，我建议暂时忘掉K8S，专注于解决问题的大数据