Kubernetes 在GCP中的Google Bucket上运行数据处理任务
我们的Google存储桶中有很多大文件(~GB)。我想处理这些文件并生成新文件。具体来说,这些是JSON文件,我想从中提取一个字段并将一些文件合并到一个字段中Kubernetes 在GCP中的Google Bucket上运行数据处理任务,kubernetes,google-cloud-platform,google-cloud-storage,Kubernetes,Google Cloud Platform,Google Cloud Storage,我们的Google存储桶中有很多大文件(~GB)。我想处理这些文件并生成新文件。具体来说,这些是JSON文件,我想从中提取一个字段并将一些文件合并到一个字段中 我可以在Kubernetes中编写一些以pod形式运行的脚本,这些脚本将连接到bucket并从那里流式传输数据。但我觉得这很难看——是否有专门针对桶中数据处理的东西?闻起来像是一个大数据问题 使用大数据软件,如处理大型文件。因为,数据在谷歌云中,我建议。此外,K8S上的大数据是在制品,建议暂时离开K8S。将来可能会在K8上使用大数据。更多
我可以在Kubernetes中编写一些以pod形式运行的脚本,这些脚本将连接到bucket并从那里流式传输数据。但我觉得这很难看——是否有专门针对桶中数据处理的东西?闻起来像是一个大数据问题 使用大数据软件,如处理大型文件。因为,数据在谷歌云中,我建议。此外,K8S上的大数据是在制品,建议暂时离开K8S。将来可能会在K8上使用大数据。更多关于K8S(和)大数据的信息 使用您的解决方案(使用K8S和手工代码),所有容错都必须手动处理。但是,在ApacheSpark的情况下,容错(节点宕机、网络故障等)是自动处理的
最后,我建议暂时忘掉K8S,专注于解决问题的大数据 闻起来像是一个大数据问题 使用大数据软件,如处理大型文件。因为,数据在谷歌云中,我建议。此外,K8S上的大数据是在制品,建议暂时离开K8S。将来可能会在K8上使用大数据。更多关于K8S(和)大数据的信息 使用您的解决方案(使用K8S和手工代码),所有容错都必须手动处理。但是,在ApacheSpark的情况下,容错(节点宕机、网络故障等)是自动处理的 最后,我建议暂时忘掉K8S,专注于解决问题的大数据