Google cloud platform GCP Cloud Composer-无法将大型文件下载到数据文件夹
每周我都要从ftp服务器下载一个文件到GCS bucket,然后将该文件从GCS bucket导入到BigQuery。我开始在GCP Cloud Composer中实现这个数据流作业Google cloud platform GCP Cloud Composer-无法将大型文件下载到数据文件夹,google-cloud-platform,download,airflow,google-cloud-composer,gcsfuse,Google Cloud Platform,Download,Airflow,Google Cloud Composer,Gcsfuse,每周我都要从ftp服务器下载一个文件到GCS bucket,然后将该文件从GCS bucket导入到BigQuery。我开始在GCP Cloud Composer中实现这个数据流作业 我将数据流分为三个任务 从ftp服务器下载文件并将其存储在Cloud Composer数据文件夹中。(/home/aiffair/gcs/data) 将文件从Cloud Composer数据文件夹移动到GCS存储桶 将数据从GCS bucket导入BigQuery 我在将文件从ftp服务器下载到Cloud Co
我将数据流分为三个任务
- 从ftp服务器下载文件并将其存储在Cloud Composer数据文件夹中。(
)/home/aiffair/gcs/data
- 将文件从Cloud Composer数据文件夹移动到GCS存储桶
- 将数据从GCS bucket导入BigQuery
wget
命令下载该文件,确切的命令是wget-c“remote\u file\u path”-P“/home/aiffair/gcs/data”
。任务启动正常,但30分钟后失败,数据文件夹中的文件大小反映为零字节。我检查了日志,没有发现任何错误。我用同样的方法处理了另一个1Gb大小的文件,效果很好
我还尝试了使用
SFTPOperation
,运行一小时后,我收到错误消息说密钥交换在等待密钥协商时超时
请帮我弄清楚这件事。我还欢迎其他解决方案来实现此数据流。
谢谢。更新Cloud Composer环境为我们解决了这个问题 对于大于大约1GB的文件,我们遇到了类似的问题。任务在30分钟后失败,并且/data文件夹中的文件大小为0字节 我们使用的是CloudComposer版本1.12.3。发行说明(版本1.12.5)中提到: 改进的GCSF使用稳定性来解决间歇性问题 装载的目录不可用
因此,我们已将Cloud Composer实例更新为1.13.0版,似乎解决了问题。Krijan answer似乎达到了目标。Composer>=1.12.1版本中的GCSfuse存在一些已知问题(装载的目录暂时不可用-导致气流中的输入/输出错误;复制大型文件时出现问题,导致OOM死机)。更新确实可以解决此问题。