Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Google cloud platform GCP Cloud Composer-无法将大型文件下载到数据文件夹_Google Cloud Platform_Download_Airflow_Google Cloud Composer_Gcsfuse - Fatal编程技术网

Google cloud platform GCP Cloud Composer-无法将大型文件下载到数据文件夹

Google cloud platform GCP Cloud Composer-无法将大型文件下载到数据文件夹,google-cloud-platform,download,airflow,google-cloud-composer,gcsfuse,Google Cloud Platform,Download,Airflow,Google Cloud Composer,Gcsfuse,每周我都要从ftp服务器下载一个文件到GCS bucket,然后将该文件从GCS bucket导入到BigQuery。我开始在GCP Cloud Composer中实现这个数据流作业 我将数据流分为三个任务 从ftp服务器下载文件并将其存储在Cloud Composer数据文件夹中。(/home/aiffair/gcs/data) 将文件从Cloud Composer数据文件夹移动到GCS存储桶 将数据从GCS bucket导入BigQuery 我在将文件从ftp服务器下载到Cloud Co

每周我都要从ftp服务器下载一个文件到GCS bucket,然后将该文件从GCS bucket导入到BigQuery。我开始在GCP Cloud Composer中实现这个数据流作业

我将数据流分为三个任务

  • 从ftp服务器下载文件并将其存储在Cloud Composer数据文件夹中。(
    /home/aiffair/gcs/data
  • 将文件从Cloud Composer数据文件夹移动到GCS存储桶
  • 将数据从GCS bucket导入BigQuery
我在将文件从ftp服务器下载到Cloud Composer数据文件夹时遇到问题。文件的大约大小为20 Gb。我使用
wget
命令下载该文件,确切的命令是
wget-c“remote\u file\u path”-P“/home/aiffair/gcs/data”
。任务启动正常,但30分钟后失败,数据文件夹中的文件大小反映为零字节。我检查了日志,没有发现任何错误。

我用同样的方法处理了另一个1Gb大小的文件,效果很好

我还尝试了使用
SFTPOperation
,运行一小时后,我收到错误消息说
密钥交换在等待密钥协商时超时

请帮我弄清楚这件事。我还欢迎其他解决方案来实现此数据流。


谢谢。

更新Cloud Composer环境为我们解决了这个问题

对于大于大约1GB的文件,我们遇到了类似的问题。任务在30分钟后失败,并且/data文件夹中的文件大小为0字节

我们使用的是CloudComposer版本1.12.3。发行说明(版本1.12.5)中提到:

改进的GCSF使用稳定性来解决间歇性问题 装载的目录不可用


因此,我们已将Cloud Composer实例更新为1.13.0版,似乎解决了问题。

Krijan answer似乎达到了目标。Composer>=1.12.1版本中的GCSfuse存在一些已知问题(装载的目录暂时不可用-导致气流中的输入/输出错误;复制大型文件时出现问题,导致OOM死机)。更新确实可以解决此问题。