Amazon web services flink readCSV用“返回”;org.apache.flink.fs.s3base.shade.com.amazonaws.SdkClientException:等待池连接超时;

Amazon web services flink readCSV用“返回”;org.apache.flink.fs.s3base.shade.com.amazonaws.SdkClientException:等待池连接超时;,amazon-web-services,apache-flink,flink-batch,Amazon Web Services,Apache Flink,Flink Batch,我们使用Flink 1.9.0数据集API从Amazon S3 Bucket读取CSV文件。大多数情况下都面临连接池超时。 以下是Flink级别的配置 一次性从s3读取19708个对象,因为我们需要在整个数据集上应用逻辑。假设有20个源文件夹,例如(AAA、BBB、CCC)和多个子文件夹(AAA/4May2020/../../1.csv、AAA/4May2020/../../2.csv、AAA/3May2020/../1.csv、AAA/3May2020/../2.csv),在调用readCSV

我们使用Flink 1.9.0数据集API从Amazon S3 Bucket读取CSV文件。大多数情况下都面临连接池超时。 以下是Flink级别的配置

  • 一次性从s3读取19708个对象,因为我们需要在整个数据集上应用逻辑。假设有20个源文件夹,例如(AAA、BBB、CCC)和多个子文件夹(AAA/4May2020/../../1.csv、AAA/4May2020/../../2.csv、AAA/3May2020/../1.csv、AAA/3May2020/../2.csv),在调用readCSV之前,逻辑扫描文件夹,选择一个只有最新日期的文件夹并将其传递给读取。对于读取操作,我们使用并行度作为“5”。但当执行图形成时,所有20个源都聚集在一起

  • 在Kube Aws上运行,大约10 任务管理器托管在“m5.4X大型计算机”下。任务管理器 docker分配有“8”个内核和“50GB”内存

  • 以下是试图解决这个问题,但到目前为止没有运气。真的需要一些指针和帮助来解决这个问题

    • 启用了Flink重试机制,故障切换为“区域”,有时会进行重试。但即使重试,它也会间歇性失败
    • 根据AWS站点重新访问core-site.xml: fs.s3a.threads.max:3000,fs.s3a.connection.max:4500 还有谁能帮我回答以下问题吗

    • 是否仍要检查readCSV打开的HTTP连接
      关门了

    • 了解dataset ReadCSV如何运行的任何指针 会有帮助的
    • 有没有办法在测试之前引入等待机制 阅读
    • 有没有更好的办法来解决这个问题
    您能检查一下这是否对您有帮助吗?您能检查一下这是否对您有帮助吗?