Amazon web services flink readCSV用“返回”；org.apache.flink.fs.s3base.shade.com.amazonaws.SdkClientException:等待池连接超时；_Amazon Web Services_Apache Flink_Flink Batch

Amazon web services flink readCSV用“返回”；org.apache.flink.fs.s3base.shade.com.amazonaws.SdkClientException:等待池连接超时；

amazon-web-services apache-flink

Amazon web services flink readCSV用“返回”；org.apache.flink.fs.s3base.shade.com.amazonaws.SdkClientException:等待池连接超时；,amazon-web-services,apache-flink,flink-batch,Amazon Web Services,Apache Flink,Flink Batch,我们使用Flink 1.9.0数据集API从Amazon S3 Bucket读取CSV文件。大多数情况下都面临连接池超时。以下是Flink级别的配置一次性从s3读取19708个对象，因为我们需要在整个数据集上应用逻辑。假设有20个源文件夹，例如（AAA、BBB、CCC）和多个子文件夹（AAA/4May2020/../../1.csv、AAA/4May2020/../../2.csv、AAA/3May2020/../1.csv、AAA/3May2020/../2.csv），在调用readCSV

我们使用Flink 1.9.0数据集API从Amazon S3 Bucket读取CSV文件。大多数情况下都面临连接池超时。以下是Flink级别的配置

一次性从s3读取19708个对象，因为我们需要在整个数据集上应用逻辑。假设有20个源文件夹，例如（AAA、BBB、CCC）和多个子文件夹（AAA/4May2020/../../1.csv、AAA/4May2020/../../2.csv、AAA/3May2020/../1.csv、AAA/3May2020/../2.csv），在调用readCSV之前，逻辑扫描文件夹，选择一个只有最新日期的文件夹并将其传递给读取。对于读取操作，我们使用并行度作为“5”。但当执行图形成时，所有20个源都聚集在一起

在Kube Aws上运行，大约10 任务管理器托管在“m5.4X大型计算机”下。任务管理器 docker分配有“8”个内核和“50GB”内存

以下是试图解决这个问题，但到目前为止没有运气。真的需要一些指针和帮助来解决这个问题

启用了Flink重试机制，故障切换为“区域”，有时会进行重试。但即使重试，它也会间歇性失败
根据AWS站点重新访问core-site.xml： fs.s3a.threads.max：3000，fs.s3a.connection.max：4500 还有谁能帮我回答以下问题吗
是否仍要检查readCSV打开的HTTP连接
关门了
了解dataset ReadCSV如何运行的任何指针会有帮助的
有没有办法在测试之前引入等待机制阅读
有没有更好的办法来解决这个问题

您能检查一下这是否对您有帮助吗？您能检查一下这是否对您有帮助吗？