Java 在嵌套文件夹datalake gen2中查找最新文件

Java 在嵌套文件夹datalake gen2中查找最新文件,java,azure,azure-functions,azure-data-factory,azure-data-factory-pipeline,Java,Azure,Azure Functions,Azure Data Factory,Azure Data Factory Pipeline,我手动加载azure data lake Gen2中嵌套目录结构中的.csv文件,即 myfolder/yyyy/mm/dd/example.csv 我需要找到最新的文件,比如说有2020年和2021年,我已经在2020/MM/dd内复制了一次.csv文件,然后我需要首先检查2021是否存在-->进入该-->列出月份目录-->获取自上次复制以来的最近月份-->进入该列表并获取自上次复制以来的最近一天-->然后复制其中的.csv文件。 例如,我从2020文件夹复制,然后在2023年复制,然后我需要

我手动加载azure data lake Gen2中嵌套目录结构中的.csv文件,即

myfolder/yyyy/mm/dd/example.csv

我需要找到最新的文件,比如说有2020年和2021年,我已经在2020/MM/dd内复制了一次.csv文件,然后我需要首先检查2021是否存在-->进入该-->列出月份目录-->获取自上次复制以来的最近月份-->进入该列表并获取自上次复制以来的最近一天-->然后复制其中的.csv文件。

例如,我从2020文件夹复制,然后在2023年复制,然后我需要从年份开始在每个目录中复制2021/MM/dd和2022/MM/dd等,即2021年所有月份和日期,其中有数据,等等,从上次修改以来逐层复制

简而言之,从yyyy开始

  • 获取自上次拷贝以来的最新年份
  • 获取最近一个月的信息
  • 获取当月容器中的最新日期
  • 获取文件名并输出,以便进一步处理该文件

是否可以通过datafactory执行此操作,然后将嵌套结构中的输出文件/列表.ini/csv文件名提供给azure函数,以便我可以解析该文件?

我已测试过,根据我的经验,恐怕我们无法实现这一点。数据工厂更注重数据传输,而不是文件逻辑。