Pyspark 通过使用凭证传递的Azure Datatricks中的python脚本查找Azure Datalake中文件/文件夹的上次修改时间戳

Pyspark 通过使用凭证传递的Azure Datatricks中的python脚本查找Azure Datalake中文件/文件夹的上次修改时间戳,pyspark,azure-data-lake,azure-blob-storage,azure-databricks,Pyspark,Azure Data Lake,Azure Blob Storage,Azure Databricks,我有一个Azure DataLake存储Gen2,其中包含一些拼花文件。我的组织已启用凭据传递,因此我能够在Azure DataRicks中创建python脚本,并使用dbutils.fs.ls访问ADL中可用的文件。所有这些都很好 现在,我还需要访问这些文件最后修改的时间戳。我找到了一个可以这样做的。但是,它使用BlockBlobService并需要帐户密钥 我没有帐户密钥,由于组织的安全策略,无法获取帐户密钥。我不确定如何使用凭证传递进行同样的操作。有什么想法吗?您可以尝试通过凭证挂载Azu

我有一个Azure DataLake存储Gen2,其中包含一些拼花文件。我的组织已启用凭据传递,因此我能够在Azure DataRicks中创建python脚本,并使用dbutils.fs.ls访问ADL中可用的文件。所有这些都很好

现在,我还需要访问这些文件最后修改的时间戳。我找到了一个可以这样做的。但是,它使用BlockBlobService并需要帐户密钥


我没有帐户密钥,由于组织的安全策略,无法获取帐户密钥。我不确定如何使用凭证传递进行同样的操作。有什么想法吗?

您可以尝试通过凭证挂载Azure DataLake Storage Gen2实例

configs={
“fs.azure.account.auth.type”:“CustomAccessToken”,
“fs.azure.account.custom.token.provider.class”:spark.conf.get(“spark.databricks.passthrough.adls.gen2.tokenProviderClassName”)
}
mount\u name='localmountname'
容器名称='containername'
存储\帐户\名称='datalakestoragename'
dbutils.fs.mount(
source=f“abfss://{container_name}@{storage_account_name}.dfs.core.windows.net/”,
mount_point=f“/mnt/{mount_name}>”,
额外(配置=配置)

您提到过吗?嗨,Axel-谢谢您的帮助。我可以访问已安装的驱动器,但只能通过dbutils.fs.ls()访问。通过这个,我无法找到最后修改的时间戳,因此再次陷入相同的问题。我仍然找不到通过ls命令访问安装的驱动器以读取上次修改的时间戳的方法。有什么想法吗??