Python 使用按需HD Insight群集从Azure datafactory V2访问datalake

Python 使用按需HD Insight群集从Azure datafactory V2访问datalake,python,pyspark,azure-hdinsight,azure-data-factory,azure-data-lake,Python,Pyspark,Azure Hdinsight,Azure Data Factory,Azure Data Lake,我正在尝试使用Azure datafactory从按需HD Insight群集执行spark作业 文档清楚地表明,ADF(v2)不支持按需HD insight cluster的datalake链接服务,必须从复制活动将数据复制到blob上,然后执行作业。但在一个数据湖上有10亿个文件的情况下,这项工作似乎是一项非常昂贵的资源。是否有任何有效的方法可以从执行spark作业的python脚本访问datalake文件,或者直接访问文件的任何其他方法 另外,是否有可能从v1开始做类似的事情,如果有,那么

我正在尝试使用Azure datafactory从按需HD Insight群集执行spark作业

文档清楚地表明,ADF(v2)不支持按需HD insight cluster的datalake链接服务,必须从复制活动将数据复制到blob上,然后执行作业。但在一个数据湖上有10亿个文件的情况下,这项工作似乎是一项非常昂贵的资源。是否有任何有效的方法可以从执行spark作业的python脚本访问datalake文件,或者直接访问文件的任何其他方法

另外,是否有可能从v1开始做类似的事情,如果有,那么如何做?“使用Azure数据工厂在HDInsight中创建按需Hadoop群集”描述了访问blob存储的按需Hadoop群集,但我想要访问datalake的按需spark群集


p.p.s提前感谢

目前,我们不支持ADF v2中带有HDI Spark cluster的ADLS数据存储。我们计划在未来几个月增加这一点。在那之前,你必须继续使用你在上面的帖子中提到的解决方法。很抱歉给您带来不便。

Blob存储用于按需集群将使用的脚本和配置文件。例如,在您编写并存储在附加Blob存储器中的脚本中,它们可以从ADL写入SQLDB