Python 使用按需HD Insight群集从Azure datafactory V2访问datalake_Python_Pyspark_Azure Hdinsight_Azure Data Factory_Azure Data Lake

Python 使用按需HD Insight群集从Azure datafactory V2访问datalake

python pyspark azure-data-factory

Python 使用按需HD Insight群集从Azure datafactory V2访问datalake,python,pyspark,azure-hdinsight,azure-data-factory,azure-data-lake,Python,Pyspark,Azure Hdinsight,Azure Data Factory,Azure Data Lake,我正在尝试使用Azure datafactory从按需HD Insight群集执行spark作业文档清楚地表明，ADF（v2）不支持按需HD insight cluster的datalake链接服务，必须从复制活动将数据复制到blob上，然后执行作业。但在一个数据湖上有10亿个文件的情况下，这项工作似乎是一项非常昂贵的资源。是否有任何有效的方法可以从执行spark作业的python脚本访问datalake文件，或者直接访问文件的任何其他方法另外，是否有可能从v1开始做类似的事情，如果有，那么

我正在尝试使用Azure datafactory从按需HD Insight群集执行spark作业

文档清楚地表明，ADF（v2）不支持按需HD insight cluster的datalake链接服务，必须从复制活动将数据复制到blob上，然后执行作业。但在一个数据湖上有10亿个文件的情况下，这项工作似乎是一项非常昂贵的资源。是否有任何有效的方法可以从执行spark作业的python脚本访问datalake文件，或者直接访问文件的任何其他方法

另外，是否有可能从v1开始做类似的事情，如果有，那么如何做？“使用Azure数据工厂在HDInsight中创建按需Hadoop群集”描述了访问blob存储的按需Hadoop群集，但我想要访问datalake的按需spark群集

p.p.s提前感谢

目前，我们不支持ADF v2中带有HDI Spark cluster的ADLS数据存储。我们计划在未来几个月增加这一点。在那之前，你必须继续使用你在上面的帖子中提到的解决方法。很抱歉给您带来不便。

Blob存储用于按需集群将使用的脚本和配置文件。例如，在您编写并存储在附加Blob存储器中的脚本中，它们可以从ADL写入SQLDB