Python 3.x 如何通过DataRicks将大型文件从一个目录复制到另一个目录，从而减少数据湖中的时间？_Python 3.x_Azure Data Lake_Databricks

Python 3.x 如何通过DataRicks将大型文件从一个目录复制到另一个目录，从而减少数据湖中的时间？

python-3.x

Python 3.x 如何通过DataRicks将大型文件从一个目录复制到另一个目录，从而减少数据湖中的时间？,python-3.x,azure-data-lake,databricks,Python 3.x,Azure Data Lake,Databricks,我正在尝试将20GB文件从一个文件夹复制到Azure Data Lake中的另一个文件夹，并希望通过数据块来实现。我已经尝试了下面的代码，但它需要一个多小时。有谁能建议我如何在20分钟内实现这一目标 import shutil, os shutil.copytree("/dbfs/mnt/storage1/ABC/", "/dbfs/mnt/storage1/copied/") 正在尝试使用azure.datalake.store库，更多详细信息请参见：这将阻止databricks下载和

我正在尝试将20GB文件从一个文件夹复制到Azure Data Lake中的另一个文件夹，并希望通过数据块来实现。我已经尝试了下面的代码，但它需要一个多小时。有谁能建议我如何在20分钟内实现这一目标

import shutil, os
shutil.copytree("/dbfs/mnt/storage1/ABC/", "/dbfs/mnt/storage1/copied/")

正在尝试使用azure.datalake.store库，更多详细信息请参见：

这将阻止databricks下载和重新上传文件。

最好的选择是使用dbutils.fs

这将为您提供：

 dbutils.fs.cp ("/mnt/storage1/ABC/", "/mnt/storage1/copied/", recurse=True)

可能重复的