Python 3.x 如何通过DataRicks将大型文件从一个目录复制到另一个目录,从而减少数据湖中的时间?
我正在尝试将20GB文件从一个文件夹复制到Azure Data Lake中的另一个文件夹,并希望通过数据块来实现。 我已经尝试了下面的代码,但它需要一个多小时。 有谁能建议我如何在20分钟内实现这一目标Python 3.x 如何通过DataRicks将大型文件从一个目录复制到另一个目录,从而减少数据湖中的时间?,python-3.x,azure-data-lake,databricks,Python 3.x,Azure Data Lake,Databricks,我正在尝试将20GB文件从一个文件夹复制到Azure Data Lake中的另一个文件夹,并希望通过数据块来实现。 我已经尝试了下面的代码,但它需要一个多小时。 有谁能建议我如何在20分钟内实现这一目标 import shutil, os shutil.copytree("/dbfs/mnt/storage1/ABC/", "/dbfs/mnt/storage1/copied/") 正在尝试使用azure.datalake.store库,更多详细信息请参见: 这将阻止databricks下载和
import shutil, os
shutil.copytree("/dbfs/mnt/storage1/ABC/", "/dbfs/mnt/storage1/copied/")
正在尝试使用azure.datalake.store库,更多详细信息请参见:
这将阻止databricks下载和重新上传文件。最好的选择是使用dbutils.fs 这将为您提供:
dbutils.fs.cp ("/mnt/storage1/ABC/", "/mnt/storage1/copied/", recurse=True)
可能重复的