Python 使用Azure机器学习服务培训大型模型时,如何克服培训异常?
我正在训练一个大型ish模型,试图在Azure笔记本中使用它 因此,我创建了一个Python 使用Azure机器学习服务培训大型模型时,如何克服培训异常?,python,azure,azure-machine-learning-service,Python,Azure,Azure Machine Learning Service,我正在训练一个大型ish模型,试图在Azure笔记本中使用它 因此,我创建了一个估计器,用于本地培训: from azureml.train.estimator import Estimator estimator = Estimator(source_directory='./source_dir', compute_target='local', entry_script='train.py') (m
估计器
,用于本地培训:
from azureml.train.estimator import Estimator
estimator = Estimator(source_directory='./source_dir',
compute_target='local',
entry_script='train.py')
(mytrain.py
应该从一个大的字向量文件开始加载和训练)
当与
run = experiment.submit(config=estimator)
我明白了
培训例外:
====================================================================
在尝试拍摄快照时
/数据/主页/用户名/笔记本/源目录您的总数
快照大小超过300.0 MB的限制。请看
关于如何处理大文件
====================================================================
错误中提供的链接很可能存在。
我的/source\u目录中的内容确实超过了300 MB。
如何解决这个问题?您可以将培训文件放在源目录
之外,这样它们就不会在提交实验时被上传,然后分别上传到数据存储(基本上使用与您的工作区相关联的Azure存储)。然后,您只需从train.py
中引用培训文件即可
有关如何将数据上载到数据存储,然后从培训文件访问数据的示例,请参见。在我阅读GitHub问题和Azure ML服务的官方文档后,我认为这是一个未知问题,需要等待Azure修复
同时,我建议您可以尝试将当前工作迁移到其他服务,上载数据集和代码,然后在HDInsight Spark Cluster上的Azure DataRicks笔记本中运行,而无需担心内存或存储限制。您可以在Azure Databricks上参考Azure ML。谢谢!虽然这可能是错误的行为,但公认的答案让我避免了问题中的错误。虽然Databricks是一个很酷的选择,但我想探索Azure ML服务。嗨,Vlad,我正在尝试从数据存储注册一个大型模型,而不是将其上载到locallt-你对此有什么建议吗?-看见