Python 使用Azure机器学习服务培训大型模型时,如何克服培训异常?

Python 使用Azure机器学习服务培训大型模型时,如何克服培训异常?,python,azure,azure-machine-learning-service,Python,Azure,Azure Machine Learning Service,我正在训练一个大型ish模型,试图在Azure笔记本中使用它 因此,我创建了一个估计器,用于本地培训: from azureml.train.estimator import Estimator estimator = Estimator(source_directory='./source_dir', compute_target='local', entry_script='train.py') (m

我正在训练一个大型ish模型,试图在Azure笔记本中使用它

因此,我创建了一个
估计器
,用于本地培训:

from azureml.train.estimator import Estimator

estimator = Estimator(source_directory='./source_dir',
                      compute_target='local',
                      entry_script='train.py')
(my
train.py
应该从一个大的字向量文件开始加载和训练)

当与

run = experiment.submit(config=estimator)
我明白了

培训例外:

====================================================================

在尝试拍摄快照时 /数据/主页/用户名/笔记本/源目录您的总数 快照大小超过300.0 MB的限制。请看 关于如何处理大文件

====================================================================

错误中提供的链接很可能存在。 我的
/source\u目录中的内容确实超过了300 MB。

如何解决这个问题?

您可以将培训文件放在
源目录
之外,这样它们就不会在提交实验时被上传,然后分别上传到数据存储(基本上使用与您的工作区相关联的Azure存储)。然后,您只需从
train.py
中引用培训文件即可


有关如何将数据上载到数据存储,然后从培训文件访问数据的示例,请参见。

在我阅读GitHub问题和Azure ML服务的官方文档后,我认为这是一个未知问题,需要等待Azure修复


同时,我建议您可以尝试将当前工作迁移到其他服务,上载数据集和代码,然后在HDInsight Spark Cluster上的Azure DataRicks笔记本中运行,而无需担心内存或存储限制。您可以在Azure Databricks上参考Azure ML。

谢谢!虽然这可能是错误的行为,但公认的答案让我避免了问题中的错误。虽然Databricks是一个很酷的选择,但我想探索Azure ML服务。嗨,Vlad,我正在尝试从数据存储注册一个大型模型,而不是将其上载到locallt-你对此有什么建议吗?-看见