在Docker中处理大型数据集

在Docker中处理大型数据集,docker,machine-learning,dataset,dockerfile,Docker,Machine Learning,Dataset,Dockerfile,我有几个Docker图像可以处理几个大数据集。我喜欢将图像视为获取数据集和输出信息的函数 在“消费”数据集之前,每个图像都必须格式化数据集。我想我应该在实例化图像之前在主机上进行格式化 有没有工具可以帮助我管理这些数据集?或者我应该自己实施吗?恐怕这太模糊了,无法得到一个像样的答案。你能想出具体的问题吗?你可以有一个容器格式化你的原始数据,并把它放在一个卷中,第二个容器连接到该卷并处理格式化的数据。不过,我同意@AdrianMouat的说法,它作为一个问题太模糊了!恐怕这太模糊了,无法得到一个像

我有几个Docker图像可以处理几个大数据集。我喜欢将图像视为获取数据集和输出信息的函数

在“消费”数据集之前,每个图像都必须格式化数据集。我想我应该在实例化图像之前在主机上进行格式化


有没有工具可以帮助我管理这些数据集?或者我应该自己实施吗?

恐怕这太模糊了,无法得到一个像样的答案。你能想出具体的问题吗?你可以有一个容器格式化你的原始数据,并把它放在一个卷中,第二个容器连接到该卷并处理格式化的数据。不过,我同意@AdrianMouat的说法,它作为一个问题太模糊了!恐怕这太模糊了,无法得到一个像样的回答。你能想出具体的问题吗?你可以有一个容器格式化你的原始数据,并把它放在一个卷中,第二个容器连接到该卷并处理格式化的数据。不过,我同意@AdrianMouat的说法,它作为一个问题太模糊了!