Machine learning 面向大型数据集的机器学习开发工作流

Machine learning 面向大型数据集的机器学习开发工作流,machine-learning,workflow,large-data,Machine Learning,Workflow,Large Data,当您有一个300GB的大数据集,而您的计算机只有250gb的内存时,您使用什么工作流 当然,在本地使用dev集,但是您是否将300gb放在S3存储桶上用于生产,以便在不使用AWS时可以轻松关闭AWS,并且在计算完成时可以轻松提取模型 我做了一些基本的测量,从s3加载一个文件平均需要5秒钟。当文件位于较大的块中时,S3的性能是否会显著提高?这取决于(与往常一样)。:) 您可以尝试在加载期间过滤数据(损坏的示例、异常值等) 如果您同时需要所有数据,您可以使用分布式计算(查看-一个流行的分布式计算框架

当您有一个300GB的大数据集,而您的计算机只有250gb的内存时,您使用什么工作流

当然,在本地使用dev集,但是您是否将300gb放在S3存储桶上用于生产,以便在不使用AWS时可以轻松关闭AWS,并且在计算完成时可以轻松提取模型

我做了一些基本的测量,从s3加载一个文件平均需要5秒钟。当文件位于较大的块中时,S3的性能是否会显著提高?

这取决于(与往常一样)。:)

  • 您可以尝试在加载期间过滤数据(损坏的示例、异常值等)
  • 如果您同时需要所有数据,您可以使用分布式计算(查看-一个流行的分布式计算框架),并使用一些机器学习库(例如)