Keras 数据实验室中的大数据

Keras 数据实验室中的大数据,keras,google-cloud-datalab,google-cloud-dataprep,Keras,Google Cloud Datalab,Google Cloud Dataprep,我正在尝试将我的csv文件加载到datalab中。但是csv文件太大,无法加载。即使我成功地做到了这一点,做预处理也会花费太长时间 我正在考虑使用Keras在这个数据集上进行ML。问题是: 如何使用数据生成器将Keras作为原始数据提供 数据预处理是在dataprep还是dataflow中进行,还是在datalab中进行 有没有办法加快培训过程?现在,为了完成培训,我必须让datalab窗口长时间打开。把网页打开这么长时间我感到不舒服 谢谢 我建议您使用pandas库加载数据并提取底层num

我正在尝试将我的csv文件加载到datalab中。但是csv文件太大,无法加载。即使我成功地做到了这一点,做预处理也会花费太长时间

我正在考虑使用Keras在这个数据集上进行ML。问题是:

  • 如何使用数据生成器将Keras作为原始数据提供
  • 数据预处理是在dataprep还是dataflow中进行,还是在datalab中进行
  • 有没有办法加快培训过程?现在,为了完成培训,我必须让datalab窗口长时间打开。把网页打开这么长时间我感到不舒服

谢谢

我建议您使用
pandas
库加载数据并提取底层numpy数组。然后,您可以将您想要的任何输入或输出数据提供给您的模型

如果csv太大,无法存储在内存中,另一种方法是实现Python生成器,每次生成一批数据

有很多变量决定了你的培训过程的持续时间,不幸的是,很难说什么对你来说是最好的。
您可以提高优化器的学习速度,或者构建更小的模型(需要训练的权重更小),或者提供更少的数据,或者训练更少的时间/步骤。

我建议您使用
pandas
库加载数据,并提取底层numpy数组。然后,您可以将您想要的任何输入或输出数据提供给您的模型

如果csv太大,无法存储在内存中,另一种方法是实现Python生成器,每次生成一批数据

有很多变量决定了你的培训过程的持续时间,不幸的是,很难说什么对你来说是最好的。
您可以提高优化器的学习速度,或者构建更小的模型(需要训练的权重更少),或者提供更少的数据,或者训练更少的时间/步骤。

使用更大/更多内存的虚拟机可能会更进一步,但这当然也会有限制,只是更大

<>最后,你可能会(也可能已经)达到了一个阈值,在这里你要考虑这个方法:

  • 构建一个在开发过程中使用的数据样本。这就是您将在数据实验室中使用的内容

  • 构建一个分布式培训程序,可以针对完整的数据集运行。我建议查看Cloud ML Engine对分布式培训的支持,以及相关示例


  • 使用更大/更多内存的虚拟机可能会更进一步,但这当然也会有限制,只是更大而已

    <>最后,你可能会(也可能已经)达到了一个阈值,在这里你要考虑这个方法:

  • 构建一个在开发过程中使用的数据样本。这就是您将在数据实验室中使用的内容

  • 构建一个分布式培训程序,可以针对完整的数据集运行。我建议查看Cloud ML Engine对分布式培训的支持,以及相关示例


  • 您的意思是使用datalab定义要使用的算法/超参数/模型,然后使用Cloud ML Engine分布式训练模型吗?建议不错,但我不知道如何使用Cloud ML Engine进行预处理:(如果我只是在数据实验室中使用sklearn,我不认为我可以将其移动到ML引擎,因为ML引擎只与TF兼容,对吗?你的意思是使用数据实验室定义要使用的算法/超参数/模型,然后使用云ML引擎分布式地训练模型?好建议,但我不知道如何使用云ML引擎进行预处理。)cessing:(如果我只是在数据实验室中使用sklearn,我不认为我可以将它移动到ML引擎,因为ML引擎只与TF兼容,对吗?