Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/tensorflow/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Dataproc、Dataprep和Tensorflow_Tensorflow_Google Cloud Platform_Google Cloud Dataproc_Google Cloud Dataprep - Fatal编程技术网

Dataproc、Dataprep和Tensorflow

Dataproc、Dataprep和Tensorflow,tensorflow,google-cloud-platform,google-cloud-dataproc,google-cloud-dataprep,Tensorflow,Google Cloud Platform,Google Cloud Dataproc,Google Cloud Dataprep,我正在尝试创建处理大型数据集的ML模型。我的问题更多的是关于这些大数据集的预处理。从这个意义上讲,我想知道使用Dataprep、Dataproc或Tensorflow进行预处理的区别是什么 任何帮助都将不胜感激。这是三种不同的东西,你无法真正比较它们 Dataprep-用于可视化探索、清理和维护的数据服务 准备用于分析的结构化和非结构化数据 换句话说,如果你有大量的训练数据,你想清理它,可视化等等。谷歌数据准备可以让你轻松做到这一点 CloudDataProc是一种快速、易于使用、完全管理的云服

我正在尝试创建处理大型数据集的ML模型。我的问题更多的是关于这些大数据集的预处理。从这个意义上讲,我想知道使用Dataprep、Dataproc或Tensorflow进行预处理的区别是什么


任何帮助都将不胜感激。

这是三种不同的东西,你无法真正比较它们

Dataprep-用于可视化探索、清理和维护的数据服务 准备用于分析的结构化和非结构化数据

换句话说,如果你有大量的训练数据,你想清理它,可视化等等。谷歌数据准备可以让你轻松做到这一点

CloudDataProc是一种快速、易于使用、完全管理的云服务,适用于 以更简单、更高效的方式运行ApacheSpark和ApacheHadoop集群 成本效益的方法

在问题的上下文中,在清理数据并准备将其输入到ML算法之后,您可以使用Cloud Dataproc将其分布到多个节点,并更快地处理它。在某些机器学习算法中,磁盘读取速度可能是一个瓶颈,因此它可以极大地提高机器学习算法的运行时间

最后,Tensorflow:

张量流™ 是一个开放源代码的软件库 使用数据流图进行计算。图中的节点表示 数学运算,而图形边表示 多维数据数组(张量)在它们之间进行通信


因此,在您的数据准备好处理之后;您可以使用Tensorflow实现机器学习算法。Tensorflow是一个python库,因此比较容易获取。Tensorflow还可以在GPU上而不是CPU上运行算法,(最近)还可以在Google Cloud TPU上运行算法(专门为机器学习设计的硬件,性能甚至比GPU更好)。

这是三个不同的东西,你无法真正比较它们

Dataprep-用于可视化探索、清理和维护的数据服务 准备用于分析的结构化和非结构化数据

换句话说,如果你有大量的训练数据,你想清理它,可视化等等。谷歌数据准备可以让你轻松做到这一点

CloudDataProc是一种快速、易于使用、完全管理的云服务,适用于 以更简单、更高效的方式运行ApacheSpark和ApacheHadoop集群 成本效益的方法

在问题的上下文中,在清理数据并准备将其输入到ML算法之后,您可以使用Cloud Dataproc将其分布到多个节点,并更快地处理它。在某些机器学习算法中,磁盘读取速度可能是一个瓶颈,因此它可以极大地提高机器学习算法的运行时间

最后,Tensorflow:

张量流™ 是一个开放源代码的软件库 使用数据流图进行计算。图中的节点表示 数学运算,而图形边表示 多维数据数组(张量)在它们之间进行通信


因此,在您的数据准备好处理之后;您可以使用Tensorflow实现机器学习算法。Tensorflow是一个python库,因此比较容易获取。Tensorflow还可以在GPU而不是CPU上运行您的算法,(最近)还可以在Google Cloud TPU(专门为机器学习设计的硬件,性能甚至比GPU更好)上运行您的算法。

在机器学习预处理方面,我想花点时间详细回答这个问题。所以,请容忍我

谷歌提供四种不同的加工产品。因为预处理有不同的方面,涵盖了许多不同的ML前提条件,所以这些平台中的每一个都更适合于特定的预处理领域。产品如下:

谷歌ML引擎/云AI:该产品基于Tensorflow。您可以在ML引擎上的Tensorflow中运行机器学习代码。对于图像、文本或序列等特定类型的数据,可以使用tf.keras.preprocessing或tf.contrib.learn.preprocessing库为Tensorflow快速生成适当的数据输入/张量格式。 您可能还需要在预处理步骤中通过转换数据。Transform是TensorFlow的一个库,允许用户将预处理管道定义为TensorFlow图的一部分。Transform确保预处理期间不会出现扭曲

云数据准备:预处理有时被定义为数据清理、数据清理、数据准备和数据更改。为此,CloudDataprep是最好的选择。例如,如果您想消除可能导致ML模型错误的空值或某些ASCII字符,可以使用CloudDataPrep


Cloud DataFlow,Cloud Dataproc:特征提取、特征选择、缩放、降维也可以作为ML预处理的一部分。由于CloudDataFlow和DataProc都支持Spark,所以可以使用Spark库对ML模型输入进行分布式快速预处理。apachesparkmllib还可以应用于许多ML预处理/处理。注意,由于CloudDataflow支持ApacheBeam,它更适合流处理,而CloudDataProc更基于Hadoop,更适合批处理预处理。有关更多详细信息,请参阅机器学习的预处理,我想花点时间详细回答这个问题。所以,请容忍我

谷歌提供四种不同的加工产品。因为预处理有不同的方面,涵盖了许多不同的ML前提条件,所以这些平台中的每一个都更适合于特定的预处理领域。产品如下:

谷歌ML引擎/云AI:该产品基于Tensorflow。您可以在ML引擎上的Tensorflow中运行机器学习代码。对于特定的ty