Google cloud dataflow 谷歌云数据流与机器学习

Google cloud dataflow 谷歌云数据流与机器学习,google-cloud-dataflow,google-cloud-ml,Google Cloud Dataflow,Google Cloud Ml,在谷歌云数据流上运行机器学习算法的最佳方式是什么?我可以想象,如果Mahout是基于Java的,那么使用它将是一种选择 答案可能是否定的,但有没有办法调用基于R或Python(它们对算法有很强的支持)的脚本来减轻ML执行的负担 -Girish也有(没有亲自使用)和Weka。我记得文档中提到,可以从作业中启动新流程,但也不建议这样做。您已经可以在数据流转换方面实现许多算法 一类可能不那么容易实现的算法是迭代算法,其中管道的执行图取决于数据本身。简化迭代算法的实现是我们感兴趣的事情,您可以期待这方面

在谷歌云数据流上运行机器学习算法的最佳方式是什么?我可以想象,如果Mahout是基于Java的,那么使用它将是一种选择

答案可能是否定的,但有没有办法调用基于R或Python(它们对算法有很强的支持)的脚本来减轻ML执行的负担


-Girish也有(没有亲自使用)和Weka。我记得文档中提到,可以从作业中启动新流程,但也不建议这样做。

您已经可以在数据流转换方面实现许多算法

一类可能不那么容易实现的算法是迭代算法,其中管道的执行图取决于数据本身。简化迭代算法的实现是我们感兴趣的事情,您可以期待这方面的未来改进和简化


从数据流管道调用Python(或任何其他)可执行文件应该不难。例如,ParDo可以抛出并启动任意进程。例如,您可以使用
--filesToStage
管道选项向Dataflow worker环境添加其他文件。

您是否可以澄清或提供示例,说明“从数据流管道调用Python(或任何其他)可执行文件并不难”的含义?您可以编写一个
DoFn
,它可以扩展到任何可执行文件。然后,通过
ParDo
将该
DoFn
应用于任何数据流
管道
。你的意思是使用ProcessBuilder吗?有几种方法--
ProcessBuilder()
Runtime.getRuntime().exec
是常见的。你有实时性要求吗?如果没有,您可以使用/test,这将使使用像scikitlearn这样的ML库变得更加容易。