Apache spark 任意Java机器学习与apachespark的集成
基本上,我需要做的是将与ApacheSpark集成,这样这个工具包就可以利用ApacheSpark的并发性和集群特性 一般来说,我想知道开发人员是否有任何方法可以集成任何Java/Scala库,使机器学习库可以在Spark的并发管理上运行Apache spark 任意Java机器学习与apachespark的集成,apache-spark,machine-learning,concurrency,Apache Spark,Machine Learning,Concurrency,基本上,我需要做的是将与ApacheSpark集成,这样这个工具包就可以利用ApacheSpark的并发性和集群特性 一般来说,我想知道开发人员是否有任何方法可以集成任何Java/Scala库,使机器学习库可以在Spark的并发管理上运行 因此,我们的目标是使独立的机器学习库更快、并发。不,这是不可能的 所以你想要的是任何算法都在Spark上运行。但是,为了使工作并行化,Spark使用RDDs或Datasets。因此,为了并行运行任务,算法必须使用这些类 您唯一可以尝试的就是编写自己的Spark
因此,我们的目标是使独立的机器学习库更快、并发。不,这是不可能的 所以你想要的是任何算法都在Spark上运行。但是,为了使工作并行化,Spark使用
RDD
s或Dataset
s。因此,为了并行运行任务,算法必须使用这些类
您唯一可以尝试的就是编写自己的Spark程序,该程序可以利用任何其他库。但我不确定你的情况是否可能。然而,Spark ML对您来说还不够吗?谢谢您的回复。“然而,Spark ML对您来说还不够吗?”实际上,我看不到Spark ML提供任何CTBNC算法。连续时间贝叶斯网络分类器