Apache spark 基于http的MLLib分类部署_Apache Spark_Apache Spark Mllib

Apache spark 基于http的MLLib分类部署

apache-spark

Apache spark 基于http的MLLib分类部署,apache-spark,apache-spark-mllib,Apache Spark,Apache Spark Mllib,我想部署我使用mllib over http服务培训的Classifier。因此，我想知道，如果我在代码中加载序列化对象并向其发送一些数据，是否也需要运行spark的本地版本。如果是这样的话，在同一台机器上运行多个服务实例是否会产生任何影响（我是否必须单独配置每个spark）基本上，我希望避免每次请求新分类时启动spark作业，并且没有spark流设置干杯那么这里的问题是什么？一些（并非所有）MLLib模型表示为本地对象，因此可以在不运行Spark的情况下使用，但随着从MLLib到ML的不断

我想部署我使用mllib over http服务培训的Classifier。因此，我想知道，如果我在代码中加载序列化对象并向其发送一些数据，是否也需要运行spark的本地版本。如果是这样的话，在同一台机器上运行多个服务实例是否会产生任何影响（我是否必须单独配置每个spark）

基本上，我希望避免每次请求新分类时启动spark作业，并且没有spark流设置

干杯

那么这里的问题是什么？一些（并非所有）MLLib模型表示为本地对象，因此可以在不运行Spark的情况下使用，但随着从MLLib到ML的不断迁移，这不太可能是一种经得起未来考验的方法。当然，但要运行任何数据处理以输入ML模型，我想我必须使用Spark来创建数据帧或RDD。这需要使用SparkContext。所以问题是，如果让spark在jvm进程的“内存”中启动一个spark（而不是一台机器上的独立spark），让spark大规模预处理数据会发生什么。许多模型（如回归模型）可以在不运行上下文的情况下工作。那么这里的问题是什么？一些（并非所有）MLLib模型表示为本地对象，因此可以在不运行Spark的情况下使用，但随着从MLLib到ML的不断迁移，这不太可能是一种经得起未来考验的方法。当然，但要运行任何数据处理以输入ML模型，我想我必须使用Spark来创建数据帧或RDD。这需要使用SparkContext。所以问题是，如果让spark在jvm进程的“内存”中启动一个spark（而不是一台机器上的独立spark），让spark大规模预处理数据会发生什么。许多模型（如回归模型）可以在不运行上下文的情况下工作。