Apache spark 无法在mleap中序列化apache spark transformer_Apache Spark_Apache Spark Sql_Apache Spark Mllib_Mleap

Apache spark 无法在mleap中序列化apache spark transformer

apache-spark

Apache spark 无法在mleap中序列化apache spark transformer,apache-spark,apache-spark-sql,apache-spark-mllib,mleap,Apache Spark,Apache Spark Sql,Apache Spark Mllib,Mleap,我使用Spark 2.1.0和Scala 2.11.8 我试图在ApacheSpark中构建一个twitter情绪分析模型，并使用它提供服务当我在不使用mleap的情况下运行模型时，一切都会顺利进行。只有当我尝试以mleap的序列化格式保存模型，以便以后可以使用mleap为模型提供服务时，问题才会发生这是一行抛出错误- val modelSavePath = "/tmp/sampleapp/model-mleap/" val pipelineConfig = json.get("Pip

我使用Spark 2.1.0和Scala 2.11.8

我试图在ApacheSpark中构建一个twitter情绪分析模型，并使用它提供服务

当我在不使用mleap的情况下运行模型时，一切都会顺利进行。只有当我尝试以mleap的序列化格式保存模型，以便以后可以使用mleap为模型提供服务时，问题才会发生

这是一行抛出错误-

val modelSavePath = "/tmp/sampleapp/model-mleap/" 

val pipelineConfig = json.get("PipelineConfig").get.asInstanceOf[Map[String, Any]]
val loaderConfig = json.get("LoaderConfig").get.asInstanceOf[Map[String, Any]]
val loaderPath = loaderConfig
    .get("DataLocation")
    .get
    .asInstanceOf[String]
var data = sqlContext.read.format("com.databricks.spark.csv").
                 option("header", "true").
                 option("delimiter", "\t").
                 option("inferSchema", "true").
                 load(loaderPath)

val pipeline = Pipeline(pipelineConfig)

val model = pipeline.fit(data)
val mleapPipeline: Transformer = model

我在最后一行得到java.util.NoSuchElementException:key not found:org.apache.spark.ml.feature.Tokenizer

当我快速搜索时，我发现mleap并不支持所有的变压器。但我无法找到一份详尽的清单

如何确定我使用的变压器是否不受支持，或者是否存在其他错误

我是MLeap的创建者之一，我们确实支持Tokenizer！我很好奇，你想使用哪个版本的MLeap？我想您可能正在查看TrueCar中过时的代码库，请在此处查看我们的新代码库：

我们这里还有相当完整的文档，包括支持的变压器的完整列表：

文件：

变压器清单：

我希望这会有所帮助，如果事情仍然不起作用，请在github中提交一个问题，我们可以帮助您从那里调试它。

谢谢！但我被我在这里发布的另一个问题困住了。我希望我在这里发布链接不会违反stackoverflow政策。Hollin，是否有计划将MLeap整合到主要Spark项目/分支中？对其他语言（如Java）的支持如何？另外，我刚刚创建了标记，您可能希望遵循它！