Apache spark Apache Spark MLlib模型文件格式_Apache Spark_Apache Spark Mllib

Apache spark Apache Spark MLlib模型文件格式

apache-spark

Apache spark Apache Spark MLlib模型文件格式,apache-spark,apache-spark-mllib,Apache Spark,Apache Spark Mllib,Apache Spark MLlib算法（例如，决策树）将模型保存在一个位置（例如，myModelPath）中，在该位置创建两个目录，即myModelPath/data和myModelPath/metadata。这些路径中有多个文件，这些文件不是文本文件。有些文件的格式为*.parquet 我有几个问题：这些文件的格式是什么哪些文件包含实际模型我是否可以将模型保存到其他地方，例如数据库中火花>=2.4 由于Spark 2.4提供了格式无关的编写器接口，选定的模型已经实现了这些接口。例如

Apache Spark MLlib算法（例如，决策树）将模型保存在一个位置（例如，

myModelPath

）中，在该位置创建两个目录，即

myModelPath/data

和

myModelPath/metadata

。这些路径中有多个文件，这些文件不是文本文件。有些文件的格式为

*.parquet

我有几个问题：

这些文件的格式是什么
哪些文件包含实际模型
我是否可以将模型保存到其他地方，例如数据库中

火花>=2.4

线性回归模型

val-lrm:org.apache.spark.ml.regression.LinearRegressionModel=？？？
val路径：字符串=？？？
lrm.write.format（“pmml”）.save（路径）

火花<2.4

```
data/*.parquet
```
文件采用柱状存储格式
```
metadata/part-*
```
看起来像JSON

```
model/*.parquet
```

val modelDf=spark.read.parquet（“/path/to/data/”）
modelDf.write.jdbc（…）