Amazon web services 如何在Spark MLLib中配置支持向量机的核选择和损失函数_Amazon Web Services_Apache Spark_Machine Learning_Svm_Apache Spark Mllib

Amazon web services 如何在Spark MLLib中配置支持向量机的核选择和损失函数

amazon-web-services apache-spark machine-learning

Amazon web services 如何在Spark MLLib中配置支持向量机的核选择和损失函数,amazon-web-services,apache-spark,machine-learning,svm,apache-spark-mllib,Amazon Web Services,Apache Spark,Machine Learning,Svm,Apache Spark Mllib,我已经在AWS Elastic Map Reduce（EMR）上安装了spark，并使用MLLib中的包运行SVM。但是，没有选择用于构建模型的参数的选项，如内核选择和误分类成本（如e1071 R包）。有人能告诉我在建立模型时如何设置这些参数吗？摘要/TL；医生： SVMWithSGD的硬编码方法有：私有val梯度=新建HingeGradient（）私有val更新程序新建SquaredL2Updater（）由于这些都是硬编码的，所以您无法按照在R中使用的方式配置它们详细信息：在“裸机”

我已经在AWS Elastic Map Reduce（EMR）上安装了spark，并使用MLLib中的包运行SVM。但是，没有选择用于构建模型的参数的选项，如内核选择和误分类成本（如e1071 R包）。有人能告诉我在建立模型时如何设置这些参数吗？

摘要/TL；医生：

SVMWithSGD的硬编码方法有：

私有val梯度=新建HingeGradient（）
私有val更新程序新建SquaredL2Updater（）

由于这些都是硬编码的，所以您无法按照在R中使用的方式配置它们

详细信息：

在“裸机”级别，mllib SVMWithSGD支持以下参数：

为每个特征计算权重
为该模型计算的截距
正/负预测之间的阈值（默认为0.0）

还有其他方便的方法允许您定义：

正则化类型（L1 vs L2）
正则化参数（λ）
每个培训批次使用的输入数据的比例是多少
初始步长（用于梯度下降）

您会注意到您提到的两项：

核选择
误分类成本

不包括在这些可配置参数中

在封面下，通过调用GradientDescent类定义如下：

* @param gradient Gradient function to be used.
* @param updater Updater to be used to update weights after every iteration.
GradientDescent(gradient: Gradient, private var updater: Updater)

通过以下设置

MLLib的支持向量机实现仅限于线性核，因此您无法找到任何与核相关的内容。例如，有一些工作与此相关。

谢谢您的回复！