Amazon web services 如何在Spark MLLib中配置支持向量机的核选择和损失函数

Amazon web services 如何在Spark MLLib中配置支持向量机的核选择和损失函数,amazon-web-services,apache-spark,machine-learning,svm,apache-spark-mllib,Amazon Web Services,Apache Spark,Machine Learning,Svm,Apache Spark Mllib,我已经在AWS Elastic Map Reduce(EMR)上安装了spark,并使用MLLib中的包运行SVM。但是,没有选择用于构建模型的参数的选项,如内核选择和误分类成本(如e1071 R包)。有人能告诉我在建立模型时如何设置这些参数吗?摘要/TL;医生: SVMWithSGD的硬编码方法有: 私有val梯度=新建HingeGradient() 私有val更新程序新建SquaredL2Updater() 由于这些都是硬编码的,所以您无法按照在R中使用的方式配置它们 详细信息: 在“裸机”

我已经在AWS Elastic Map Reduce(EMR)上安装了spark,并使用MLLib中的包运行SVM。但是,没有选择用于构建模型的参数的选项,如内核选择和误分类成本(如e1071 R包)。有人能告诉我在建立模型时如何设置这些参数吗?

摘要/TL;医生:

SVMWithSGD的硬编码方法有:

私有val梯度=新建HingeGradient()
私有val更新程序新建SquaredL2Updater()

由于这些都是硬编码的,所以您无法按照在R中使用的方式配置它们

详细信息:

在“裸机”级别,mllib SVMWithSGD支持以下参数:

  • 为每个特征计算权重
  • 为该模型计算的截距
  • 正/负预测之间的阈值(默认为0.0)
还有其他方便的方法允许您定义:

  • 正则化类型(L1 vs L2)
  • 正则化参数(λ)
  • 每个培训批次使用的输入数据的比例是多少
  • 初始步长(用于梯度下降)
您会注意到您提到的两项:

  • 核选择
  • 误分类成本
不包括在这些可配置参数中

在封面下,通过调用GradientDescent类定义如下:

* @param gradient Gradient function to be used.
* @param updater Updater to be used to update weights after every iteration.
GradientDescent(gradient: Gradient, private var updater: Updater)

通过以下设置

MLLib的支持向量机实现仅限于线性核,因此您无法找到任何与核相关的内容。例如,有一些工作与此相关。

谢谢您的回复!