Machine learning 支持向量机的RBF核

Machine learning 支持向量机的RBF核,machine-learning,Machine Learning,非线性核函数允许支持向量机在高维空间中线性分离非线性数据。RBF核可能是最流行的非线性核 我被告知RBF核是高斯核,因此是无限可微的。利用这一特性,RBF核可以将数据从低维空间映射到无限维空间。我有两个问题: 1) 有人能解释为什么映射后的特征空间的数量与内核的导数相对应吗?这方面我不清楚。 2) 有许多非线性核,比如多项式核,我相信它们也能够将数据从低维空间映射到无限维空间。但是为什么RBF内核比它们更受欢迎呢 提前谢谢你的帮助 1) 有人能解释为什么映射后的特征空间数量会增加吗 对应于核的导

非线性核函数允许支持向量机在高维空间中线性分离非线性数据。RBF核可能是最流行的非线性核

我被告知RBF核是高斯核,因此是无限可微的。利用这一特性,RBF核可以将数据从低维空间映射到无限维空间。我有两个问题:

1) 有人能解释为什么映射后的特征空间的数量与内核的导数相对应吗?这方面我不清楚。 2) 有许多非线性核,比如多项式核,我相信它们也能够将数据从低维空间映射到无限维空间。但是为什么RBF内核比它们更受欢迎呢

提前谢谢你的帮助

1) 有人能解释为什么映射后的特征空间数量会增加吗 对应于核的导数吗?我不太清楚 这部分

它与可微性无关,线性核也是无限可微的,不映射到任何高维空间,不管是谁告诉你这是原因——撒谎还是不理解背后的数学。无限维来自映射

phi(x) = Nor(x, sigma^2)
换句话说,你将你的点映射到一个高斯分布的函数中,这是L^2空间的一个元素,连续函数的无限维空间,其中标量积定义为函数乘法的积分,所以

<f,g> = int f(a)g(a) da
=intf(a)g(a)da
因此

<phi(x),phi(y)> = int Nor(x,sigma^2)(a)Nor(y,sigma^2)(a) da 
                = X exp(-(x-y)^2 / (4sigma^2) )
=int-Nor(x,sigma^2)(a)Nor(y,sigma^2)(a)da
=X exp(-(X-y)^2/(4sigma^2))
对于某些归一化常数
X
(这完全不重要)。换句话说,高斯核是两个无限维函数之间的标量积

2) 非线性核有很多种,如多项式核和I 相信他们也能从低维空间映射数据 空间到无限维空间。但是为什么RBF核更为重要呢 那他们呢


多项式核映射到具有
O(d^p)
维的特征空间,其中
d
是输入空间维,
p
是多项式次,因此它远非无穷大。为什么高斯分布很受欢迎?因为它可以工作,而且非常容易使用,计算速度也很快。从理论角度来看,它还可以保证学习任意的点集(使用足够小的方差)。

非常感谢您如此详细的回答。你能解释一下为什么“函数是高斯分布的,具有连续函数的无限维空间”,并指出高斯核的哪个参数表示维数吗?(我可以这样理解:核函数的值是映射后内积的输出。因此,对于高斯核,指数函数,如果(x-y)^2变得足够大,相应的输出值将以指数形式增加到无穷大?)谢谢你的耐心…..试着想象函数作为一个向量,在“正常”向量中,你有类似于
v=[11,22,33,44]
,所以你有
v[1]=11,v[2]=22,v[3]=33,v[4]=44
4
维度,每个维度都有实值。现在考虑一个像向量一样的函数,你有
v(a)=exp(-x-a)^2/2sigma^2)
,它是为每个实数a定义的,所以你有有限多个维度,不仅仅是a=1,2,3,4,还有
a=pi
a=-123/23+pi
等等。没有“高斯核中表示其维数的参数”,它总是无限的。一旦你把向量
v
看作一个函数,很容易理解,这个标量积就变成了积分,成为“求和的无限等价物”,
=int v1(a)*v2(a)da
很抱歉让您失望……但您是否介意对“像向量一样思考函数”多说一点?我对如何进行这种想象有点困惑:1)看起来您假设“a”具有无限长。对于映射后的内积:k(x,a),“x”表示模型的原始数据,“a”表示正在处理的输入数据,“a”的长度应该是有限的;2)“对于每个实a”,假设a是一个向量,我们能找到向量“v”(v(a))的3.14个元素吗如何理解这种想象?3)“它永远是无限的”:什么是“它”?再次感谢您的耐心…例如,假设:v1=[1 2 3]而v2=[4 5 6]以及如何做积分:int v1(3.14)*v2(3.14)da?如何理解这个积分?为什么核函数是这样的积分?我发誓这不是一个反问,但我对这个概念感到有点困惑。。。