SVM（Support Vector Machines）是分类算法中应用广泛、效果不错的一类。《统计学习方法》对SVM的数学原理做了详细推导与论述，本文仅做整理。由简至繁SVM可分类为三类：线性可分（linear SVM in linearly separable case）的线性SVM、线性不可分的线性SVM、非线性（nonlinear）SVM。

1. 线性可分

对于二类分类问题，训练集 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})}$ ，其类别 $y_{i} \in {0, 1}$ ，线性SVM通过学习得到分离超平面（hyperplane）:

w \cdot x + b = 0

以及相应的分类决策函数：

f (x) = s i g n (w \cdot x + b)

有如下图所示的分离超平面，哪一个超平面的分类效果更好呢？

直观上，超平面 $B_{1}$ 的分类效果更好一些。将距离分离超平面最近的两个不同类别的样本点称为支持向量（support vector）的，构成了两条平行于分离超平面的长带，二者之间的距离称之为margin。显然，margin更大，则分类正确的确信度更高（与超平面的距离表示分类的确信度，距离越远则分类正确的确信度越高）。通过计算容易得到：

m a r g i n = 2 ∥ w ∥

从上图中可观察到：margin以外的样本点对于确定分离超平面没有贡献，换句话说，SVM是有很重要的训练样本（支持向量）所确定的。至此，SVM分类问题可描述为在全部分类正确的情况下，最大化 $\frac{2}{∥ w ∥}$ （等价于最小化 $\frac{1}{2} ∥ w ∥^{2}$ ）；线性分类的约束最优化问题：

min w, b 1 2 ∥ w ∥ 2 s . t . y i (w \cdot x i + b) - 1 \geq 0 (1) (2)

对每一个不等式约束引进拉格朗日乘子（Lagrange multiplier） $α_{i} \geq 0, i = 1, 2, \dots, N$ ；构造拉格朗日函数（Lagrange function）：

L (w, b, α) = 1 2 ∥ w ∥ 2 - \sum i = 1 N α i [y i (w \cdot x i + b) - 1] (3)

根据拉格朗日对偶性，原始的约束最优化问题可等价于极大极小的对偶问题：

max α min w, b L (w, b, α)

将 $L (w, b, α)$ 对 $w, b$ 求偏导并令其等于0，则

\partial L \partial w = w - \sum i = 1 N α i y i x i = 0 \Rightarrow w = \sum i = 1 N α i y i x i \partial L \partial b = \sum i = 1 N α i y i = 0 \Rightarrow \sum i = 1 N α i y i = 0

将上述式子代入拉格朗日函数 $(3)$ 中，对偶问题转为

max α - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) + \sum i = 1 N α i

等价于最优化问题：

min α s . t . 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i \sum i = 1 N α i y i = 0 α i \geq 0, i = 1, 2, \dots, N (4) (5) (6)

线性可分是理想情形，大多数情况下，由于噪声或特异点等各种原因，训练样本是线性不可分的。因此，需要更一般化的学习算法。

2. 线性不可分

线性不可分意味着有样本点不满足约束条件 $(2)$ ，为了解决这个问题，对每个样本引入一个松弛变量 $ξ_{i} \geq 0$ ，这样约束条件变为：

y i (w \cdot x i + b) \geq 1 - ξ i

目标函数则变为

min w, b, ξ 1 2 ∥ w ∥ 2 + C \sum i = 1 N ξ i

其中， $C$ 为惩罚函数，目标函数有两层含义：

margin尽量大，
误分类的样本点计量少

$C$ 为调节二者的参数。通过构造拉格朗日函数并求解偏导（具体推导略去），可得到等价的对偶问题：

min α 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j (x i \cdot x j) - \sum i = 1 N α i (7)

s . t . \sum i = 1 N α i y i = 0 0 \leq α i \leq C, i = 1, 2, \dots, N (8) (9)

与上一节中线性可分的对偶问题相比，只是约束条件 $α_{i}$ 发生变化，问题求解思路与之类似。

3. 非线性

对于非线性问题，线性SVM不再适用了，需要非线性SVM来解决了。解决非线性分类问题的思路，通过空间变换 $ϕ$ （一般是低维空间映射到高维空间 $x \to ϕ (x)$ ）后实现线性可分，在下图所示的例子中，通过空间变换，将左图中的椭圆分离面变换成了右图中直线。

在SVM的等价对偶问题中的目标函数中有样本点的内积 $x_{i} \cdot x_{j}$ ，在空间变换后则是 $ϕ (x_{i}) \cdot ϕ (x_{j})$ ，由于维数增加导致内积计算成本增加，这时核函数（kernel function）便派上用场了，将映射后的高维空间内积转换成低维空间的函数：

K (x, z) = ϕ (x) \cdot ϕ (z)

将其代入一般化的SVM学习算法的目标函数 $(7)$ 中，可得非线性SVM的最优化问题：

min α s . t . 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j K (x i, x j) - \sum i = 1 N α i \sum i = 1 N α i y i = 0 0 \leq α i \leq C, i = 1, 2, \dots, N (10) (11) (12)

4. 参考资料

[1] 李航，《统计学习方法》.
[2] Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining.

如需转载，请注明作者及出处.

作者：Treant

出处：http://www.cnblogs.com/en-heng/

原创文章，作者：xsmile，如若转载，请注明出处：http://www.17bigdata.com/%e3%80%90%e5%8d%81%e5%a4%a7%e7%bb%8f%e5%85%b8%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98%e7%ae%97%e6%b3%95%e3%80%91svm/

更多内容请访问：IT源点

注意：本文归作者所有，未经作者允许，不得转载

【十大经典数据挖掘算法】SVM

1. 线性可分

2. 线性不可分

3. 非线性

4. 参考资料

全部评论: 0 条

本文目录

热门标签

广告位

热门文章

阿里云新老用户最新优惠

最新发布

最新评论