标准化归一化

star2017 1年前 ⋅ 6036 阅读

感觉很多时候这两个概念没有明确的区分，大家在用的时候也是混着用的。

其实，在英语中他们都属于feature scaling（特征缩放）scale：比例、数值范围

一、什么是特征缩放？

特征缩放是标准化变量取值范围的一种方法，在数据处理中也被称为数据标准化，一般是在数据预处理阶段使用。

二、Machine Learning中为什么要进行数据换算？

两个原因：

1.原始数据中各特征间的取值范围可能差距很大，有些机器学习算法如果不进行标准化就无法正常工作。比如，一些分类算法是用来计算点之间的欧拉距离，如果一个特征的取值范围特别大，那么最终计算的点的距离就会主要受这个变量影响。所以应该把所有变量进行标准化，这样每个变量都可以按照比例贡献最终距离的一部分。

2.数据换算后，在梯度下降迭代求解时收敛的更快。

三、数据换算的方法？

1.Standardization (Z-score Normalization)：一般称为标准化。把数据转化为均值为0，方差为1的分布。

有些地方提到进行标准化要求数据是正态分布，其实不需要的，而且标准化不改变数据的原始分布，但归一化我认为也没有改变数据的原始分布，具体分析没有找到权威的资料。

2.Rescaling(min-max normalization)：一般称为归一化，因为变换后变量范围在0-1之间。

标准化归一化

3.Mean normalization，均值归一化

标准化归一化

4.Scaling to unit length

标准化归一化

维基百科中同时也提到，在SVM中，feature scaling能缩短找到特征向量的时间，同时feature scaling也会改变SVM的结果。

总结起来，有哪些模型必须要做变量转换，哪些不用呢？