数据挖掘 ¶
约 435 个字 预计阅读时间 2 分钟
数据处理 ¶
数据变换 ¶
数据中心化:是指变量减去它的均值。 数据标准化:是指数值减去均值,再除以标准差;
目的:通过中心化和标准化处理,得到均值为 0,标准差为 1 的服从标准正态分布的数据。
不同数据量纲不同,尺度不同,需要进行中心化和标准化处理。
- 比如在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。 -对数据进行中心化预处理,这样做的目的是要增加基向量的正交性。
数据中心化(Zero-centered¶
或者 Mean-subtraction(subtraction 表示减去
把数据的中心平移的过程
数据标准化 | normalization ¶
1)归一化后加快了梯度下降求最优解的速度; - 当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收敛;对两个原始特征进行了归一化,其对应的等高线显得很圆,在梯度下降进行求解时能较快的收敛
2)归一化有可能提高精度。
min-max 标准化(Min-Max Normalization)¶
也称为离差标准化,是对原始数据的线性变换,使结果值映射到 [0 - 1] 之间。转换函数如下:
\[
x^* = \frac{x - min}{max - min}
\]
这种方法有个缺陷就是当有新数据加入时,可能导致 max 和 min 的变化,需要重新定义。
Z-score 标准化(0-1 标准化)方法 ¶
\[
X^* = \frac{X - \mu}{\sigma}
\]
其中 \(\mu\) 为所有样本数据的均值,\(\sigma\) 为所有样本数据的标准差。