00 | Math in ML¶
约 5813 个字 预计阅读时间 23 分钟
相关课程
智云链接:2024 秋冬
教师:程磊(老师特别有意思hhh)
上课风格:课前会有同学来帮助回顾上节课的内容,老师推导也特别清楚,会联系到一些与其他课程相关联的例子
旁听友好
链接:
教师:Gilbert Strang
还没上过
Vectors¶
Norm | 范数 ¶
什么是范数(norm
应用:聚类、流行学习、特征学习的重点就是设计一种合理的范数
用于 worst case control 等领域
inner Product | 内积 ¶
内积把向量降维成为标量
典范内积
加权内积
其中,\(G\) 为正定 Hermitian 矩阵(二次型大于零
函数向量内积
DFT 变换
夹角定义
其中,
随机向量内积
outer product | 外积(升维)¶
如果想计算两个向量的正交性
两个向量之间互不含有任何成分,不存在任何相互作用或干扰。
rotate¶
Vector Projection¶
矩阵 ¶
norm¶
- 诱导范数(Induced Norm):
- 诱导范数定义为:\(\|A\| = \max \{\|Ax\| : x \in K^n, \|x\| = 1 \}\)
-
或者等价地定义为:\(\|A\| = \max \left\{ \frac{\|Ax\|}{\|x\|} : x \in K^n, x \neq 0 \right\}\)
-
常用的诱导范数 - p 范数(p-Norm):
- p 范数定义为:\(\|A\|_p = \max_{x \neq 0} \frac{\|Ax\|_p}{\|x\|_p}\)
得到绝对列和范数 列的绝对值和的最大值
得到矩阵的最大奇异值(Spectral Norm)
得到绝对行和范数(Absolute Row Sum Norm)
性质 / 指标 | 描述 |
---|---|
正定性 | 矩阵的正定性与负定性 |
行列式 | 矩阵的奇异性 |
特征值 | 矩阵的奇异性、正定性和对角元素的结构 |
迹 | 矩阵对角元素之和、特征值之和 |
秩 | 行(或列)之间的线性无关性、矩阵方程的解空间 |
quadratic form | 二次型 ¶
对于任意一个二次型函数 \(f(x_1, \ldots, x_n) = \sum_{i=1}^n \sum_{j=1}^n \alpha_{ij} x_i x_j\),存在许多矩阵 \(A\),它们的二次型 \(x^T A x = f(x_1, \ldots, x_n)\) 相同。
二次型一般用两个 sum 来表示
唯一性条件: - 只有实对称矩阵或复共轭对称矩阵满足唯一性,即 \(x^T A x = f(x_1, \ldots, x_n)\)。 - 二次型函数一定是实值函数。
二次型理论 - \(\mathbf{H(f)}\)负定,有极大值: 奇数阶主子式为负数,偶数阶为正数 - \(\mathbf{H(f)}\)正定,有极小值:顺序主子式都为正数 - \(\mathbf{H(f)}\)不定,鞍点:特征值有正有负 - \(\mathbf{H(f)}\)不可逆,无法判断:特征值有0
正定的理解
假设 \(\mathbf{A}x = m\), 则 \(\langle x,m \rangle = x^{\mathbf{H}} m = x^{\mathbf{H}} \mathbf{A} x\)
所以正定意味着 x,m 夹角小于 90 度
任意输入,输出偏离都不会太大,都是一个锐角
正定的话,所有特征值都大于零
determinant¶
\(det = \Pi_i^n \lambda_i\)
矩阵的行列式等于其特征值的乘积
对于一个 \(n \times n\) 的方阵 \(A\),如果它有 \(n\) 个线性无关的特征向量 \(v_1, v_2, \ldots, v_n\),那么 \(A\) 可以表示为:
而特征向量矩阵 \(V\) 是正交矩阵 \(V\cdot V^{\mathbf{H}} = I\);所以 \(det(V) = 1\)
又因为 \(det(\Lambda) = \lambda_1 \lambda_2 \cdots \lambda_n\),所以 \(A\) 的行列式等于它的特征值的乘积。
trace¶
所有特征值之和
rank¶
独立的方程的个数 ; 矩阵中线性无关的行或者列的数目
- \(rank(A) = rank(A^T)\)
- \(rank(A) = rank(A^H)\)
- \(rank(A) = rank(AA^H)\)
Tensors(todo)¶
Eigenvalues | 特征值 ¶
Eigenvectors | 特征向量 ¶
inverse | 逆矩阵 ¶
若 \(A\) 和 \(B\) 均可逆,则 \((AB)^{-1} = B^{-1}A^{-1}\)
矩阵求逆引理 ¶
已经完成了矩阵的求逆,在 A 的基础上加上一个秩为 1 矩阵,求解逆矩阵的变化
应用:自相关矩阵求逆 \(\hat{R}^{-1}(n)\)
\(\lambda\) 用来表征遗忘因子 ;\(\lambda\) 越小,越倾向于线性现在的数据
更新公式
左右逆 ¶
构造方法:想要构造成已经学过的方阵的求逆问题
仅当 \(m \geq n\) 时,矩阵 \(A\) 可能有左逆矩阵 \(L = \left(A^HA\right)^{-1}A^H\)
左逆:列满秩的时候一定存在 "Tall matrix" m>n
超定方程最小二乘解
仅当 \(m \leq n\) 时,矩阵 \(A\) 可能有右逆矩阵 \(L = A^H\left(AA^H\right)^{-1}\)
右逆:行满秩的时候一定存在
欠定方程最小范数解
computational demanding
Moore-Penrose Inverse | 伪逆矩阵 ¶
\(A^\dagger\)
Matrix Norms¶
三维到二维的变换 \(T : \mathbb{R}^3 \mapsto \mathbb{R}^2\)
正交投影算子 \(w = T(x)\)
矩阵运算 ¶
要关注矩阵运算对于矩阵维度的影响
矩阵乘法 ¶
矩阵乘法的行视角: 每一行都代表不同样本的特征; 左乘行向量相当于对行进行操作
矩阵乘法的列视角:每一列都作为最后结果中的一个成分(采集语音) 右乘列向量相当于对列进行操作
鸡尾酒会问题 Blind Signal Seperation
直和 ¶
\(m \times m\) 矩阵 \(A\) 与 \(n \times n\) 矩阵 \(B\) 的直和(direct sum)记作 \(A \oplus B\),它是一个 \((m + n) \times (m + n)\) 矩阵,定义为:
其中,\(O_{m \times n}\) 和 \(O_{n \times m}\) 分别表示 \(m \times n\) 和 \(n \times m\) 的零矩阵。
block diagonal matrix
Hadamard product¶
逐元素相乘
Kronecker product¶
每个元素都乘一个矩阵
\(m \times n\) 矩阵 \(A = [a_{11}, \cdots, a_{mn}]\) 和 \(p \times q\) 矩阵 \(B\) 的右 Kronecker 积记作 \(A \otimes B\),是一个 \(mp \times nq\) 矩阵,定义为
\(m \times n\) 矩阵 \(A\) 和 \(p \times q\) 矩阵 \(B = [b_{11}, \cdots, b_{pq}]\) 的左 Kronecker 积 \(A \otimes B\) 是一个 \(mp \times nq\) 矩阵,定义为
显然,无论左或右 Kronecker 积都是一一映射:\(\mathbb{R}^{m \times n} \times \mathbb{R}^{p \times q} \rightarrow \mathbb{R}^{mp \times nq}\)
Kronecker 积的例子
向量化和矩阵化 ¶
按列堆栈:
按行堆栈:
特殊矩阵 ¶
Hermitian 矩阵 ¶
复共轭对称矩阵 \(R = R^{H}\)
- 满足线性关系
- 相关矩阵、协方差矩阵
置换矩阵 | permutation matrix ¶
每一行以及每一列只有一个元素为 1,其他元素为 0
性质 - 右乘是对列重新排列 - 左乘是对行进行重新排列
- \((P_{m \times n})^T = P_{n \times m}\)
- \(P^T P = P P^T = I\),这说明置换矩阵是正交矩阵。
- \(P^T = P^{-1}\)
广义置换矩阵 ¶
一个正方矩阵称为广义置换矩阵,简称 g 矩阵,若其每行和每列有一个并且仅有一个非零元素
G 可写为一个置换矩阵和一个非奇异对角阵的乘积 ,\(G = P\Lambda\)
可用于观测数据模型和对信号进行恢复 , 可用于描述: - 累加导致信号顺序不确定 - 信号幅度不确定
酉矩阵 | Unitary matrix ¶
- 方阵
- \(U U^{H} = U^{H} U = I\)
- 向量内积、向量范数、向量夹角在酉变换下不变
- 正交矩阵在实数域而酉矩阵在复数域
并不是将实数域的 Transpose 扩展到复数域改成 Hermitian
实向量、实矩阵 | 复向量、复矩阵 |
---|---|
\(\|x\| = \sqrt{x_1^2 + x_2^2 + \cdots + x_n^2}\) | \(\|x\| = \sqrt{\|x_1\|^2 + \|x_2\|^2 + \cdots + \|x_n\|^2}\) |
转置 \(A^T = [a_{ji}]\), \((AB)^T = B^T A^T\) | 共轭转置 \(A^H = [a_{ji}]\), \((AB)^H = B^H A^H\) |
内积 \((x, y) = x^T y\) | 内积 \((x, y) = x^H y\) |
正交性 \(x^T y = 0\) | 正交性 \(x^H y = 0\) |
对称矩阵 \(A^T = A\) | Hermitian 矩阵 \(A^H = A\) |
正交矩阵 \(Q^T = Q^{-1}\) | 酉矩阵 \(U^H = U^{-1}\) |
特征值分解 \(A = Q \Lambda Q^{-1} = Q \Lambda Q^T\) | 特征值分解 \(A = U \Sigma U^H = U \Sigma U^{-1}\) |
范数的正交不变性 \(\|Qx\| = \|x\|\) | 范数的酉不变性 \(\|Ux\| = \|x\|\) |
内积的正交不变性 \((Qx, Qy) = (x, y)\) | 内积的酉不变性 \((Ux, Uy) = (x, y)\) |
正交矩阵 ¶
三角矩阵 ¶
相似矩阵 ¶
若存在非奇异矩阵 S, 使得 \(B = S^{-1}AS\),则称为 \(B\) 相似与 \(A\)
- 相似矩阵的特征值相同,特征向量存在线性变换关系
- \(det(B)=det(A)\)
- \(tr(B)=tr(A)\)
合同矩阵 ¶
Vandermonde 矩阵 ¶
Vandermonde 矩阵的每行或每列的元素组成一个等比数列。
或者写成:
若第二行元素各不相同,则矩阵非奇异。
DFT: 有限长离散序列,时域离散,频域离散
\(X_k = \sum_{n=0}^{N-1} x_n e^{-j \frac{2\pi kn}{N}} = \sum_{n=0}^{N-1} x_n \omega^{nk}\),其中 \(k = 0, 1, \ldots, N-1\) \(\hat{x} = F x\)
\(F = \begin{bmatrix} 1 & 1 & \cdots & 1 \\ 1 & \omega & \cdots & \omega^{N-1} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & \omega^{N-1} & \cdots & \omega^{(N-1)(N-1)} \end{bmatrix}\),其中 \(\omega = e^{-j \frac{2\pi}{N}}\),称为 Fourier 矩阵
- \(F^H F = F F^H = N I\)
- \(F^{-1} = \frac{1}{N} F^H = \frac{1}{N} F^*\)
\(x = F^{-1} \hat{x} = \frac{1}{N} F^* \hat{x}\)
\(x_n = \frac{1}{N} \sum_{k=0}^{N-1} X_k e^{j \frac{2\pi kn}{N}}\),其中 \(n = 0, 1, \ldots, N-1\)
傅里叶矩阵是一个酉矩阵
Hadamard 矩阵 ¶
\(H_n \in \mathbb{R}^{n \times n}\) 所有元素取 +1 或者 -1,且满足 \(H_n H_n^T = H_n^T H_n = nI_n\)。
性质 - 只有当 \(n = 2^k\) 或者 \(n\) 是4的整数倍时,Hadamard矩阵才存在。 - 容易验证 \(\frac{1}{\sqrt{n}} H_n\) 为标准正交矩阵。 - \(n \times n\) Hadamard矩阵 \(H_n\) 的行列式 \(\det(H_n) = n^{n/2}\)。
规范化的标准正交 Hadamard 矩阵具有通用构造公式:
其中:
Toeplitz 矩阵 ¶
任何一条对角线的元素取相同值:
对称 Toeplitz 矩阵 \(A = [a_{i-j}]_{i,j=0}^n\)
若一个复 Toeplitz 矩阵的元素满足复共轭对称关系 $ a_{-i} = a_i^* $,则称为 Hermitian Toeplitz 矩阵:
卷积操作是 Toplitz 矩阵
卷积操作 \(y = x \ast h\) 可以表示为:
\(y = H \cdot x\)
Hankel 矩阵 ¶
正方矩阵 \(A \in \mathbb{C}^{(n+1) \times (n+1)}\) 称为 Hankel 矩阵,若:
方程求解 ¶
奇异的意思是:冗余、重复、线性相关 非奇异的意思是:线性无关
向量空间 ¶
线性映射 ¶
线性映射(Linear Mapping)是指满足齐次性(Homogeneity)和叠加性(Additivity)的映射。
其中,\(c_1\) 和 \(c_2\) 是任意标量,\(\mathbf{u}\) 和 \(\mathbf{v}\) 是任意向量。
举例:投影矩阵
复矩阵方程求解 ¶
其中,\(A_r\) 和 \(A_i\) 是矩阵 \(A\) 的实部和虚部,\(b_r\) 和 \(b_i\) 是向量 \(b\) 的实部和虚部,\(I_n\) 和 \(O_n\) 分别是 \(n \times n\) 的单位矩阵和零矩阵,\(x_r\) 和 \(x_i\) 是向量 \(x\) 的实部和虚部。
相当于把复数乘法做了简单的拆分,转换成了矩阵的形式
已知了样本数据的 A,以及最终评价 b,那求解 x 的过程就是模型训练的过程
矩阵方程 ¶
Lyapunov 方程 ¶
矩阵分解 ¶
LU decomposition¶
相似对角化 ¶
全网最快速的特征向量暴力求法(纯干货技巧)_ 哔哩哔哩 _bilibili
相似对角化太难算,哈 - 凯定理怒斩 A 的 n 次方
求解方法
求特征值: - 计算矩阵 \(A\) 的特征值 \(\lambda_i\) ,这些特征值将构成对角矩阵 \(\Lambda\) 的对角线元素。
求特征向量: - 对于每个特征值 \(\lambda_i\),求解特征向量 \(v_i\),这些特征向量将构成矩阵 \(P\) 的列。
构造对角矩阵和特征向量矩阵: - 对角矩阵 \(\Lambda\):
- 特征向量矩阵 \(P\):
验证对角化: - 验证 \(A = P \Lambda P^{-1}\) 是否成立。
Eigen decomposition¶
SVD | Singular Value Decomposition(todo)¶
求导 ¶
微分与积分:element-wise
矩阵求导的链式法则
行偏导 ¶
列偏导(梯度)¶
Higher Order Derivatives¶
Taylor Series¶
Partial Derivatives¶
Gradient¶
Hessian Matrix¶
Jacobian Matrix(todo)¶
Probability¶
Random variables¶
statistics¶
从随机变量到随机向量再到随机矩阵:那个你不一定知道的矩阵高斯分布 - 知乎
统计不相关:互协方差矩阵是 0 矩阵 \(C_{xy} = O_{m\times n}\) 正交:互相关矩阵式零矩阵 \(R_{xy} = O_{m\times n}\)
均值向量 (Mean Vector) ¶
对于随机向量 \(\mathbf{x}\),其均值向量 \(\mu_x\) 定义为:
correlation 相关矩阵 ¶
自相关矩阵 \(R_x\) 定义为:
其中,\(\mathbf{x}^H(\xi)\) 表示 \(\mathbf{x}(\xi)\) 的共轭转置,\(r_{ij}\) 表示 \(x_i(\xi)\) 和 \(x_j(\xi)\) 之间的自相关函数。自相关矩阵是复共轭对称矩阵,即 Hermitian 矩阵。
互相关
其中,\(r_{x_i,y_j}\) 表示 \(x_i(\xi)\) 和 \(y_j(\xi)\) 之间的互相关函数。
Covariance 协方差矩阵 ¶
【什么是自相关矩阵,自协方差矩阵,互相关矩阵,互协方差矩阵
其中,\(c_{ij}\) 表示 \(x_i(\xi)\) 和 \(x_j(\xi)\) 之间的协方差。自协方差矩阵也是复共轭对称矩阵。
互协方差矩阵 \(C_{xy}\) 定义为:
其中,\(c_{x_i,y_j}\) 表示 \(x_i(\xi)\) 和 \(y_j(\xi)\) 之间的协方差。
相关系数 ¶
相关系数矩阵(Correlation Matrix)用于衡量随机向量中各个分量之间的线性相关程度。对于随机向量 \(\mathbf{x}\),其相关系数矩阵 \(\mathbf{R}_x\) 定义为:
其中,\(\rho_{ij}\) 表示 \(x_i(\xi)\) 和 \(x_j(\xi)\) 之间的相关系数,其取值范围为 \([-1, 1]\)。具体来说,相关系数 \(\rho_{ij}\) 定义为:
其中,\(\mu_i = E\{x_i(\xi)\}\) 和 \(\mu_j = E\{x_j(\xi)\}\) 分别表示 \(x_i(\xi)\) 和 \(x_j(\xi)\) 的均值,\(E\{\cdot\}\) 表示期望操作,\([\cdot]^*\) 表示复共轭。
相关系数矩阵具有以下性质: 1. 对角线上的元素全为1,即 \(\rho_{ii} = 1\)。 2. 相关系数矩阵是复共轭对称矩阵,即 \(\mathbf{R}_x = \mathbf{R}_x^H\)。 3. 相关系数矩阵的行列式为1,即 \(\det(\mathbf{R}_x) = 1\)。
高斯随机变量 ¶
为什么噪声一般建模为高斯
中心极限定理:独立同分布的随机变量的和,其分布趋近于高斯分布
complex normal¶
Probability distributions¶
Bayes’ Theorem(todo)¶
Probability Distributions¶
Information theory¶
Entropy¶
不确定性函数 \(f\) 是概率 \(P\) 的减函数;两个独立符号所产生的不确定性应等于各自不确定性之和,即 \(f(P1,P2)=f(P1)+f(P2)\),这称为可加性。同时满足这两个条件的函数 \(f\) 是对数函数,即 \(f(P)=\log\frac{1}{P} = -\log P\)。
Kullback–Leibler Divergence(todo)¶
Cross-entropy(todo)¶
Optimization algorithms¶
名词 ¶
矩阵与向量 ¶
中文名 | 英文名 |
---|---|
矩阵 | Matrix |
向量 | Vector |
转置 | Transpose |
共轭 | Conjugate |
导数 | Gradient |
转置共轭 | Hermitian |
求逆 | Inverse |
线性组合 | Linear Combination |
线性无关 | Linear Independence |
奇异性 | Singular |
向量空间 | Vector Space |
内积 | Inner Product |
外积 | Outer Product |
范数 | Norm |
行列式 | Determinant |
特征值 | Eigenvalue |
迹 | Trace |
秩 | Rank |
二次型 | Quadratic Form |
求逆 | Inverse |
矩阵求逆引理 | Matrix Inverse Lemma |
伪逆 | Pseudo Inverse |
直和 | Direct Sum |
Hadamard 积 | Hadamard Product |
Kronecker 积 | Kronecker Product |
稀疏 | Sparse |
压缩感知 | Compressive Sensing |
Hermitian 矩阵 | Hermitian Matrix |
置换矩阵 | Permutation Matrix |
通信矩阵 | Communication Matrix |
广义置换矩阵 | Generalized Permutation Matrix |
正交矩阵 | Orthogonal Matrix |
酉矩阵 | Unitary Matrix |
上三角矩阵 | Upper Triangular Matrix |
下三角矩阵 | Lower Triangular Matrix |
LU 分解 | LU Decomposition |
Vandemonde 矩阵 | Vandemonde Matrix |
相似矩阵 | Similar Matrix |
概率与统计 ¶
中文名 | 英文名 |
---|---|
概率密度函数 | Probability Density Function (pdf) |
累计分布函数 | Cumulative Distribution Function (cdf) |
均值向量 | Mean Vector |
相关矩阵 | Correlation Matrix |
协方差矩阵 | Covariance Matrix |
信息论 ¶
中文名 | 英文名 |
---|---|
熵 | Entropy |
Kullback–Leibler 散度 | Kullback–Leibler Divergence |
交叉熵 | Cross-entropy |
优化算法 ¶
中文名 | 英文名 |
---|---|
梯度下降 | Gradient Descent |
牛顿法 | Newton's Method |
共轭梯度法 | Conjugate Gradient Method |
拉格朗日乘数法 | Lagrange Multipliers |
约束优化 | Constrained Optimization |
无约束优化 | Unconstrained Optimization |