数学基础
参考资料
微积分
函数
- 单射: \(\forall x_1, x_2 \in X, \ f(x_1)=f(x_2) \Rightarrow x_1=x_2\)
- 满射: \(\forall y \in Y, \ \exists x \in X, \ f(x)=y\)
- 双射: 单射且满射 (一一对应)
- 连续性: \(\forall \epsilon>0, \ \exists \delta>0, \ |x-x_0|<\delta \Rightarrow |f(x)-f(x_0)|<\epsilon\) (\(\epsilon-\delta\) 定义)
- 可导性: \(f'(x_0)=\lim_{h\to0}\frac{f(x_0+h)-f(x_0)}{h}\) 存在 (连续性必要非充分)
- 复合函数 / 反函数导数: \((f\circ g)'=(f'\circ g)g'\), \(y=f^{-1}(x)\) 则 \(y'=1/f'(x)\)
- 凸函数: 任意两点连线在函数图像上方 (\(f(\theta x + (1-\theta)y) \le \theta f(x) + (1-\theta)f(y)\)), 二阶导数非负, 局部极小值即全局极小值
极限
- 阶: \(f(x)\sim g(x)\) (同阶), \(f=o(g)\) (高阶无穷小)
- 等价无穷小:
\[
\begin {cases}
\sin x \sim x\\
(1+x)^{1/x}\sim e^x\\
e^x - 1 \sim x\\
\ln(1+x) \sim x\\
\end {cases}
\]
- 重要极限:
\[
\begin {cases}
\lim_{x \to 0} \frac {\sin x}{x} = 1\\
\lim_{x \to 0} \frac {1-\cos x}{x^2} = \frac12\\
\lim_{x \to \infty} \left (1+\frac1x\right)^x = e\\
\lim_{x \to 0} \frac {x^x-1}{x}=\ln e=1
\end {cases}
\]
- 洛必达法则: \(\frac{\infty}{\infty}\) 或 \(\frac{0}{0}\) 型, \(\lim\frac{f}{g}=\lim\frac{f'}{g'}\) (可多次, 前提是 \(\lim\frac{f'}{g'}\) 存在)
导数
- 方向导数: \(D_{\mathbf{u}}f(\mathbf{r})=\nabla f\cdot\mathbf{u}\) (单位向量\(\mathbf{u}\)方向)
- 梯度: \(\nabla f=(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y},\dots)^T\) (最大方向导数 \(|\nabla f|\), 函数增长最快方向, 负梯度为下降最快方向)
- 偏导数: \(\frac{\partial f}{\partial x}\) (保持其他变量不变), 正交方向导数为 \(0\)
- 雅可比矩阵: 向量函数 \(\mathbf{f}: \mathbb{R}^n \to \mathbb{R}^m\) 的一阶偏导矩阵, \(J_{ij} = \frac{\partial f_i}{\partial x_j}\), 描述变换的局部线性逼近
- 海森矩阵: 多元函数的二阶偏导方阵 \(H_{ij} = \frac{\partial^2 f}{\partial x_i \partial x_j}\), 描述曲率, 正定对应极小值
微分与优化
- 全微分: \(df=\sum \frac{\partial f}{\partial x_i}dx_i\)
- 中值定理: 罗尔 \(f(a)=f(b)\Rightarrow f'(c)=0\), 拉格朗日 \(f(b)-f(a)=f'(c)(b-a)\), 柯西 \(\frac{f(b)-f(a)}{b-a}=\frac{f'(c)-f'(d)}{b-a}\)
- 隐函数求导: \(F(x,y)=0\Rightarrow\frac{dy}{dx}=-\frac{F_x}{F_y}\)
- 拉格朗日乘数法: 约束优化 \(\min f(x)\) 使得 \(g(x)=0\), 构造 \(L(x, \lambda) = f(x) + \lambda g(x)\), 求解 \(\nabla L = 0\)
- 微分方程: 一阶分离 \(\frac{dy}{dx}=f(x)g(y)\Rightarrow\int\frac{dy}{g(y)}=\int f(x)dx\), 线性 \(M dx+N dy=0\)
积分
- 不定积分: \(\int f(x)dx=F(x)+C\) (\(F'=f\))
- 定积分: \(\int_a^b f(x)dx = F(b) - F(a)\) (牛顿-莱布尼茨)
多重积分
- 二重积分: \(\iint_D f(x, y) \, dxdy = \int_{a}^{b} \int_{c(x)}^{d(x)} f(x, y) \, dydx\)
- 三重积分: \(\iiint_V f(x, y, z) \, dxdydz = \int_{a}^{b} \int_{c(x)}^{d(x)} \int_{p(x, y)}^{q(x, y)} f(x, y, z) \, dzdydx\)
- 坐标变换: 极坐标 \(\iint r\,drd\theta\), 球坐标 \(\iiint \rho^2\sin\phi\,d\rho d\phi d\theta\)
积分技巧
- 换元积分法: \(\int f(g(x))g'(x)dx = \int f(u)du \quad (u = g(x))\)
- 分部积分法: \(\int u \, dv = uv - \int v \, du\)
- 部分分式: \(\frac{1}{x^2-1}=\frac{1/2}{x-1}-\frac{1/2}{x+1}\)
- 三角换元: \(\int\frac{dx}{\sqrt{a^2-x^2}}=\arcsin\frac{x}{a}\)
级数
- 敛散性判定:
\[
\begin{cases}
\text{比值: }\lim\left|\frac{a_{n+1}}{a_n}\right|<1\text{收敛}\\
\text{根值: }\lim\sqrt[n]{|a_n|}<1\text{收敛}\\
\text{积分: }\int_1^\infty|f(x)|dx<\infty\\
\text{交错: }b_n\searrow0\Rightarrow\sum(-1)^n b_n\text{收敛}\\
\text{比项: }a_n\le c_n, \sum c_n\text{收敛}\Rightarrow\sum a_n\text{收敛}
\end{cases}
\]
- 泰勒展开: \(f (x) = \sum_{n=0}^\infty \frac {f^{(n)}(a)}{n!}(x-a)^n\) (局部逼近)
- 多元泰勒: \(f(\mathbf{x}) \approx f(\mathbf{a}) + \nabla f(\mathbf{a})^T (\mathbf{x}-\mathbf{a}) + \frac{1}{2}(\mathbf{x}-\mathbf{a})^T \mathbf{H}(\mathbf{a}) (\mathbf{x}-\mathbf{a})\)
- 常用级数: \(e^x=\sum\frac{x^n}{n!}\), \(\sin x=\sum(-1)^n\frac{x^{2n+1}}{(2n+1)!}\), 几何 \(\sum x^n=\frac{1}{1-x}\) (\(|x|<1\))
线性代数
矩阵
- 行代表约束, 列代表生成 (列空间)
- 运算 / 分块矩阵
- 逆 (反变换) \(A^{-1} = \frac{1}{\det(A)}\mathrm{adj}(A)\) (仅理论用, 实际用消元或分解)
- 伴随矩阵 \(\mathrm{adj}(A)_{ij} = (-1)^{i+j} M_{ji}\)
- 当 \(\det(A) = 0 \text{, 且} rank = n - 1\) 时, 伴随矩阵指向被压缩掉的维度
- 初等变换
- 不改变向量线性变换的相对关系
- 不改变矩阵的 rank
- 不改变零空间
- 正交矩阵: \(Q^TQ = I\), 列向量两两正交且模为 \(1\), 保持向量长度和夹角不变
- 输入空间的维度 = 列 rank + 零空间的维度 (秩-零化度定理)
- 迹 (Trace): \(\mathrm{tr}(A) = \sum a_{ii} = \sum \lambda_i\), 且 \(\mathrm{tr}(ABC) = \mathrm{tr}(BCA) = \mathrm{tr}(CAB)\)
矩阵分解
- LU 分解: \(A=LU\), 用于高效解方程
- QR 分解: \(A=QR\), 用于 Gram-Schmidt 正交化和最小二乘法
- SVD (奇异值分解): \(A = U \Sigma V^T\), 任意矩阵可用, 揭示矩阵本质 (旋转-拉伸-旋转), 用于降维 (PCA) 和压缩
- Cholesky 分解: \(A = LL^T\), 针对正定矩阵的高效分解
矩阵求导
- 分子布局: \(\left(\frac{\partial y}{\partial \mathbf{x}}\right)_i = \frac{\partial y}{\partial x_i}\)
- 分母布局: \(\left(\frac{\partial y}{\partial \mathbf{x}}\right)^T_i = \frac{\partial y}{\partial x_i}\)
- 维度匹配: 结果维度与被导变量维度相同
向量与范数
- 线性关系
- 极大线形无关组 一组线性无关向量的集合 (空间的一组基)
- 内积: \(\mathbf{a} \cdot \mathbf{b} = \mathbf{a}^T\mathbf{b} = |\mathbf{a}||\mathbf{b}|\cos\theta\)
- 范数 (Norm): 衡量向量大小
- \(L_1\) 范数: \(\sum |x_i|\) (曼哈顿距离, 对应稀疏解)
- \(L_2\) 范数: \(\sqrt{\sum x_i^2}\) (欧氏距离, 对应正则化权重衰减)
- \(L_\infty\) 范数: \(\max |x_i|\)
行列式
- 变换后 "体积" 的比例关系
- 展开 / 变换 / 求解
- 所有特征值的乘积 (\(\det(A) = \prod \lambda_i\))
- 余子式: 去掉某一行一列剩余的体积
- 某一行的代数余子式形成的行向量与其它行向量的内积为 0
rank (秩)
- 线性空间维数
- 线性相关 /
行列式 == 0本质是降维 / 退化 - 性质: \(rank(AB) \le \min(rank(A), rank(B))\)
特征值与特征向量
- 变换后 "特定方向" (特征向量) 上存在的比例关系 (特征值): \(Ax = \lambda x\)
- 对角化 (变基后特征向量正交, 要求满 rank): \(A = P \Lambda P^{-1}\)
- 所有特征值之和 = 对角线元素之和 (迹)
- 正定矩阵: 特征值全为正 (\(\lambda_i > 0\)), 对应凸函数 Hessian, \(x^TAx > 0\)
矩阵关系
- 等价 (同一空间维度, \(rank\) 相同)
- 相似 (不同基下的同一变换, \(P^{-1}AP=B\))
- 合同 (不同基下的同一个二次型, \(P^TAP=B\))
- 正交相似 (不同正交基下的同一变换)
线性方程组
- 最简阶梯形
- 求解经变换后为特定向量的未知向量
- 伪逆: \(A^\dagger = (A^T A)^{-1} A^T\) (当 \(A\) 列满秩时), 用于最小二乘解 \(x = A^\dagger b\)
条件数
- 衡量矩阵 "病态" 程度
- 定义: \(\kappa(A) = ||A|| \cdot ||A^{-1}||\)
- 条件数大, 说明矩阵接近奇异, 计算不稳定
二次型矩阵
- 用于描述二次型函数的矩阵 (\(x^T A x\))
- 用相似变换 (不退化) 使矩阵 "对角化", 得到标准形
- 再将系数简化为正负 1 得到规范形
- 判断有定性 (Definiteness)
- 正定: 所有特征值 \(>0\), 描述变换会使向量长度增加, 形状像碗 (凸)
- 负定: 所有特征值 \(<0\), 形状像倒扣的碗 (凹)
- 半正定: 特征值 \(\ge 0\), 类似平底锅
概率论与数理统计
基本概念
- 频率 / 概率 / 独立性 (\(P(AB)=P(A)P(B)\))
- 古典概型 / 几何概型
- 条件概率: \(P(A|B) = P(AB)/P(B)\)
- 全概率: \(P (A) = \sum_{i=1}^n P (A|B_i) P (B_i) \quad ({B_i}\text {为完备事件组})\)
- 贝叶斯: \(P (B_k|A) = \frac {P (A|B_k) P (B_k)}{P(A)} = \frac {P (A|B_k) P (B_k)}{\sum P (A|B_i) P (B_i)}\) (后验 = 似然 \(\times\) 先验 / 证据)
信息论基础
- 熵 (Entropy): \(H(X) = - \sum p(x) \log p(x)\), 衡量不确定性或信息量
- KL 散度 (相对熵): \(D_{KL}(P||Q) = \sum P(x) \log \frac{P(x)}{Q(x)}\), 衡量分布差异, 非对称
- 交叉熵: \(H(P, Q) = H(P) + D_{KL}(P||Q) = -\sum P(x) \log Q(x)\), 常用分类损失函数
- 互信息: \(I(X;Y) = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}\), 衡量变量间的依赖关系
分布
- 概率函数 描述概率累加 (PMF/CDF)
- 概率密度函数 (导数) 描述概率 (PDF)
- 二维函数 可求偏导 (边缘密度函数 \(f_X (x) = \int_{-\infty}^\infty f (x, y) dy\)) 可用于判断独立
- 期望: \(E (X) = \sum x_k p (x_k) \ \text{or} \ \int x f (x) dx\)
- 方差: \(D (X) = E \left [ (X-E (X))^2 \right ] = E(X^2) - [E(X)]^2\)
- 协方差 描述互相影响程度: \(Cov(X,Y) = E[(X-\mu_x)(Y-\mu_y)]\)
- 相关系数 描述线性相关程度: \(\rho = Cov(X,Y) / (\sigma_x \sigma_y)\)
- 协方差矩阵: 多维变量的方差与协方差构成的对称矩阵 \(\Sigma\), 对角线为方差
样本与极限
- 统计量 (样本的一个特征)
- 切比雪夫不等式: \(P (|X-\mu| \geq \epsilon) \leq \frac {\sigma^2}{\epsilon^2}\)
- 大数定律 (均值收敛期望)
- 中心极限定理 (大量独立随机变量和近似正态分布)
参数估计与检验
- 极大似然估计 (MLE): 寻找参数 \(\theta\) 使得观测样本出现的概率最大 (\(\max \prod P(x_i|\theta)\)), 通常对数化求解 (\(\max \sum \ln P(x_i|\theta)\))
- 最大后验估计 (MAP): 在 MLE 基础上加入先验概率 \(P(\theta)\) (对应正则化)
- 矩估计: 用样本矩估计总体矩
- 区间估计: 估计特征值在某区间的概率
- 假设检验: 校验假设 (关于统计量) 相对样本的发生概率, 关注 Type I (弃真) 和 Type II (取伪) 错误
抽样分布
- 正态分布 (样本均值服从自身)
- 卡方分布 (正态样本方差与分布方差的比值)
- \(\chi^2 (n) = \sum_{i=1}^n Z_i^2 \quad (Z_i \sim N (0, 1))\)
- t 分布 (正态样本量小时, 对应的标准正态分布化的结果, 更易偏移)
- 正态分布拟合统计量时, 仅补偿均值, t 分布同时补偿方差
- \(T = \frac {\bar {X}-\mu}{S/\sqrt {n}} \sim t (n-1)\)
- F 分布 (卡方 /n 的比值)
- 根据大数定律与上两个分布取样越多越稳定, F 分布可以描述不同取样量的两个样本的方差的比
- \(F (m, n) = \frac {\chi^2 (m)/m}{\chi^2 (n)/n}\)
离散型分布
0-1 分布 (伯努利分布)
- 参数: 成功概率 \(p \in [0, 1]\)
- PMF:
\[ P(X=k) = \begin{cases}
p & k=1 \\
1-p & k=0
\end{cases}
\]
- 期望: \(E(X) = p\)
- 方差: \(D(X) = p(1-p)\)
二项分布 $ B(n, p) $
- 参数: 试验次数 $n \in \mathbb{N}^* $, 成功概率 $ p \in [0, 1]$
- PMF: \(P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} \quad (k=0, 1, ..., n)\)
- 期望: \(E(X) = np\)
- 方差: \(D(X) = np(1-p)\)
泊松分布 $ P(\lambda) $
- 参数: 发生率 \(\lambda > 0\)
- PMF: \(P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} \quad (k=0, 1, 2, ...)\)
- 期望: \(E(X) = \lambda\)
- 方差: \(D(X) = \lambda\)
几何分布
- 参数: 成功概率 \(p \in (0, 1)\)
- PMF: \(P(X=k) = (1-p)^{k-1} p \quad (k=1, 2, ...)\)
- 期望: \(E(X) = \frac{1}{p}\)
- 方差: \(D(X) = \frac{1-p}{p^2}\)
连续型分布
均匀分布 \(U(a, b)\)
- 参数: 区间端点 \(a < b\)
- PDF:
\[
f(x) = \begin{cases}
\frac{1}{b-a} & x \in [a, b] \\
0 & \text{其他}
\end{cases}
\]
- 期望: \(E(X) = \frac{a+b}{2}\)
- 方差: \(D(X) = \frac{(b-a)^2}{12}\)
正态分布 \(N(\mu, \sigma^2)\)
- 参数: 均值 \(\mu \in \mathbb{R}\), 方差 \(\sigma^2 > 0\)
- PDF: \(f(x) = \frac {1} {\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) [修改: 修正 LaTeX 格式]
- 期望: \(E(X) = \mu\)
- 方差: \(D(X) = \sigma^2\)
指数分布 \(Exp(\lambda)\)
- 参数: 率参数 \(\lambda > 0\)
- PDF:
\[
f(x) = \begin{cases}
\lambda e^{-\lambda x} & x \geq 0 \\
0 & x < 0
\end{cases}
\]
- 期望: \(E(X) = \frac{1}{\lambda}\)
- 方差: \(D(X) = \frac{1}{\lambda^2}\)
- 无记忆性: \(P(X > s+t | X > s) = P(X > t)\)
Beta 与 Gamma 分布
- Gamma 函数: \(\Gamma(n) = (n-1)!\)
- Gamma 分布: 定义在正实数集, 泊松分布的共轭先验
- Beta 函数: \(B(\alpha, \beta) = \int_0^1 t^{\alpha-1} (1-t)^{\beta-1} dt\)
- Beta 分布: 定义在 [0,1] 区间, 二项分布的共轭先验
- 共轭先验: 后验分布与先验分布属于同一分布族 -> 只用调参, 不用变形