跳转至

数学基础

参考资料

微积分

函数

  • 单射: \(\forall x_1, x_2 \in X, \ f(x_1)=f(x_2) \Rightarrow x_1=x_2\)
  • 满射: \(\forall y \in Y, \ \exists x \in X, \ f(x)=y\)
  • 双射: 单射且满射 (一一对应)
  • 连续性: \(\forall \epsilon>0, \ \exists \delta>0, \ |x-x_0|<\delta \Rightarrow |f(x)-f(x_0)|<\epsilon\) (\(\epsilon-\delta\) 定义)
  • 可导性: \(f'(x_0)=\lim_{h\to0}\frac{f(x_0+h)-f(x_0)}{h}\) 存在 (连续性必要非充分)
  • 复合函数 / 反函数导数: \((f\circ g)'=(f'\circ g)g'\), \(y=f^{-1}(x)\)\(y'=1/f'(x)\)
  • 凸函数: 任意两点连线在函数图像上方 (\(f(\theta x + (1-\theta)y) \le \theta f(x) + (1-\theta)f(y)\)), 二阶导数非负, 局部极小值即全局极小值

极限

  • 阶: \(f(x)\sim g(x)\) (同阶), \(f=o(g)\) (高阶无穷小)
  • 等价无穷小:
\[ \begin {cases} \sin x \sim x\\ (1+x)^{1/x}\sim e^x\\ e^x - 1 \sim x\\ \ln(1+x) \sim x\\ \end {cases} \]
  • 重要极限:
\[ \begin {cases} \lim_{x \to 0} \frac {\sin x}{x} = 1\\ \lim_{x \to 0} \frac {1-\cos x}{x^2} = \frac12\\ \lim_{x \to \infty} \left (1+\frac1x\right)^x = e\\ \lim_{x \to 0} \frac {x^x-1}{x}=\ln e=1 \end {cases} \]
  • 洛必达法则: \(\frac{\infty}{\infty}\)\(\frac{0}{0}\) 型, \(\lim\frac{f}{g}=\lim\frac{f'}{g'}\) (可多次, 前提是 \(\lim\frac{f'}{g'}\) 存在)

导数

  • 方向导数: \(D_{\mathbf{u}}f(\mathbf{r})=\nabla f\cdot\mathbf{u}\) (单位向量\(\mathbf{u}\)方向)
  • 梯度: \(\nabla f=(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y},\dots)^T\) (最大方向导数 \(|\nabla f|\), 函数增长最快方向, 负梯度为下降最快方向)
  • 偏导数: \(\frac{\partial f}{\partial x}\) (保持其他变量不变), 正交方向导数为 \(0\)
  • 雅可比矩阵: 向量函数 \(\mathbf{f}: \mathbb{R}^n \to \mathbb{R}^m\) 的一阶偏导矩阵, \(J_{ij} = \frac{\partial f_i}{\partial x_j}\), 描述变换的局部线性逼近
  • 海森矩阵: 多元函数的二阶偏导方阵 \(H_{ij} = \frac{\partial^2 f}{\partial x_i \partial x_j}\), 描述曲率, 正定对应极小值

微分与优化

  • 全微分: \(df=\sum \frac{\partial f}{\partial x_i}dx_i\)
  • 中值定理: 罗尔 \(f(a)=f(b)\Rightarrow f'(c)=0\), 拉格朗日 \(f(b)-f(a)=f'(c)(b-a)\), 柯西 \(\frac{f(b)-f(a)}{b-a}=\frac{f'(c)-f'(d)}{b-a}\)
  • 隐函数求导: \(F(x,y)=0\Rightarrow\frac{dy}{dx}=-\frac{F_x}{F_y}\)
  • 拉格朗日乘数法: 约束优化 \(\min f(x)\) 使得 \(g(x)=0\), 构造 \(L(x, \lambda) = f(x) + \lambda g(x)\), 求解 \(\nabla L = 0\)
  • 微分方程: 一阶分离 \(\frac{dy}{dx}=f(x)g(y)\Rightarrow\int\frac{dy}{g(y)}=\int f(x)dx\), 线性 \(M dx+N dy=0\)

积分

  • 不定积分: \(\int f(x)dx=F(x)+C\) (\(F'=f\))
  • 定积分: \(\int_a^b f(x)dx = F(b) - F(a)\) (牛顿-莱布尼茨)

多重积分

  • 二重积分: \(\iint_D f(x, y) \, dxdy = \int_{a}^{b} \int_{c(x)}^{d(x)} f(x, y) \, dydx\)
  • 三重积分: \(\iiint_V f(x, y, z) \, dxdydz = \int_{a}^{b} \int_{c(x)}^{d(x)} \int_{p(x, y)}^{q(x, y)} f(x, y, z) \, dzdydx\)
  • 坐标变换: 极坐标 \(\iint r\,drd\theta\), 球坐标 \(\iiint \rho^2\sin\phi\,d\rho d\phi d\theta\)

积分技巧

  • 换元积分法: \(\int f(g(x))g'(x)dx = \int f(u)du \quad (u = g(x))\)
  • 分部积分法: \(\int u \, dv = uv - \int v \, du\)
  • 部分分式: \(\frac{1}{x^2-1}=\frac{1/2}{x-1}-\frac{1/2}{x+1}\)
  • 三角换元: \(\int\frac{dx}{\sqrt{a^2-x^2}}=\arcsin\frac{x}{a}\)

级数

  • 敛散性判定:
\[ \begin{cases} \text{比值: }\lim\left|\frac{a_{n+1}}{a_n}\right|<1\text{收敛}\\ \text{根值: }\lim\sqrt[n]{|a_n|}<1\text{收敛}\\ \text{积分: }\int_1^\infty|f(x)|dx<\infty\\ \text{交错: }b_n\searrow0\Rightarrow\sum(-1)^n b_n\text{收敛}\\ \text{比项: }a_n\le c_n, \sum c_n\text{收敛}\Rightarrow\sum a_n\text{收敛} \end{cases} \]
  • 泰勒展开: \(f (x) = \sum_{n=0}^\infty \frac {f^{(n)}(a)}{n!}(x-a)^n\) (局部逼近)
  • 多元泰勒: \(f(\mathbf{x}) \approx f(\mathbf{a}) + \nabla f(\mathbf{a})^T (\mathbf{x}-\mathbf{a}) + \frac{1}{2}(\mathbf{x}-\mathbf{a})^T \mathbf{H}(\mathbf{a}) (\mathbf{x}-\mathbf{a})\)
  • 常用级数: \(e^x=\sum\frac{x^n}{n!}\), \(\sin x=\sum(-1)^n\frac{x^{2n+1}}{(2n+1)!}\), 几何 \(\sum x^n=\frac{1}{1-x}\) (\(|x|<1\))

线性代数

矩阵

  • 行代表约束, 列代表生成 (列空间)
  • 运算 / 分块矩阵
  • 逆 (反变换) \(A^{-1} = \frac{1}{\det(A)}\mathrm{adj}(A)\) (仅理论用, 实际用消元或分解)
  • 伴随矩阵 \(\mathrm{adj}(A)_{ij} = (-1)^{i+j} M_{ji}\)
    • \(\det(A) = 0 \text{, 且} rank = n - 1\) 时, 伴随矩阵指向被压缩掉的维度
  • 初等变换
    • 不改变向量线性变换的相对关系
    • 不改变矩阵的 rank
    • 不改变零空间
  • 正交矩阵: \(Q^TQ = I\), 列向量两两正交且模为 \(1\), 保持向量长度和夹角不变
  • 输入空间的维度 = 列 rank + 零空间的维度 (秩-零化度定理)
  • 迹 (Trace): \(\mathrm{tr}(A) = \sum a_{ii} = \sum \lambda_i\), 且 \(\mathrm{tr}(ABC) = \mathrm{tr}(BCA) = \mathrm{tr}(CAB)\)

矩阵分解

  • LU 分解: \(A=LU\), 用于高效解方程
  • QR 分解: \(A=QR\), 用于 Gram-Schmidt 正交化和最小二乘法
  • SVD (奇异值分解): \(A = U \Sigma V^T\), 任意矩阵可用, 揭示矩阵本质 (旋转-拉伸-旋转), 用于降维 (PCA) 和压缩
  • Cholesky 分解: \(A = LL^T\), 针对正定矩阵的高效分解

矩阵求导

  • 分子布局: \(\left(\frac{\partial y}{\partial \mathbf{x}}\right)_i = \frac{\partial y}{\partial x_i}\)
  • 分母布局: \(\left(\frac{\partial y}{\partial \mathbf{x}}\right)^T_i = \frac{\partial y}{\partial x_i}\)
  • 维度匹配: 结果维度与被导变量维度相同

向量与范数

  • 线性关系
  • 极大线形无关组 一组线性无关向量的集合 (空间的一组基)
  • 内积: \(\mathbf{a} \cdot \mathbf{b} = \mathbf{a}^T\mathbf{b} = |\mathbf{a}||\mathbf{b}|\cos\theta\)
  • 范数 (Norm): 衡量向量大小
    • \(L_1\) 范数: \(\sum |x_i|\) (曼哈顿距离, 对应稀疏解)
    • \(L_2\) 范数: \(\sqrt{\sum x_i^2}\) (欧氏距离, 对应正则化权重衰减)
    • \(L_\infty\) 范数: \(\max |x_i|\)

行列式

  • 变换后 "体积" 的比例关系
  • 展开 / 变换 / 求解
  • 所有特征值的乘积 (\(\det(A) = \prod \lambda_i\))
  • 余子式: 去掉某一行一列剩余的体积
  • 某一行的代数余子式形成的行向量与其它行向量的内积为 0

rank (秩)

  • 线性空间维数
  • 线性相关 / 行列式 == 0 本质是降维 / 退化
  • 性质: \(rank(AB) \le \min(rank(A), rank(B))\)

特征值与特征向量

  • 变换后 "特定方向" (特征向量) 上存在的比例关系 (特征值): \(Ax = \lambda x\)
  • 对角化 (变基后特征向量正交, 要求满 rank): \(A = P \Lambda P^{-1}\)
  • 所有特征值之和 = 对角线元素之和 (迹)
  • 正定矩阵: 特征值全为正 (\(\lambda_i > 0\)), 对应凸函数 Hessian, \(x^TAx > 0\)

矩阵关系

  • 等价 (同一空间维度, \(rank\) 相同)
  • 相似 (不同基下的同一变换, \(P^{-1}AP=B\))
  • 合同 (不同基下的同一个二次型, \(P^TAP=B\))
  • 正交相似 (不同正交基下的同一变换)

线性方程组

  • 最简阶梯形
  • 求解经变换后为特定向量的未知向量
  • 伪逆: \(A^\dagger = (A^T A)^{-1} A^T\) (当 \(A\) 列满秩时), 用于最小二乘解 \(x = A^\dagger b\)

条件数

  • 衡量矩阵 "病态" 程度
  • 定义: \(\kappa(A) = ||A|| \cdot ||A^{-1}||\)
  • 条件数大, 说明矩阵接近奇异, 计算不稳定

二次型矩阵

  • 用于描述二次型函数的矩阵 (\(x^T A x\))
  • 用相似变换 (不退化) 使矩阵 "对角化", 得到标准形
  • 再将系数简化为正负 1 得到规范形
  • 判断有定性 (Definiteness)
  • 正定: 所有特征值 \(>0\), 描述变换会使向量长度增加, 形状像碗 (凸)
  • 负定: 所有特征值 \(<0\), 形状像倒扣的碗 (凹)
  • 半正定: 特征值 \(\ge 0\), 类似平底锅

概率论与数理统计

基本概念

  • 频率 / 概率 / 独立性 (\(P(AB)=P(A)P(B)\))
  • 古典概型 / 几何概型
  • 条件概率: \(P(A|B) = P(AB)/P(B)\)
  • 全概率: \(P (A) = \sum_{i=1}^n P (A|B_i) P (B_i) \quad ({B_i}\text {为完备事件组})\)
  • 贝叶斯: \(P (B_k|A) = \frac {P (A|B_k) P (B_k)}{P(A)} = \frac {P (A|B_k) P (B_k)}{\sum P (A|B_i) P (B_i)}\) (后验 = 似然 \(\times\) 先验 / 证据)

信息论基础

  • 熵 (Entropy): \(H(X) = - \sum p(x) \log p(x)\), 衡量不确定性或信息量
  • KL 散度 (相对熵): \(D_{KL}(P||Q) = \sum P(x) \log \frac{P(x)}{Q(x)}\), 衡量分布差异, 非对称
  • 交叉熵: \(H(P, Q) = H(P) + D_{KL}(P||Q) = -\sum P(x) \log Q(x)\), 常用分类损失函数
  • 互信息: \(I(X;Y) = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}\), 衡量变量间的依赖关系

分布

  • 概率函数 描述概率累加 (PMF/CDF)
  • 概率密度函数 (导数) 描述概率 (PDF)
  • 二维函数 可求偏导 (边缘密度函数 \(f_X (x) = \int_{-\infty}^\infty f (x, y) dy\)) 可用于判断独立
  • 期望: \(E (X) = \sum x_k p (x_k) \ \text{or} \ \int x f (x) dx\)
  • 方差: \(D (X) = E \left [ (X-E (X))^2 \right ] = E(X^2) - [E(X)]^2\)
  • 协方差 描述互相影响程度: \(Cov(X,Y) = E[(X-\mu_x)(Y-\mu_y)]\)
  • 相关系数 描述线性相关程度: \(\rho = Cov(X,Y) / (\sigma_x \sigma_y)\)
  • 协方差矩阵: 多维变量的方差与协方差构成的对称矩阵 \(\Sigma\), 对角线为方差

样本与极限

  • 统计量 (样本的一个特征)
  • 切比雪夫不等式: \(P (|X-\mu| \geq \epsilon) \leq \frac {\sigma^2}{\epsilon^2}\)
  • 大数定律 (均值收敛期望)
  • 中心极限定理 (大量独立随机变量和近似正态分布)

参数估计与检验

  • 极大似然估计 (MLE): 寻找参数 \(\theta\) 使得观测样本出现的概率最大 (\(\max \prod P(x_i|\theta)\)), 通常对数化求解 (\(\max \sum \ln P(x_i|\theta)\))
  • 最大后验估计 (MAP): 在 MLE 基础上加入先验概率 \(P(\theta)\) (对应正则化)
  • 矩估计: 用样本矩估计总体矩
  • 区间估计: 估计特征值在某区间的概率
  • 假设检验: 校验假设 (关于统计量) 相对样本的发生概率, 关注 Type I (弃真) 和 Type II (取伪) 错误

抽样分布

  • 正态分布 (样本均值服从自身)
  • 卡方分布 (正态样本方差与分布方差的比值)
    • \(\chi^2 (n) = \sum_{i=1}^n Z_i^2 \quad (Z_i \sim N (0, 1))\)
  • t 分布 (正态样本量小时, 对应的标准正态分布化的结果, 更易偏移)
    • 正态分布拟合统计量时, 仅补偿均值, t 分布同时补偿方差
    • \(T = \frac {\bar {X}-\mu}{S/\sqrt {n}} \sim t (n-1)\)
  • F 分布 (卡方 /n 的比值)
    • 根据大数定律与上两个分布取样越多越稳定, F 分布可以描述不同取样量的两个样本的方差的比
    • \(F (m, n) = \frac {\chi^2 (m)/m}{\chi^2 (n)/n}\)

离散型分布

0-1 分布 (伯努利分布)

  • 参数: 成功概率 \(p \in [0, 1]\)
  • PMF:
\[ P(X=k) = \begin{cases} p & k=1 \\ 1-p & k=0 \end{cases} \]
  • 期望: \(E(X) = p\)
  • 方差: \(D(X) = p(1-p)\)

二项分布 $ B(n, p) $

  • 参数: 试验次数 $n \in \mathbb{N}^* $, 成功概率 $ p \in [0, 1]$
  • PMF: \(P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} \quad (k=0, 1, ..., n)\)
  • 期望: \(E(X) = np\)
  • 方差: \(D(X) = np(1-p)\)

泊松分布 $ P(\lambda) $

  • 参数: 发生率 \(\lambda > 0\)
  • PMF: \(P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} \quad (k=0, 1, 2, ...)\)
  • 期望: \(E(X) = \lambda\)
  • 方差: \(D(X) = \lambda\)

几何分布

  • 参数: 成功概率 \(p \in (0, 1)\)
  • PMF: \(P(X=k) = (1-p)^{k-1} p \quad (k=1, 2, ...)\)
  • 期望: \(E(X) = \frac{1}{p}\)
  • 方差: \(D(X) = \frac{1-p}{p^2}\)

连续型分布

均匀分布 \(U(a, b)\)

  • 参数: 区间端点 \(a < b\)
  • PDF:
\[ f(x) = \begin{cases} \frac{1}{b-a} & x \in [a, b] \\ 0 & \text{其他} \end{cases} \]
  • 期望: \(E(X) = \frac{a+b}{2}\)
  • 方差: \(D(X) = \frac{(b-a)^2}{12}\)

正态分布 \(N(\mu, \sigma^2)\)

  • 参数: 均值 \(\mu \in \mathbb{R}\), 方差 \(\sigma^2 > 0\)
  • PDF: \(f(x) = \frac {1} {\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) [修改: 修正 LaTeX 格式]
  • 期望: \(E(X) = \mu\)
  • 方差: \(D(X) = \sigma^2\)

指数分布 \(Exp(\lambda)\)

  • 参数: 率参数 \(\lambda > 0\)
  • PDF:
\[ f(x) = \begin{cases} \lambda e^{-\lambda x} & x \geq 0 \\ 0 & x < 0 \end{cases} \]
  • 期望: \(E(X) = \frac{1}{\lambda}\)
  • 方差: \(D(X) = \frac{1}{\lambda^2}\)
  • 无记忆性: \(P(X > s+t | X > s) = P(X > t)\)

Beta 与 Gamma 分布

  • Gamma 函数: \(\Gamma(n) = (n-1)!\)
  • Gamma 分布: 定义在正实数集, 泊松分布的共轭先验
  • Beta 函数: \(B(\alpha, \beta) = \int_0^1 t^{\alpha-1} (1-t)^{\beta-1} dt\)
  • Beta 分布: 定义在 [0,1] 区间, 二项分布的共轭先验
  • 共轭先验: 后验分布与先验分布属于同一分布族 -> 只用调参, 不用变形