数学基础

参考资料

3b1b
宋浩

微积分

函数

单射: $\forall x_1, x_2 \in X, \ f (x_1)=f (x_2) \Rightarrow x_1=x_2$
满射: $\forall y \in Y, \ \exists x \in X, \ f (x)=y$
双射: 单射且满射（一一对应）
连续性: $\forall \epsilon>0, \ \exists \delta>0, \ |x-x_0|<\delta \Rightarrow |f(x)-f(x_0)|<\epsilon$（$\epsilon-\delta$定义）
可导性: $f'(x_0)=\lim_{h\to0}\frac{f(x_0+h)-f(x_0)}{h}$存在（连续性必要非充分）
复合函数/反函数导数: $(f\circ g)'=(f'\circ g)g'$；$y=f^{-1}(x)$则$y'=1/f'(x)$

极限

阶: $f(x)\sim g(x)$（同阶）；$f=o(g)$（高阶无穷小）
等价无穷小: $\sin x \sim x$；$(1+x)^{1/x}\sim e^x$
重要极限:

\[ \begin {cases} \lim_{x \to 0} \frac {\sin x}{x} = 1\\ \lim_{x \to 0} \frac {1-\cos x}{x^2} = \frac12\\ \lim_{x \to \infty} \left (1+\frac1x\right)^x = e\\ \lim_{x \to 0} \frac {x^x-1}{x}=\ln e=1 \end {cases} \]

洛必达法则: $\frac{\infty}{\infty}$或$\frac{0}{0}$型, $\lim\frac{f}{g}=\lim\frac{f'}{g'}$（可多次）

导数

方向导数: $D_{\mathbf{u}}f(\mathbf{r})=\nabla f\cdot\mathbf{u}$（单位向量$\mathbf{u}$方向）
梯度: $\nabla f=(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y},\frac{\partial f}{\partial z})$（最大方向导数$|\nabla f|$）
偏导数: $\frac{\partial f}{\partial x}$（保持其他变量不变）；正交方向导数为0

微分

全微分: $df=\frac{\partial f}{\partial x}dx+\frac{\partial f}{\partial y}dy$（各方向微分合并）
中值定理: 罗尔$f(a)=f(b)\Rightarrow f'(c)=0$；拉格朗日$f(b)-f(a)=f'(c)(b-a)$；柯西$\frac{f(b)-f(a)}{b-a}=\frac{f'(c)-f'(d)}{b-a}$
隐函数求导: $F(x,y)=0\Rightarrow\frac{dy}{dx}=-\frac{F_x}{F_y}$
微分方程: 一阶分离$\frac{dy}{dx}=f(x)g(y)\Rightarrow\int\frac{dy}{g(y)}=\int f(x)dx$；线性$M dx+N dy=0$

积分

不定积分: $\int f(x)dx=F(x)+C$（$F'=f$）；表: $\int\sin x dx=-\cos x$, $\int e^x dx=e^x$
定积分: $\int_a^b f(x)dx = F(b) - F(a)$（牛顿-莱布尼茨）

多重积分

二重积分: $\iint_D f(x, y) \, dxdy = \int_{a}^{b} \int_{c(x)}^{d(x)} f(x, y) \, dydx$
三重积分: $\iiint_V f(x, y, z) \, dxdydz = \int_{a}^{b} \int_{c(x)}^{d(x)} \int_{p(x, y)}^{q(x, y)} f(x, y, z) \, dzdydx$
坐标变换: 极坐标$\iint r\,drd\theta$；球坐标$\iiint \rho^2\sin\phi\,d\rho d\phi d\theta$

积分技巧

换元积分法: $\int f(g(x))g'(x)dx = \int f(u)du \quad (u = g(x))$
分部积分法: $\int u \, dv = uv - \int v \, du$
部分分式: $\frac{1}{x^2-1}=\frac{1/2}{x-1}-\frac{1/2}{x+1}$
三角换元: $\int\frac{dx}{\sqrt{a^2-x^2}}=\arcsin\frac{x}{a}$

级数

敛散性判定:

\[ \begin{cases} \text{比值: }\lim\left|\frac{a_{n+1}}{a_n}\right|<1\text{收敛}\\ \text{根值: }\lim\sqrt[n]{|a_n|}<1\text{收敛}\\ \text{积分: }\int_1^\infty|f(x)|dx<\infty\\ \text{交错(Leibniz): }b_n\searrow0\Rightarrow\sum(-1)^n b_n\text{收敛}\\ \text{比项: }a_n\le c_n, \sum c_n\text{收敛}\Rightarrow\sum a_n\text{收敛} \end{cases} \]

泰勒展开: $f (x) = \sum_{n=0}^\infty \frac {f^{(n)}(a)}{n!}(x-a)^n$
常用级数: $e^x=\sum\frac{x^n}{n!}$；$\sin x=\sum(-1)^n\frac{x^{2n+1}}{(2n+1)!}$；几何$\sum x^n=\frac{1}{1-x}$（$|x|<1$）

线性代数

矩阵

行代表约束, 列代表生成
运算 / 分块矩阵
逆 (反变换) $A^{-1} = \frac{1}{\det(A)}\mathrm{adj}(A)$
伴随矩阵 $\mathrm{adj}(A)_{ij} = (-1)^{i+j} M_{ji} \quad (\text{其中} M_{ji} \text{为元素} a_{ji} \text{的余子式})$
- 当 $\det(A) = 0 \text{, 且} rank = n - 1$ 时,伴随矩阵指向被压缩掉的维度
初等变换
- 不改变向量线性变换的相对关系
- 不改变矩阵的 rank
- 不改变零空间
正交矩阵描述不改变变换的向量间的夹角的变换
输入空间的维度 = 列 rank + 零空间的维度

向量

线性关系
极大线形无关组一组线性无关向量的集合 (空间的一组基)
内积

行列式

变换后 "面积" 的比例关系
展开 / 变换 / 求解
所有特征值的乘积
余子式: 去掉某一行一列剩余的体积
某一行的代数余子式形成的行向量与其它行向量的内积为 0

rank

线性空间维数
线性相关 / 行列式 == 0 本质是降维 / 退化

特征值与特征向量

变换后 "特定方向" (特征向量) 上存在的比例关系 (特征值)
对角化 (变基后特征向量正交, 要求满 rank)
所有特征值之和 = 对角线元素之和 (迹)

矩阵关系

等价 (同一空间维度)
相似 (不同基下的同一变换)
合同 (不同基下的同一个二次型)
正交相似 (不同正交基下的同一变换)

线性方程组

最简阶梯形
求解经变换后为特定向量的未知向量

二次型矩阵

用于描述二次型函数的矩阵
用相似变换 (不退化) 使矩阵 "对角化", 得到标准形
再将系数简化为正负 1 得到规范形
判断有定性
正定描述变换会使向量长度增加, 负定反之
正定描述变换会使向量夹角的锐顿性不变, 半负定反之

概率论与数理统计

基本概念

频率 / 概率 / 独立性
古典概型 / 几何概型 (有点离散 / 连续的意思)
条件概率
全概率: $P (A) = \sum_{i=1}^n P (A|B_i) P (B_i) \quad ({B_i}\text {为完备事件组})$
贝叶斯: $P (B_k|A) = \frac {P (A|B_k) P (B_k)}{\sum_{i=1}^n P (A|B_i) P (B_i)}$

分布

概率函数描述概率累加
概率密度函数 (导数) 描述概率
二维函数可求偏导 (边缘密度函数 $f_X (x) = \int_{-\infty}^\infty f (x, y) dy$) 可用于判断独立
期望: $E (X) = \sum x_k p (x_k) \ \int x f (x) dx$
方差: $D (X) = E \left [ (X-E (X))^2 \right ]$
协方差描述互相影响程度
相关系数描述互相影响程度

样本

统计量 (样本的一个特征)
切比雪夫不等式 (随机变量偏离均值的程度的概率) 可见均值与方差之重 $P (|X-E (X)| \geq \epsilon) \leq \frac {D (X)}{\epsilon^2}$
大数定律 (均值收敛期望)
中心极限定理 (大量独立随机变量和近似正态分布)

抽样分布

正态分布 (样本均值服从自身)
卡方分布 (正态样本方差与分布方差的比值)
- $\chi^2 (n) = \sum_{i=1}^n Z_i^2 \quad (Z_i \sim N (0, 1))$
t 分布 (正态样本量小时, 对应的标准正态分布化的结果, 更易偏移)
- 正态分布拟合统计量时, 仅补偿均值, t 分布同时补偿方差
- $T = \frac {\bar {X}-\mu}{S/\sqrt {n}} \sim t (n-1)$
F 分布 (卡方 /n 的比值)
- 根据大数定律与上两个分布取样越多越稳定, F 分布可以描述不同取样量的两个样本的方差的比
- $F (m, n) = \frac {\chi^2 (m)/m}{\chi^2 (n)/n}$
借助以上技术, 可以拟合统计量为特征 (矩估计), 可以估计特征值在某区间的概率 (区间估计), 构造函数使所有样本的发生概率最大 (极大似然估计)
以及校验假设 (关于统计量) 相对样本的发生概率 (假设检验)

离散型分布

0-1 分布 (伯努利分布)

参数: 成功概率 $p \in [0, 1]$
PMF:

\[ P(X=k) = \begin{cases} p & k=1 \\ 1-p & k=0 \end{cases} \]

期望: $E(X) = p$
方差: $D(X) = p(1-p)$
本质: 字面意思

二项分布 $ B(n, p) $

参数: 试验次数 $n \in \mathbb{N}^* $, 成功概率 $ p \in [0, 1]$
PMF: $P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} \quad (k=0, 1, ..., n)$
期望: $E(X) = np$
方差: $D(X) = np(1-p)$
本质: 试验次数 $n$ 次成功 $k$ 次的概率

泊松分布 $ P(\lambda) $

参数: 发生率 $\lambda > 0$
PMF: $P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} \quad (k=0, 1, 2, ...)$
期望: $E(X) = \lambda$
方差: $D(X) = \lambda$
本质: 单位时间内独立事件发生的次数

几何分布

参数: 成功概率 $p \in (0, 1)$
PMF: $P(X=k) = (1-p)^{k-1} p \quad (k=1, 2, ...)$
期望: $E(X) = \frac{1}{p}$
方差: $D(X) = \frac{1-p}{p^2}$
本质: 试验次数 $n$ 次成功第一次的次数

超几何分布

参数: 总体量 $N$, 成功元素数 $K$, 抽样数 $n$
PMF: $P(X=k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}} \quad (k = \max(0, n+K-N), ..., \min(n, K))$
期望: $E(X) = n\frac{K}{N}$
方差: $D(X) = n\frac{K}{N}\left(1-\frac{K}{N}\right)\frac{N-n}{N-1}$
本质: 从总体中抽取 $n$ 个元素, 成功 $k$ 个的概率

连续型分布

均匀分布 $U(a, b)$

参数: 区间端点 $a < b$
PDF:

\[ f(x) = \begin{cases} \frac{1}{b-a} & x \in [a, b] \\ 0 & \text{其他} \end{cases} \]

期望: $E(X) = \frac{a+b}{2}$
方差: $D(X) = \frac{(b-a)^2}{12}$

正态分布 $N(\mu, \sigma^2)$

参数: 均值 $\mu \in \mathbb{R}$, 方差 $\sigma^2 > 0$
PDF: $f(x) = \frac {1} {\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2 \ sigma^2}}$
期望: $E(X) = \mu$
方差: $D(X) = \sigma^2$

指数分布 $Exp(\lambda)$

参数: 率参数 $\lambda > 0$
PDF:

\[ f(x) = \begin{cases} \lambda e^{-\lambda x} & x \geq 0 \\ 0 & x < 0 \end{cases} \]

期望: $E(X) = \frac{1}{\lambda}$
方差: $D(X) = \frac{1}{\lambda^2}$