相关及回归分析

相关（correlation）又称相关性、关联，在概率论和统计学中，指一种随机变量或现象与另一种或几种之间变动伴随关系。相关关系又称统计关系，一般会描述这些变量或现象关联程度的强度和方向。

在统计学中，相关的意义是：用来衡量两个变量相对于其相互独立的距离。在这个广义的定义下，有许多根据数据特点用来衡量数据相关性而定义的系数，称作相关系数。在评估相关时，利用相关系数来计量的两个或几个随机变量协同变化的程度；当变量间呈现同一方向的变化趋势时，即同时增加或减少，称为正相关，反之，则称为负相关。

回归分析（regression analysis）则是研究变量间依赖关系的一种统计方法，旨在建立数学模型来描述因变量与一个或多个自变量之间的关系。简单来说，相关分析关注「是否一起变」，回归分析关注「怎么变」。

统计方法的核心思想可以用一句话概括：数据 = 趋势（可解释部分）+ 波动（随机/不可控部分）。

统计方法所做的，就是判断「趋势强到足以压过波动了吗？」——回归用残差平方和衡量没解释掉的波动，独立性检验用 (O-E)^2/E 衡量「观察到的表格」与「独立时应有的表格」差多少。这两个量的结构一致——都是在度量「偏离」。

我们先从描述两个变量之间关系强弱的相关分析说起，再进入研究变量之间具体函数关系的回归分析，最后讨论假设检验的基本框架。

回归分析常见题型：
1. 计算回归方程：给出数据，求 \hat{a}, \hat{b}，写出回归方程
2. 解释斜率含义：\hat{b} 表示 x 每增加 1 单位，y 平均增加 \hat{b} 单位
3. 预测：将 x 值代入回归方程求 \hat{y}
4. 残差计算：e_i = y_i - \hat{y}_i
5. 判定系数解释：R^2 越大，模型拟合越好
相关分析常见题型：
1. 计算相关系数：使用公式计算 r
2. 解释相关系数：|r| 越接近 1，线性相关越强
3. 判断相关类型：r>0 为正相关，r<0 为负相关
4. 识别伪相关：能指出第三变量可能的影响
独立性检验常见题型：
1. 列联表分析：计算期望频数 E_{ij}
2. 计算卡方值：\chi^2 = \sum\frac{(O_{ij}-E_{ij})^2}{E_{ij}}
3. 判断独立性：比较 \chi^2 与临界值
4. 自由度计算：df = (r-1)(c-1)
易错点提醒：
1. 相关 \neq 因果：永远要记得这个原则
2. r=0 不意味着没关系：可能是非线性关系
3. 回归直线一定过 (\bar{x}, \bar{y})：可用于检验计算结果
4. 残差之和为 0：可用于检验计算
5. \chi^2 检验的适用条件：期望频数不能太小

即：在所有线性无偏估计量中，最小二乘估计量的方差最小。这个定理告诉我们，不需要正态假设，只要满足基本条件，最小二乘法就是「最优的」线性无偏估计方法。换句话说，高中学的回归公式不是随意选的——它在数学上被证明是「最好的」。

残差分析

建立了回归模型之后，我们需要衡量模型的拟合效果，这就要用到残差。

定义残差 e_i = Y_i - \hat{Y}_i = Y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i，它是第 i 个观测值与模型预测值之间的差。

残差的性质：

\sum e_i = 0（残差之和为零）
\sum x_i e_i = 0（残差与自变量不相关）

这两条性质直接来源于正规方程，可以用来检验计算结果是否正确。

残差的另一个重要用途是估计误差方差 \sigma^2。\sigma^2 的无偏估计为：

\hat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^{n} e_i^2 = \frac{SSE}{n-2}

其中 SSE = \sum e_i^2 称为残差平方和，分母是 n-2 而不是 n（因为估计了两个参数 \beta_0, \beta_1，损失了两个自由度——关于自由度的详细讨论见后文）。

在实际应用中，还可以通过残差图（将残差 e_i 对 x_i 或 \hat{Y}_i 作散点图）来检查模型假设是否成立：如果残差随机地散布在零附近，没有明显的趋势或模式，说明线性模型是合适的；如果残差呈现出系统性的弯曲或喇叭口形状，则可能需要考虑非线性模型或异方差问题。

非线性回归

并非所有变量之间的关系都是线性的。对于某些非线性函数，可以通过适当的变量变换转化为线性形式，再用线性回归的方法求解：

原始模型	变换方法	线性化形式	适用场景
y = ae^{bx}	令 Y = \ln y	Y = \ln a + bx	指数增长 / 衰减
y = ax^b	令 Y = \ln y, X = \ln x	Y = \ln a + bX	幂函数关系
y = \dfrac{1}{a+bx}	令 Y = 1/y	Y = a + bx	反比例关系
y = \dfrac{x}{ax+b}	令 Y = x/y	Y = ax + b	分式线性

变换法的注意事项：变换后再做最小二乘，最小化的目标函数与直接在原始模型上做最小二乘不同。例如对 y = ae^{bx}，变换法最小化的是 \sum(\ln y_i - \ln a - bx_i)^2，而非 \sum(y_i - ae^{bx_i})^2。这会改变误差结构，解释时要谨慎。

广义线性模型（Generalized Linear Model, GLM）将经典线性模型推广到非正态响应变量，由三部分组成。

随机成分：Y_i 服从指数族分布（正态、二项、泊松、Gamma 等）
系统成分：线性预测子 \eta_i = \mathbf{x}_i^\mathsf{T}\boldsymbol{\beta}
连接函数：g(\mu_i) = \eta_i，其中 \mu_i = E(Y_i)

分布	典型连接函数	模型名称	应用场景
正态 N(\mu, \sigma^2)	恒等：g(\mu)=\mu	线性回归	连续响应
二项 B(n,p)	Logit：g(p)=\ln\frac{p}{1-p}	Logistic 回归	分类问题
泊松 P(\lambda)	对数：g(\lambda)=\ln\lambda	泊松回归	计数数据

逻辑回归（Logistic Regression，逻辑斯蒂回归）是最常用的 GLM 特例。对于二分类问题 Y_i \in \{0,1\}：

\ln\frac{p_i}{1-p_i} = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip}

等价于 p_i = \dfrac{1}{1+e^{-\mathbf{x}_i^\mathsf{T}\boldsymbol{\beta}}}，其中 \sigma(z) = \dfrac{1}{1+e^{-z}} 是 Sigmoid 函数。

独立性检验与假设检验

前面我们讨论了如何用回归模型描述变量之间的定量关系。但有时候，我们关心的问题更基本：两个分类变量之间是否有关联？例如，吸烟与肺癌之间是否存在关联？这就需要用到独立性检验。在介绍独立性检验之前，我们先了解几个基础概念。

自由度

在统计学中，自由度（degree of freedom，df）是指当以样本的统计量来估计总体的参数时，样本中独立或能自由变化的数据的个数。

直观理解：

若存在两个变量 a，b，而 a+b=6，那么自由度为 1。因为只有 a 能自由变化，b 会被 a 的值所限制。
估计总体的平均数 \mu 时，自由度为 n（n 个数都相互独立）
估计总体的方差 \sigma^2 时，自由度为 n-1。因为用了样本平均数 \bar{x} 这个约束条件，有一个数据不再自由

回归中的自由度：

一元线性回归中，残差平方和的自由度为 n-2（估计了两个参数 \beta_0, \beta_1）
多元线性回归中，自由度为 n-p-1（p 个自变量加一个截距）

误差与残差

误差和残差是两个容易混淆但有本质区别的概念：

误差（error）：观测值与总体真值之间的差异（通常未知），即 \varepsilon_i = Y_i - (\beta_0 + \beta_1 x_i)
残差（residual）：观测值与样本估计值之间的差异（可计算），即 e_i = Y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i)

关键区别：

误差是理论上的随机量，相互独立
残差是样本层面的具体数值，由于 \sum e_i = 0 的约束，残差之间不是相互独立的

正态分布下的情况：假定样本 X_{1},\dots ,X_{n}\sim N\left(\mu ,\sigma ^{2}\right)

统计误差：e_{i}=X_{i}-\mu
残差：r_{i}=X_{i}-{\overline {X}}

统计误差的平方和除以 \sigma^2 服从自由度为 n 的卡方分布，而残差的平方和除以 \sigma^2 服从自由度为 n-1 的卡方分布。这 1 个自由度的差异就是贝塞尔校正（Bessel’s correction）——这正是我们用 n-1 而非 n 来估计方差的原因。

假设检验

假设检验（hypothesis testing）是推论统计中用于检验现有数据是否足以支持特定假设的方法。

核心思想：先建立原假设，然后看数据是否提供了足够证据来拒绝它。

零假设与备择假设：

零假设（null hypothesis，记作 H_0）：通常是我们希望证伪的假设，反映「无效应」或「无差异」
备择假设（alternative hypothesis，记作 H_a 或 H_1）：与零假设对立，通常是我们希望证实的假设

法庭审判类比：

零假设：被告无罪（默认立场）
备择假设：被告有罪（需要证明）
证据：样本数据
判决：根据证据是否足够强来决定拒绝或不拒绝零假设

女士品茶示例：统计学家费希尔（Ronald Fisher）的女同事缪丽·布里斯托尔（Muriel Bristol）声称可以判断在奶茶中是先加入茶还是先加入牛奶。费希尔提议给她八杯奶茶（四杯先加茶，四杯先加牛奶，随机排列）。

零假设 H_0：她无法判断
备择假设 H_1：她可以判断

若单纯以概率考虑（即她只是猜测），八杯都正确的概率为 1/70 \approx 1.43\%，这是很小的概率。测试结果为缪丽八杯都正确，因此在统计上是显著的结果，几乎可以排除她只是恰好猜对的可能性。

两类错误：

第一类错误（Type I error）：零假设为真，但我们拒绝了它（「冤枉好人」）
第二类错误（Type II error）：零假设为假，但我们没有拒绝它（「放过坏人」）

显著性水平 \alpha：允许犯第一类错误的概率，通常取 0.05 或 0.01。

检验力：正确拒绝错误零假设的概率，等于 1 - \beta（其中 \beta 是犯第二类错误的概率）。

皮尔逊卡方检验

现在我们进入具体的独立性检验方法。对于两个分类变量，我们可以用列联表来展示它们的联合频率分布。以最简单的 2 \times 2 列联表为例：

	B	\bar{B}	合计
A	a	b	a+b
\bar{A}	c	d	c+d
合计	a+c	b+d	n

如果 A 和 B 是独立的，那么每个格子的期望频数应该等于对应行总和与列总和的乘积除以总数。实际频数与期望频数之间的偏差越大，就越有理由认为 A 和 B 不独立。

卡方统计量：

\chi^2 = \frac{n(ad - bc)^2}{(a+b)(c+d)(a+c)(b+d)}

这个公式是一般卡方统计量 \chi^2 = \sum\frac{(O_{ij}-E_{ij})^2}{E_{ij}} 在 2 \times 2 列联表中的特殊简化形式，其中 O_{ij} 是观察频数，E_{ij} 是期望频数。

\chi^2 越大，A 与 B 的相关性越强。

判断标准：在零假设（A 与 B 独立）成立时，\chi^2 近似服从自由度为 1 的卡方分布 \chi^2(1)。查卡方分布表，当 \chi^2 > 3.841（\alpha = 0.05，df=1）时，有 95\% 的把握认为 A 与 B 相关。

这里的 3.841 是自由度为 1 的卡方分布在显著性水平 \alpha = 0.05 时的临界值——它不是一个需要记住的「魔法数字」，而是由卡方分布的概率密度函数计算得出的。

卡方检验的适用条件：卡方检验要求每个格子的期望频数不能太小（通常要求 E_{ij} \geq 5）。当样本量不够大时，应改用 Fisher 精确检验等方法。

RainPPR

相关及回归分析

相关分析

皮尔逊相关系数

相关系数的计算

标准分数和相关系数

相关系数的几何意义

相关性的解读与常见误区

回归分析

回归的基本思想

最小二乘法

回归的统计模型