相关及回归分析
相关(correlation)又称相关性、关联,在概率论和统计学中,指一种随机变量或现象与另一种或几种之间变动伴随关系。相关关系又称统计关系,一般会描述这些变量或现象关联程度的强度和方向。
在统计学中,相关的意义是:用来衡量两个变量相对于其相互独立的距离。在这个广义的定义下,有许多根据数据特点用来衡量数据相关性而定义的系数,称作相关系数。在评估相关时,利用相关系数来计量的两个或几个随机变量协同变化的程度;当变量间呈现同一方向的变化趋势时,即同时增加或减少,称为正相关,反之,则称为负相关。
回归分析(regression analysis)则是研究变量间依赖关系的一种统计方法,旨在建立数学模型来描述因变量与一个或多个自变量之间的关系。简单来说,相关分析关注「是否一起变」,回归分析关注「怎么变」。
统计方法的核心思想可以用一句话概括:数据 = 趋势(可解释部分)+ 波动(随机/不可控部分)。
统计方法所做的,就是判断「趋势强到足以压过波动了吗?」——回归用残差平方和衡量没解释掉的波动,独立性检验用 (O-E)^2/E 衡量「观察到的表格」与「独立时应有的表格」差多少。这两个量的结构一致——都是在度量「偏离」。
我们先从描述两个变量之间关系强弱的相关分析说起,再进入研究变量之间具体函数关系的回归分析,最后讨论假设检验的基本框架。
回归分析常见题型:
计算回归方程:给出数据,求 \hat{a}, \hat{b},写出回归方程
解释斜率含义:\hat{b} 表示 x 每增加 1 单位,y 平均增加 \hat{b} 单位
预测:将 x 值代入回归方程求 \hat{y}
残差计算:e_i = y_i - \hat{y}_i
判定系数解释:R^2 越大,模型拟合越好
相关分析常见题型:
计算相关系数:使用公式计算 r
解释相关系数:|r| 越接近 1,线性相关越强
判断相关类型:r>0 为正相关,r<0 为负相关
识别伪相关:能指出第三变量可能的影响
独立性检验常见题型:
列联表分析:计算期望频数 E_{ij}
计算卡方值:\chi^2 = \sum\frac{(O_{ij}-E_{ij})^2}{E_{ij}}
判断独立性:比较 \chi^2 与临界值
自由度计算:df = (r-1)(c-1)
易错点提醒:
相关 \neq 因果:永远要记得这个原则
r=0 不意味着没关系:可能是非线性关系
回归直线一定过 (\bar{x}, \bar{y}):可用于检验计算结果
残差之和为 0:可用于检验计算
\chi^2 检验的适用条件:期望频数不能太小
相关分析
对于不同测量尺度的变量,有不同的相关系数可用。在高中阶段,我们一般默认相关系数指的是皮尔逊相关系数(Pearson’s r)——衡量两个等距尺度或等比尺度变量之线性相关性。这是最常见的相关系数,也是学习统计学时第一个接触的相关系数。
皮尔逊相关系数
为了描述相关性,我们先引入协方差的概念。直观地说,协方差度量的是两个变量「一起波动」的倾向——当 X 偏大时 Y 是否也倾向于偏大?
对于随机变量 X, Y,称
E((X - EX)(Y - EY))
为 X 与 Y 的协方差,记作 \operatorname{Cov}(X, Y)。
协方差描述了两个变量协同变化的趋势,但它的值受变量量纲影响。例如,身高用厘米和用米衡量时,协方差会相差 100 倍,这不便于直接比较。因此我们引入皮尔逊相关系数来消除量纲的影响。
对于随机变量 X, Y,称
\rho_{X,Y} = \frac{ \operatorname{Cov}(X, Y)}{ \sigma(X)\sigma(Y) }
为 X 与 Y 的 Pearson 相关系数。样本相关系数 r 是其估计值。
核心思想:相关系数本质是「协方差除以标准差的乘积」,分母起到标准化的作用,消除了量纲的影响,将取值限制在 [-1, 1] 之间。
协方差具有以下重要性质:
对称性:\operatorname{Cov}(X, Y) = \operatorname{Cov}(Y, X)
线性性:对任意常数 a, b,\operatorname{Cov}(aX + bY, Z) = a \cdot \operatorname{Cov}(X, Z) + b \cdot \operatorname{Cov}(Y, Z)
与方差的关系:
DX = \operatorname{Cov}(X, X)
D(X + Y) = DX + 2 \operatorname{Cov}(X, Y) + DY
重要结论:D(X + Y) = DX + DY 当且仅当 \operatorname{Cov}(X, Y) = 0。而 \operatorname{Cov}(X, Y) = 0 的一个充分而不必要条件是 X,Y 独立:
\operatorname{Cov}(X, Y) = E((X - EX)(Y - EY)) = E(X - EX) E(Y - EY) = 0
补充:你可能会发现协方差的性质与向量内积的运算性质在形式上高度一致。在泛函分析的视角下,对于给定的概率空间,其上的全体随机变量构成一个线性空间,而协方差是这个空间上的一个内积,标准差则是由该内积导出的范数。
相关系数的性质与解释:
取值范围:|\rho_{X,Y}| \leq 1,这一性质的严格证明来自柯西-施瓦茨不等式。
相关性强度:|\rho_{X,Y}| 越大,则 X 与 Y 之间的线性关联程度越强。
不相关:当 \rho_{X,Y} = 0 时我们称随机变量 X 与 Y 不相关,此时 X 和 Y 之间不存在线性关系。
极端情况:
当存在实数 a 和正实数 b 使得 P(X = a + bY) = 1 时,有 \rho_{X,Y} = 1(完全正相关)。
当存在实数 a 和负实数 b 使得 P(X = a + bY) = 1 时,有 \rho_{X,Y} = -1(完全负相关)。
柯西-施瓦茨不等式是相关系数取值范围的数学保证:对任意实数序列 \{a_i\}, \{b_i\},有
\left(\sum a_i b_i\right)^2 \leq \left(\sum a_i^2\right)\left(\sum b_i^2\right)
令 a_i = x_i - \bar{x},b_i = y_i - \bar{y},立即得到 S_{xy}^2 \leq S_{xx} \cdot S_{yy},即 r^2 \leq 1。等号成立当且仅当存在 \lambda 使得 b_i = \lambda a_i,即所有点精确地在一条过 (\bar{x}, \bar{y}) 的直线上。
相关系数的计算
掌握了相关系数的定义之后,我们来看具体的计算公式。
高中常用公式:
r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}
简化计算形式(考试中更实用):
r = \frac{\sum_{i=1}^{n} x_i y_i - n\bar{x}\bar{y}}{\sqrt{\sum_{i=1}^{n} x_i^2 - n\bar{x}^2} \sqrt{\sum_{i=1}^{n} y_i^2 - n\bar{y}^2}}
这两个公式是等价的,简化形式是将 (x_i - \bar{x})(y_i - \bar{y}) 展开并利用 \sum x_i = n\bar{x} 化简得到的。在考试中,简化形式避免了逐项减去均值的繁琐计算。
理解公式的关键:
分子 \sum (x_i - \bar{x})(y_i - \bar{y}) 衡量的是变量同向变化的程度
分母 \sqrt{\sum (x_i - \bar{x})^2} \sqrt{\sum (y_i - \bar{y})^2} 起到标准化作用
|r| \le 1 恒成立,当 r 趋近于 1 时正相关性很高,当 r 趋近于 -1 时负相关性很高,当 r 趋近于 0 时相关性较弱
相关系数还有一种用标准分数(又称 z-score 或 Z-分数)表示的形式。
标准分数和相关系数
原始分数(raw score)指的是直接测得的原始数据。比如一次考试的实际得分(满分 100 分考了 75 分),这个 75 分就是原始分数。它的问题是:不同考试或不同变量的度量单位不同,分数之间无法直接比较。比如英语 75 分和数学 75 分,含金量可能完全不同——英语平均分是 60 分,数学平均分是 80 分。
标准分数(standard score,又称 Z 分数)将原始分数转换为“以标准差为单位”的数值,消除单位和量纲的影响:
z = \frac{x - \mu}{\sigma}
其中:
- x 是原始分数
- \mu 是总体平均值
- \sigma 是总体标准差
物理意义:z 表示这个分数距离平均值有几个标准差。z = +1 意味着这个分数比平均高出一个标准差,z = -1.5 则意味着比平均低 1.5 个标准差。
标准分数的性质:
- 平均值为 0
- 标准差为 1
- z 是无纲量,可以直接比较不同变量的取值
将两个变量分别标准化后,相关系数可以写成:
r = \frac{1}{n-1} \sum_{i=1}^{n} \left( \frac{X_i - \overline{X}}{\sigma_X} \right) \left( \frac{Y_i - \overline{Y}}{\sigma_Y} \right)
直观理解:先分别把 X 和 Y 转换成标准分数,然后再求每一对标准分数的乘积的平均值。
下面展示这个公式是怎么从高中学的相关系数公式化简来的。我们先写出相关系数的标准形式:
r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n} (y_i - \bar{y})^2}}
这个公式看起来有点复杂,其实它就是用两个向量的夹角余弦公式——高中几何的知识。这里分母是两个向量的长度,分子是它们的点积。
样本标准差的定义是:
\sigma_X = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}}, \quad \sigma_Y = \sqrt{\frac{\sum_{i=1}^{n} (y_i - \bar{y})^2}{n-1}}
把标准差代回去,分母可以写成:
\sqrt{\sum (x_i - \bar{x})^2} = \sigma_X \sqrt{n-1}, \quad \sqrt{\sum (y_i - \bar{y})^2} = \sigma_Y \sqrt{n-1}
然后分子分母同时除以 (n-1),就变成了:
r = \frac{\frac{1}{n-1} \sum (x_i - \bar{x})(y_i - \bar{y})}{\sigma_X \sigma_Y}
再把每个 (x_i - \bar{x}) 写成 \sigma_X \cdot z_{X_i} 的形式,其中 z_{X_i} = \dfrac{x_i - \bar{x}}{\sigma_X} 就是标准分数。于是得到:
r = \frac{1}{n-1} \sum_{i=1}^{n} z_{X_i} z_{Y_i}
或者写成完整形式:
r = \frac{1}{n-1} \sum_{i=1}^{n} \left( \frac{x_i - \bar{x}}{\sigma_X} \right) \left( \frac{y_i - \bar{y}}{\sigma_Y} \right)
这正是我们要的标准分数形式。
为什么除以 n-1 而不是 n:这里用 n-1 是为了得到无偏估计。如果你用总体标准差的公式(除以 n),计算出的样本标准差会偏小,跟真实值有偏差。简单说:因为我们在用样本数据估计平均值 \bar{x},这会“消耗”一个自由度,所以用 n-1 才能补上这个自由度造成的偏差。统计学上把这种现象叫“贝塞尔修正”(Bessel’s correction)。
相关系数就是标准化后变量的平均乘积。当两个变量同向变化时(X 高 Y 也高),乘积为正;当它们反向变化时,乘积为负。这就是为什么 r 始终介于 -1 到 +1 之间——标准化后两个向量的点积不可能超过各自长度 1 的乘积。
为什么用标准分数:这种表示揭示了相关性的本质——它本质上是“标准化后变量的平均乘积”。不管原始数据的尺度如何,只要转换成标准分数,相关系数的计算结果都是一样的。
相关系数的几何意义
上面我们从代数角度理解了相关系数,其实它还有一个非常优美的几何解释。将数据中心化后,得到两个新向量:
\vec{X} = (x_1 - \bar{x}, x_2 - \bar{x}, \cdots, x_n - \bar{x})
\vec{Y} = (y_1 - \bar{y}, y_2 - \bar{y}, \cdots, y_n - \bar{y})
相关系数 r 的公式恰恰是这两个向量夹角的余弦值:
r = \cos\theta = \frac{\vec{X} \cdot \vec{Y}}{|\vec{X}||\vec{Y}|}
r = 1:两向量同向平行(完全正相关)
r = 0:两向量正交(完全不线性相关)
r = -1:两向量反向平行(完全负相关)
|r| \le 1 的数学保证来自 柯西-施瓦茨不等式——这正是上一节中从代数角度得到的同一个结论,只不过换了一种几何语言。
相关性的解读与常见误区
在实际使用中,对相关系数的解释依赖于具体的应用背景和目的。例如:
在物理实验中,0.9 的相关系数可能被认为很低
在社会科学中,由于受复杂因素影响,0.9 的相关系数是相当高的
三个常见误区(高考重点):
相关不等于因果:r\neq 0 只能说明「同时变化」,不自动说明「谁导致谁」。例如,冰淇淋销量与溺水人数正相关,但显然不是冰淇淋导致了溺水——它们都受气温这个第三变量的影响。
r=0 不代表没关系:相关系数只衡量线性关系。经典反例:Y = X^2(在对称区间上),X 和 Y 有很强的非线性关系,但相关系数为 0。
离群点影响大:一个异常点就可能把相关系数「拽歪」,严重影响回归线的位置和方向。
在一元线性回归中,斜率和相关系数有如下关系:
\hat{b} = r \cdot \frac{s_y}{s_x}
重要区分:
r 描述「线性关系的强弱(无量纲)」
\hat{b} 描述「单位变化带来的响应变化(有量纲)」
r 大并不意味着斜率大(因为单位尺度会影响 \hat{b})
相关与独立的关系也是统计学中的核心概念:
独立是分布层面的:P(X \in A, Y \in B) = P(X \in A)P(Y \in B)
零相关只说明线性关系不明显:\text{Cov}(X,Y) = 0
一般情况下:「零相关 \nRightarrow 独立」,两随机变量不相关是它们相互独立的必要而不充分条件。但在联合正态等特殊分布族里,零相关可以推出独立。
回归分析
知道了两个变量之间存在关联之后,下一步自然的问题是:这种关系具体长什么样?能不能用一个数学公式来描述?这就是回归分析要回答的问题。
回归的基本思想
「回归」这个名称来源于英国统计学家弗朗西斯·高尔顿(Francis Galton)在 19 世纪末的一项研究。他发现,虽然高个子父母的子女往往也比较高,但子女的身高有向总体平均值「回归」的趋势——特别高的父母,其后代往往没有他们那么高;特别矮的父母,其后代往往比他们稍高一些。高尔顿把这种现象称为回归均值(regression toward the mean),后来人们就把这一类用数学模型描述变量间关系的统计方法统称为「回归分析」。
回归分析的核心目标是:给定一组关于自变量 x 和因变量 y 的观测数据 (x_1, y_1), (x_2, y_2), \cdots, (x_n, y_n),找到一个函数 \hat{y} = f(x),使得这个函数尽可能好地描述 x 与 y 之间的关系。当 f 是一次函数时,就是一元线性回归——这是高中阶段最核心的回归模型。
最小二乘法
确定了要拟合一条直线 \hat{y} = \hat{b}x + \hat{a} 之后,关键问题是:什么样的直线才算「最好」?
最自然的想法是让预测值 \hat{y}_i 与实际观测值 y_i 之间的偏差尽可能小。但偏差有正有负,直接求和会相互抵消,没有意义。有两种解决思路:取绝对值,或者取平方。最小二乘法(least squares method)选择的是后者——使残差平方和最小:
\min_{\hat{a},\;\hat{b}} \sum_{i=1}^{n} (y_i - \hat{b}x_i - \hat{a})^2
为什么选择平方而不是绝对值?因为平方函数处处可导,可以用微积分求解,得到简洁的解析公式;而绝对值函数在零点不可导,处理起来更加复杂。
对上面的目标函数分别对 \hat{a} 和 \hat{b} 求偏导并令其为零,可以得到正规方程(normal equations),解出回归系数的公式:
\hat{b} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{\sum_{i=1}^{n} x_i y_i - n\bar{x}\bar{y}}{\sum_{i=1}^{n} x_i^2 - n\bar{x}^2}
\hat{a} = \bar{y} - \hat{b}\bar{x}
重要性质:回归直线一定过样本中心点 (\bar{x}, \bar{y})。这从 \hat{a} 的公式可以直接看出。
在统计学中,对一个变量或参数符号上方加一个「帽子」符号(\hat{x}),通常表示该参数的估计值或预测值:
参数估计:如果 \beta 是总体中的真实参数,那么 \hat{\beta} 表示基于样本数据计算出的参数估计量
预测值:\hat{Y} 表示模型根据自变量 X 预测出来的数值,即拟合值
区别:「帽子」符号明确区分了理论上的真实总体参数(无帽子)和基于样本计算出的样本统计量(有帽子)
例如:在回归分析中,总体方程为 Y = a + bX + \varepsilon,实际估计出的方程为 \hat{Y} = \hat{a} + \hat{b}X。
大学视野:回归系数公式还有更深层的理解。在多元回归中,最小二乘解可以写成矩阵形式 \hat{\boldsymbol{\beta}} = (\mathbf{X}^\mathsf{T}\mathbf{X})^{-1}\mathbf{X}^\mathsf{T}\mathbf{y},一元情况是它的特例。从几何角度看,这等价于将观测向量 \mathbf{y} 正交投影到由自变量张成的列空间上——回归的本质就是在列空间中寻找离 \mathbf{y} 最近的点。
回归的统计模型
上面我们是从「如何最好地拟合一条直线」出发的——这是一个纯粹的代数问题。但在实际中,数据是带有随机性的:即使 x 相同,不同次观测的 y 也不会完全一样。为了刻画这种随机性,同时为后续的假设检验和置信区间提供理论基础,我们需要建立概率模型:
Y_i = \beta_0 + \beta_1 x_i + \varepsilon_i, \quad i=1,2,\cdots,n
其中:
\beta_0, \beta_1 是未知的总体参数(真实值)
\varepsilon_i 是随机误差项,代表无法由线性关系解释的波动
x_i 是确定性变量(自变量 / 解释变量)
Y_i 是随机变量(因为包含了 \varepsilon_i)
注意这里从「拟合」到「模型」的转变:高中阶段把回归看作「找一条最合适的直线」,而概率模型则认为数据背后存在一个真实的线性关系 \beta_0 + \beta_1 x,我们观测到的 Y_i 是这个真实值加上随机扰动 \varepsilon_i 的结果。最小二乘法给出的 \hat{\beta}_0, \hat{\beta}_1 是对真实参数的估计。
为了保证最小二乘估计的良好性质,通常需要以下假设(称为经典假设):
线性性:Y_i = \beta_0 + \beta_1 x_i + \varepsilon_i
零均值:E(\varepsilon_i) = 0
同方差性:\text{Var}(\varepsilon_i) = \sigma^2(常数)
无自相关:\text{Cov}(\varepsilon_i, \varepsilon_j) = 0, \; i \neq j
非随机设计:x_i 是非随机的,且 S_{xx} > 0
若进一步假设 \varepsilon_i \sim N(0, \sigma^2)(正态假设),则称为经典正态线性回归模型。
在上述假设下,最小二乘估计量具有以下优良性质:
无偏性:E(\hat{\beta}_1) = \beta_1,即估计量的期望等于真值
方差:\text{Var}(\hat{\beta}_1) = \dfrac{\sigma^2}{S_{xx}},其中 S_{xx} = \sum(x_i - \bar{x})^2
Gauss-Markov 定理:在经典假设下,最小二乘估计量 \hat{\beta}_0, \hat{\beta}_1 是最佳线性无偏估计量(Best Linear Unbiased Estimator,简称 BLUE)。
即:在所有线性无偏估计量中,最小二乘估计量的方差最小。这个定理告诉我们,不需要正态假设,只要满足基本条件,最小二乘法就是「最优的」线性无偏估计方法。换句话说,高中学的回归公式不是随意选的——它在数学上被证明是「最好的」。
残差分析
建立了回归模型之后,我们需要衡量模型的拟合效果,这就要用到残差。
定义残差 e_i = Y_i - \hat{Y}_i = Y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i,它是第 i 个观测值与模型预测值之间的差。
残差的性质:
\sum e_i = 0(残差之和为零)
\sum x_i e_i = 0(残差与自变量不相关)
这两条性质直接来源于正规方程,可以用来检验计算结果是否正确。
残差的另一个重要用途是估计误差方差 \sigma^2。\sigma^2 的无偏估计为:
\hat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^{n} e_i^2 = \frac{SSE}{n-2}
其中 SSE = \sum e_i^2 称为残差平方和,分母是 n-2 而不是 n(因为估计了两个参数 \beta_0, \beta_1,损失了两个自由度——关于自由度的详细讨论见后文)。
在实际应用中,还可以通过残差图(将残差 e_i 对 x_i 或 \hat{Y}_i 作散点图)来检查模型假设是否成立:如果残差随机地散布在零附近,没有明显的趋势或模式,说明线性模型是合适的;如果残差呈现出系统性的弯曲或喇叭口形状,则可能需要考虑非线性模型或异方差问题。
非线性回归
并非所有变量之间的关系都是线性的。对于某些非线性函数,可以通过适当的变量变换转化为线性形式,再用线性回归的方法求解:
| 原始模型 | 变换方法 | 线性化形式 | 适用场景 |
|---|---|---|---|
| y = ae^{bx} | 令 Y = \ln y | Y = \ln a + bx | 指数增长 / 衰减 |
| y = ax^b | 令 Y = \ln y, X = \ln x | Y = \ln a + bX | 幂函数关系 |
| y = \dfrac{1}{a+bx} | 令 Y = 1/y | Y = a + bx | 反比例关系 |
| y = \dfrac{x}{ax+b} | 令 Y = x/y | Y = ax + b | 分式线性 |
变换法的注意事项:变换后再做最小二乘,最小化的目标函数与直接在原始模型上做最小二乘不同。例如对 y = ae^{bx},变换法最小化的是 \sum(\ln y_i - \ln a - bx_i)^2,而非 \sum(y_i - ae^{bx_i})^2。这会改变误差结构,解释时要谨慎。
广义线性模型(Generalized Linear Model, GLM)将经典线性模型推广到非正态响应变量,由三部分组成。
- 随机成分:Y_i 服从指数族分布(正态、二项、泊松、Gamma 等)
- 系统成分:线性预测子 \eta_i = \mathbf{x}_i^\mathsf{T}\boldsymbol{\beta}
- 连接函数:g(\mu_i) = \eta_i,其中 \mu_i = E(Y_i)
| 分布 | 典型连接函数 | 模型名称 | 应用场景 |
|---|---|---|---|
| 正态 N(\mu, \sigma^2) | 恒等:g(\mu)=\mu | 线性回归 | 连续响应 |
| 二项 B(n,p) | Logit:g(p)=\ln\frac{p}{1-p} | Logistic 回归 | 分类问题 |
| 泊松 P(\lambda) | 对数:g(\lambda)=\ln\lambda | 泊松回归 | 计数数据 |
逻辑回归(Logistic Regression,逻辑斯蒂回归)是最常用的 GLM 特例。对于二分类问题 Y_i \in \{0,1\}:
\ln\frac{p_i}{1-p_i} = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_p x_{ip}
等价于 p_i = \dfrac{1}{1+e^{-\mathbf{x}_i^\mathsf{T}\boldsymbol{\beta}}},其中 \sigma(z) = \dfrac{1}{1+e^{-z}} 是 Sigmoid 函数。
独立性检验与假设检验
前面我们讨论了如何用回归模型描述变量之间的定量关系。但有时候,我们关心的问题更基本:两个分类变量之间是否有关联?例如,吸烟与肺癌之间是否存在关联?这就需要用到独立性检验。在介绍独立性检验之前,我们先了解几个基础概念。
自由度
在统计学中,自由度(degree of freedom,df)是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数。
直观理解:
若存在两个变量 a,b,而 a+b=6,那么自由度为 1。因为只有 a 能自由变化,b 会被 a 的值所限制。
估计总体的平均数 \mu 时,自由度为 n(n 个数都相互独立)
估计总体的方差 \sigma^2 时,自由度为 n-1。因为用了样本平均数 \bar{x} 这个约束条件,有一个数据不再自由
回归中的自由度:
一元线性回归中,残差平方和的自由度为 n-2(估计了两个参数 \beta_0, \beta_1)
多元线性回归中,自由度为 n-p-1(p 个自变量加一个截距)
误差与残差
误差和残差是两个容易混淆但有本质区别的概念:
误差(error):观测值与总体真值之间的差异(通常未知),即 \varepsilon_i = Y_i - (\beta_0 + \beta_1 x_i)
残差(residual):观测值与样本估计值之间的差异(可计算),即 e_i = Y_i - (\hat{\beta}_0 + \hat{\beta}_1 x_i)
关键区别:
误差是理论上的随机量,相互独立
残差是样本层面的具体数值,由于 \sum e_i = 0 的约束,残差之间不是相互独立的
正态分布下的情况:假定样本 X_{1},\dots ,X_{n}\sim N\left(\mu ,\sigma ^{2}\right)
统计误差:e_{i}=X_{i}-\mu
残差:r_{i}=X_{i}-{\overline {X}}
统计误差的平方和除以 \sigma^2 服从自由度为 n 的卡方分布,而残差的平方和除以 \sigma^2 服从自由度为 n-1 的卡方分布。这 1 个自由度的差异就是贝塞尔校正(Bessel’s correction)——这正是我们用 n-1 而非 n 来估计方差的原因。
假设检验
假设检验(hypothesis testing)是推论统计中用于检验现有数据是否足以支持特定假设的方法。
核心思想:先建立原假设,然后看数据是否提供了足够证据来拒绝它。
零假设与备择假设:
零假设(null hypothesis,记作 H_0):通常是我们希望证伪的假设,反映「无效应」或「无差异」
备择假设(alternative hypothesis,记作 H_a 或 H_1):与零假设对立,通常是我们希望证实的假设
法庭审判类比:
零假设:被告无罪(默认立场)
备择假设:被告有罪(需要证明)
证据:样本数据
判决:根据证据是否足够强来决定拒绝或不拒绝零假设
女士品茶示例:统计学家费希尔(Ronald Fisher)的女同事缪丽·布里斯托尔(Muriel Bristol)声称可以判断在奶茶中是先加入茶还是先加入牛奶。费希尔提议给她八杯奶茶(四杯先加茶,四杯先加牛奶,随机排列)。
零假设 H_0:她无法判断
备择假设 H_1:她可以判断
若单纯以概率考虑(即她只是猜测),八杯都正确的概率为 1/70 \approx 1.43\%,这是很小的概率。测试结果为缪丽八杯都正确,因此在统计上是显著的结果,几乎可以排除她只是恰好猜对的可能性。
两类错误:
第一类错误(Type I error):零假设为真,但我们拒绝了它(「冤枉好人」)
第二类错误(Type II error):零假设为假,但我们没有拒绝它(「放过坏人」)
显著性水平 \alpha:允许犯第一类错误的概率,通常取 0.05 或 0.01。
检验力:正确拒绝错误零假设的概率,等于 1 - \beta(其中 \beta 是犯第二类错误的概率)。
皮尔逊卡方检验
现在我们进入具体的独立性检验方法。对于两个分类变量,我们可以用列联表来展示它们的联合频率分布。以最简单的 2 \times 2 列联表为例:
| B | \bar{B} | 合计 | |
|---|---|---|---|
| A | a | b | a+b |
| \bar{A} | c | d | c+d |
| 合计 | a+c | b+d | n |
如果 A 和 B 是独立的,那么每个格子的期望频数应该等于对应行总和与列总和的乘积除以总数。实际频数与期望频数之间的偏差越大,就越有理由认为 A 和 B 不独立。
卡方统计量:
\chi^2 = \frac{n(ad - bc)^2}{(a+b)(c+d)(a+c)(b+d)}
这个公式是一般卡方统计量 \chi^2 = \sum\frac{(O_{ij}-E_{ij})^2}{E_{ij}} 在 2 \times 2 列联表中的特殊简化形式,其中 O_{ij} 是观察频数,E_{ij} 是期望频数。
\chi^2 越大,A 与 B 的相关性越强。
判断标准:在零假设(A 与 B 独立)成立时,\chi^2 近似服从自由度为 1 的卡方分布 \chi^2(1)。查卡方分布表,当 \chi^2 > 3.841(\alpha = 0.05,df=1)时,有 95\% 的把握认为 A 与 B 相关。
这里的 3.841 是自由度为 1 的卡方分布在显著性水平 \alpha = 0.05 时的临界值——它不是一个需要记住的「魔法数字」,而是由卡方分布的概率密度函数计算得出的。
卡方检验的适用条件:卡方检验要求每个格子的期望频数不能太小(通常要求 E_{ij} \geq 5)。当样本量不够大时,应改用 Fisher 精确检验等方法。