概率初步与随机化
提示:高中这一部分涉及的非常浅,并且一般的讲解也没有逻辑和思维可言,如果你想要更深刻的了解这些内容,又不想过于深入,建议你阅读 Prob-Stat,以及我爬取的这个课程的讲义和课件。
以下部分内容来自 OI Wiki。
样本与事件
样本空间
简而言之,样本空间 \Omega 指明随机现象所有可能出现的结果。
具体的,一个随机现象中可能发生的不能再细分的结果被称为样本点,所有样本点的集合称为样本空间,通常用 \Omega 来表示。
二维样本空间的列举,表格法:
| 1 | 2 | 3 | 4 | 5 | 6 | |
|---|---|---|---|---|---|---|
| 1 | (1, 1) | (1, 2) | (1, 3) | (1, 4) | (1, 5) | (1, 6) |
| 2 | (2, 1) | (2, 2) | (2, 3) | (2, 4) | (2, 5) | (2, 6) |
| 3 | (3, 1) | (3, 2) | (3, 3) | (3, 4) | (3, 5) | (3, 6) |
| 4 | (4, 1) | (4, 2) | (4, 3) | (4, 4) | (4, 5) | (4, 6) |
| 5 | (5, 1) | (5, 2) | (5, 3) | (5, 4) | (5, 5) | (5, 6) |
| 6 | (6, 1) | (6, 2) | (6, 3) | (6, 4) | (6, 5) | (6, 6) |
概率空间是概率论的基础,概率的严格定义基于这个概念。因为在高中引入这个概念显得过于突兀,且没有实际用处,因此这里略过,详细请仔细查阅百科。
随机事件
一个事件是样本空间 \Omega 的任意子集,又分为:
一个随机事件是样本空间 \Omega 的非空真子集。
一个必然事件是样本空间 \Omega 本身。
一个不可能事件是一个空集 \varnothing。
一个基本事件是样本空间 \Omega 的一个大小为 1 的子集。
由此可知,事件是一个由若干样本点构成,用大写字母 A, B, C, \cdots 表示。对于一个随机现象的结果 \omega 和一个随机事件 A,我们称事件 A 发生了 当且仅当 \omega \in A。
在概率论中,随机事件(或简称事件)指的是随机试验结果的一个子集,也就是样本空间中的一个子集。简单来说,在一次随机试验中,某个特定事件可能出现也有可能不出现;但当试验次数增多,我们可以观察到某种规律性的结果,就是随机事件。随机事件有其出现的概率。基本上,只要样本空间是有限的,则在样本空间内的任何一个子集合,都可以被称为是一个事件。然而,当样本空间是无限的时候,特别是不可数之时,就常常不能定义所有的子集为随机事件了。
例如:掷一次骰子得到的点数是一个随机现象,其样本空间可以表示为 \Omega=\{1,2,3,4,5,6\}。设随机事件 A 为「获得的点数大于 4」,则 A = \{ 5, 6 \}。若某次掷骰子得到的点数 \omega = 3,由于 \omega \notin A,故事件 A 没有发生。
由于我们将随机事件定义为了样本空间 \Omega 的子集,故我们可以将集合的运算(如交、并、补等)移植到随机事件上。记号与集合运算保持一致。
并(和)事件:事件的并 A \cup B 也可记作 A + B,表示至少有一个事件发生。
交(积)事件:事件的交 A \cap B 也可记作 AB,表示事件全部发生。
大数定律
大数定律:在数学与统计学中,大数定律又称大数法则、大数律,是描述相当多次数重复实验的结果的定律。根据这个定律知道,样本数量越多,则其算术平均值就有越高的概率接近期望。
大数定律说明了一些随机事件的均值的长期稳定性。人们发现,在重复试验中,随着试验次数的增加,事件发生的频率趋于一个稳定值;人们同时也发现,在对物理量的测量实践中,测定值的算术平均也具有稳定性。比如,我们向上抛一枚硬币,硬币落下后哪一面朝上是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一,亦即偶然之中包含着必然。
例如,抛掷一颗均匀的 6 面的骰子,每次扔出骰子后,出现点数的期望是 3.5 根据大数定理,如果多次抛掷骰子,随着抛掷次数的增加,平均值(样本平均值)应该接近 3.5,根据大数定理,在多次伯努利实验中,实验频率最后收敛于理论推断的概率值,对于伯努利随机变量,理论推断的成功概率就是期望,而若对 n 个相互独立的随机变量的平均值,频率越多则相对越精准。
例如硬币投掷即伯努利实验,当投掷一枚均匀的硬币,理论上得出的正面向上的概率应是 1/2。因此,根据大数定理,正面朝上的比例在相对“大”的数字下,“理应”接近为 1/2,尤其是正面朝上的频率在 n 次实验(n 接近无限大时)后应几近收敛到 1/2。
即使正面朝上(或背面朝上)的比例接近 1/2,几乎很自然的正面与负面朝上的绝对差值(absolute difference,差值范围)应该相应随着抛掷次数的增加而增加。换句话说,绝对差值的概率应该是会随着抛掷次数而接近于 0。直观的来看,绝对差值的期望会增加,只是慢于抛掷次数增加的速度。
事件的互斥和对立
互斥事件:A \cap B = \varnothing,即事件 A 和 B 不能同时发生。
A,B\textsf{ 互斥}\iff AB=\varnothing
对立事件:其中必有一个发生的两个互斥事件。
A,B\textsf{ 对立}\iff AB=\varnothing,A\cup B=\Omega
对于互斥事件和对立事件(是互斥事件的一个特例):
P(A\cup B)=P(A)+P(B)
辨析概率为 0 与不可能事件,概率为 1 与必然事件。这是概率论中极易混淆的核心概念,必须严格区分集合论层面与概率论层面的概念:
- 互斥事件的严格定义是 A \cap B = \varnothing(交集为空集),而非 P(A \cap B) = 0。
- 对立事件必须同时满足 A \cap B = \varnothing 且 A \cup B = \Omega。
常见误解:
| 误解 | 正确理解 |
|---|---|
| P(A \cap B) = 0 \implies A \cap B = \varnothing | P(A \cap B) = 0 只说明交集是零概率事件,但交集可能非空 |
| P(A \cup B) = 1 \implies A \cup B = \Omega | P(A \cup B) = 1 只说明并集是几乎必然事件,但并集可能不等于全集 |
关键区分:
| 概念 | 集合层面 | 概率层面 | 含义 |
|---|---|---|---|
| 不可能事件 | A = \varnothing | P(A) = 0 | 逻辑上绝对不发生 |
| 零概率事件 | A \neq \varnothing | P(A) = 0 | 集合存在但测度为 0,几乎不可能(Almost Never) |
| 必然事件 | A = \Omega | P(A) = 1 | 逻辑上绝对发生 |
| 概率为 1 事件 | A \neq \Omega | P(A) = 1 | 测度为 1 但未覆盖全集,几乎必然(Almost Surely) |
经典反例:设样本空间 \Omega = [0,1](均匀分布),令
- A = [0, 0.5]
- B = [0.5, 1]
则:
- P(A) = 0.5,\ P(B) = 0.5,满足 P(A)+P(B)=1
- P(A\cup B)=1
- 但 A \cap B = \{0.5\} \neq \varnothing,故 A,B 不是对立事件
根本原因:在连续空间中,单点集的概率为 0 但非空。概率为 0 不等于空集,概率为 1 不等于全集,这是测度论的基本认知。
适用边界:仅在古典概型(样本点有限且每个样本点概率严格大于 0)中,概率极值才等价于集合极值。一旦涉及连续空间或无限样本点,必须使用测度语言描述。
独立事件和独立性
独立事件:A 发生不影响 B 而 B 发生也不影响 A。
P(AB)=P(A)P(B)
根据这个式子,如果 A,B 独立,那么 A 及其补集,B 及其补集也应当都是独立的。
在条件概率中,若 A,B 独立:
P(A|B)=\dfrac{P(AB)}{P(B)}=P(A)
P(B|A)=\dfrac{P(AB)}{P(A)}=P(B)
也可以用条件概率推导独立,这是 iff 的。
多个事件的独立性
对于多个事件 A_1, A_2, \cdots, A_n,我们称其独立,当且仅当对任意一组事件 \{ A_{i_k} : 1 \leq i_1 < i_2 < \cdots < i_k \leq n \} 都有:
P( A_{i_1}A_{i_2} \cdots A_{i_r} ) = \prod_{k=1}^{r} P(A_{i_k})
对于多个事件,一般不能从两两独立推出这些事件独立。考虑以下反例:
- 有一个正四面体骰子,其中三面被分别涂成红色、绿色、蓝色,另一面则三色皆有。现在扔一次该骰子,令事件 A,B,C 分别表示与桌面接触的一面包含红色、绿色、蓝色。
不难计算:
P(A) = P(B) = P(C) = \frac{1}{2}
P(AB) = P(BC) = P(CA) = P(ABC) = \frac{1}{4}
显然 A, B, C 两两独立,但由于 P(ABC) \neq P(A)P(B)P(C),故 A, B, C 不独立。
概率的定义
下面是一些概率的“分类”的定义。考虑到读者阅读下面的内容,会感到一定的知识割裂,因此这里先给出一些较为普适的说法。
概率(旧称几率),是对随机事件发生之可能性的度量,为数学概率论的基本概念;概率的值是一个在 0 到 1 之间的实数,也常以百分数来表示。概率论是研究概率、随机性及不确定性等现象的数学分支。概率论主要研究对象为随机事件、随机变量以及随机过程。
对于随机事件是不可能准确预测其结果的,然而对于一系列的独立随机事件——例如掷骰子、扔硬币、抽扑克牌以及轮盘等,会呈现出一定的、可以被用于研究及预测的规律,两个用来描述这些规律的最具代表性的数学结论分别是大数定律和中心极限定理。
随机性这个词是用来表达目的、动机、规则或一些非科学用法的可预测性的缺失。一个随机的过程是一个不定因子不断产生的重复过程,但它可能遵循某个概率分布。
术语随机经常用于统计学中,表示一些定义清晰的、彻底的统计学属性,例如缺失偏差或者相关。随机与任意不同,因为“一个变量是随机的”表示这个变量遵循概率分布。而任意在另一方面又暗示了变量没有遵循可限定概率分布。
概率常用来量化对于某些不确定命题的想法,这些概念可以形成概率论中的数学公理。应用到具体问题,“概率”常常被用来视作是对某一事件是否发生(过)的“推测”。这种涵义下,在宏观世界(非量子力学情况)中,概率来源于信息的缺失,有效信息越多,对某一事件发生的把握度(概率)就越大,直至“必然发生”——例如理论上知道抛一枚硬币时的位置、受力情况,便可以计算出落下时正面还是反面,所知参数越精确,算得概率就能越接近 1。但“混沌效应”仍然会制约收入概率的大小。
在牛顿力学的概念,决定论的世界中,若所有条件皆是已知,都没有任何概率性的成分在内(拉普拉斯的恶魔),不过有可能一些系统对初始条件敏感,敏感程度甚至到超过可能量测的范围。以俄罗斯轮盘为例,若手的施力、出力的时间等信息已知,轮盘最后停止的位置是可以计算而得的,不过此时需要知道轮盘的惯量及摩擦系数,球的质量、光滑度及圆度,出力过程中手速度的变化等;此时,相较于用牛顿力学的方式分析,概率性的描述可能更适合描述重复玩数次俄罗斯轮盘的结果。科学家发现在气体动力论中也有类似的情形,系统理论上是确定的,但因为气体分子个数约和阿伏伽德罗常数量级相当,因此也只能用概率性的描述。
在描述量子理论时一定会用到概率论,二十世纪初期,物理学界有一个革命性发现,所有亚原子层级的物理过程有随机性,依循量子力学。物理的波函数是确定的,是数个状态的叠加,但根据哥本哈根诠释,观察会带来波函数坍缩,因此只能观察到其中一个状态。不过这种缺乏决定论的观点未受到所有人的同意,爱因斯坦在给马克斯·玻恩的信上提到“我相信上帝不会玩骰子。”;而发现波函数的埃尔温·薛定谔认为量子力学只是内部决定论状态的统计近似。在近代的诠释中,量子退相干有相当的概率性质。
古典概型
在概率论早期实践中,由于涉及到的随机现象都比较简单,具体表现为样本空间 \Omega 是有限集,且直观上所有样本点是等可能出现的,因此人们便总结出了下述定义(称为传统概率模型或古典概率模型或拉普拉斯概率模型):
如果一个随机现象满足:
- 只有有限个基本结果。
- 每个基本结果出现的可能性是一样的。
那么对于每个事件 A,定义它的概率为:
P(A)=\dfrac{|A|}{|\Omega|}
最经典的例子是,掷硬币、掷骰子。
或者用 \#(\cdot) 表示对随机事件(一个集合)大小的度量:
P(A)=\dfrac{\#(A)}{\#(\Omega)}
古典概型做题公式:
记事件 A=\dots。
\Omega=\{\dots\} 共几个。
A=\{\dots\} 共几个。
P(A)=\dfrac{\#(A)}{\#(\Omega)}。
后来人们发现这一定义可以直接推广到 \Omega 无限的一部分情景中,于是就有了所谓几何概型。
在古典概型中,最应当注意的是一致的可能性,例如扔两次硬币,一正一反就不应当是一个于两正、两反等概率的事件。
几何概型
在这个模型下,随机实验所有可能的结果是无限的,并且每个基本结果发生的概率是相同的。几何概型定义,概率 = 有利区域测度 \div 总区域测度。当所求解问题可以转化为某种随机分布的特征数,比如随机事件出现的概率,或者随机变量的期望,就可以使用蒙特卡罗法。
通过大量随机抽样的方法,以随机事件出现的频率估计其概率,或者以抽样的数字特征估算随机变量的数字特征,并将其作为问题的解。
经常的,我们会因为概率相同犯错误,这也导致了 Bertrand(伯特兰)悖论等问题的产生,于是也就诞生了概率的公理化描述。
从古典概型过渡到几何概型,核心是完成**从“计数思维“到“测度思维“**的范式转换。
| 概型 | 概率公式 | 核心操作 | 样本空间特征 |
|---|---|---|---|
| 古典概型 | P(A) = \dfrac{|A|}{|\Omega|} | 计数(有限个样本点) | 有限集,每个点概率 \ge 0 |
| 几何概型 | P(A) = \dfrac{\mu(A)}{\mu(\Omega)} | 测度(长度/面积/体积) | 连续无限,每个点概率为 0 |
测度(Measure):在一维空间是长度,二维空间是面积,三维空间是体积。
三大经典陷阱与破解:
| 陷阱 | 古典视角误区 | 几何真相 | 破解要点 |
|---|---|---|---|
| 陷阱一:边界虚无 | 纠结开闭区间、边界是否包含 | 单点测度为 0,边界不影响概率 | 闭区间/开区间结果相同,随意决定边界归属简化计算 |
| 陷阱二:变量畸变 | 认为“均匀“在变换后仍保持 | x 均匀 \centernot\implies f(x) 均匀 | 永远在题目给定的均匀变量空间中画图求测度 |
| 陷阱三:贝特朗悖论 | “随机“有唯一自然含义 | “随机“必须明确均匀测度的定义 | 审题:是“等弧长“?“等距离”?还是“等面积“? |
贝特朗悖论典型案例:在圆内随机作弦,求长度大于内接正三角形边长的概率。三种“随机“假设得三种答案(1/2, 1/3, 1/4)。根本原因:题目未指定“等可能“对应的测度(弧长/半径/面积)。考试中题目会明确或隐含说明。
实战通用框架(SOP):
- 寻根:锁定均匀变量(Who is random?)。题目中哪个量是等可能的?是坐标 x?时间 t?还是角度 \theta?
- 升维:确定测度空间(What is the measure?)。一维→数轴(长度),二维→平面(面积),三维→立体(体积)。
- 翻译:将样本空间 \Omega 和目标事件 A 翻译为几何区域(解不等式,画图)。
- 裁决:计算几何测度比 \dfrac{\mu(A)}{\mu(\Omega)}。
约会问题:甲乙约定 6 点到 7 点见面,先到者等 15 分钟即离去。求能见面的概率。
古典一维陷阱:误以为 P = \dfrac{15}{60} = \dfrac{1}{4}。错因:忽略两人独立到达的二维随机性。
正确几何解法:
- 设甲到时间 x,乙到时间 y,0 \le x,y \le 60。
- 样本空间:边长为 60 的正方形(面积 3600)。
- 能见面条件:|x - y| \le 15(两条直线间的带状区域)。
- 有利面积:3600 - 30 \times 30 = 1575。
- 概率:\dfrac{1575}{3600} = \dfrac{7}{16}。
思维准则:
- 抛弃计数本能,建立测度直觉:先问维度,再定量纲(长度/面积/体积)。
- 边界可随意,闭开不影响:边界测度为 0,为计算方便可自由选择。
- 遇到“随机“必追问:哪个变量均匀?未说明时,默认最自然的测度(如“圆内随机点“默认面积均匀)。
- 复杂区域用积分:不规则区域用定积分求面积比。
- 直觉不符则升维:若结果与一维直觉冲突,检查是否忽略了随机自由度。
概率公理
公理一:0\le P(A)\le1(A\subset\Omega)。
公理二:P(\Omega)=1,P(\varnothing)=0。
公理三:A\cap B=\varnothing\implies P(A\cup B)=P(A)+P(B)。
推论:
若 A\subset B,则 P(A)\le P(B)(概率的单调性)。
若 A 与 B 对立,则 P(A)+P(B)=1。
容斥原理:P(A\cup B)=P(A)+P(B)-P(A\cap B)。
其中上面第二条就是容斥原理的推论。
频率学派
频率学派强调通过数据出现的频率或比例,从样本数据中得出结论。
根据大数定律,样本数量越多,则其算术平均值就有越高的概率接近期望。
最经典的例子是,抛硬币正面向上的频率趋近于 0.5。
主观概率
主观概率,是指建立在过去的经验与判断的基础上,根据对未来事态发展的预测和历史统计资料的研究确定的概率。主观概率反映的只是一种主观可能性,尽管有一定的科学性,但和能客观地反映事物发展规律的自然概率不同。
最经典的例子是,降雨概率。