随机变量分布
随机变量 $X=X(e)$ 是定义在样本空间 $S=\{e\}$ 上的实值单值函数,它是随机试验结果的函数,它的取值随试验的结果而定,是不能预先确定的,它的取值有一定的概率分布。
离散型随机变量
一个随机变量,如果它所有可能的值是有限个或可列无限个,这种随机变量称为离散型随机变量。
离散型随机变量性质
设离散型随机变量 $X$ 所有可能取的值为 $x_{k},(k=1,2,\cdots)$,$X$ 取各个可能值的概率,即事件 $\{X=x_{k}\}$ 的概率为
$$P\{X=x_{k}\}=p_{k}, k=1, 2, \cdots .$$
由概率的定义, $p_{k}$ 满足如下两个条件:
- $p_{k} \geq 0, k=1, 2, \cdots ;$
- $\sum_{k=1}^{\infty}p_{k}=1.$
离散型随机变量分布
(0-1)分布
设随机变量 $X$ 只可能取 0 和 1 两个值,它的分布律是
$$P\{X=k\}=p^{k}(1-p)^{1-k},k=0,1,(0<p<1),$$
则称 $X$ 服从以 $p$ 为参数的 (0-1)分布或两点分布。
伯努利试验和二项分布
设试验 $E$ 只有两个可能的结果:$A$ 和 $\overline A$,则称 $E$ 为伯努利(Bernouli)试验。设 $P(A)=p,(0<p<1)$,此时 $P(\overline A)=1-p$。将 $E$ 独立重复地进行 $n$ 次,则称这一串重复的独立试验为 $n$ 重伯努利试验。
这里“重复”是指在每次试验中 $P(A)=p$ 保持不变;“独立” 是指各次试验的结果互不影响,即若以 $C_{i}$ 记第 $i$ 次试验的结果,$C_{i}$ 为 $A$ 或 $\overline A$,$i=1,2,\cdots ,n$。独立是指
$$P(C_{i}C_{2} \cdots C_{n})=P(C_{1})P(C_{2}) \cdots P(C_{n}).$$
以 $X$ 表示 $n$ 重伯努利试验中事件 $A$ 发生的次数,$X$ 是一个随机变量,我们来求他的分布律。$X$ 所有可能的取值为 $0,1,2,\cdots,n$。由于各次试验是相互独立的,因此事件 $A$ 在指定的 $k,(0\leq k \leq n)$次试验中发生,在其他 $n-k$ 次试验中 $A$ 中不发生,则概率为 $p^{k}(1-p)^{n-k}$。
这种指定的方式共有 ${n \choose k}$ 种,它们是两两互不相容的,故在 $n$ 次试验中 $A$ 发生 $k$ 次的概率为 ${n \choose k}p^{k}(1-p)^{n-k}$,记 $q=1-p$,即有
$$P\{X=k\}={n \choose k}p^{k}q^{n-k},k=0,1,2,\cdots,n.$$
显然
$$P\{X=k\} \geq 0,k=0,1,2,\cdots,n;$$
$$\sum_{k=0}^{n}P\{X=k\}=\sum_{k=0}^{n}{n \choose k} p^{k}q^{n-k}=(p+q)^{n}=1.$$
注意到 ${n \choose k}p^{k}q^{n-k}$ 刚好是二项式 $(p+q)^{n}$ 的展开式中出现 $p^{k}$ 的那一项,我们称随机变量 $X$ 服从参数为 $n,p$ 的二项分布,并记为 $X~b(n,p).$
泊松分布
设随机变量 $X$ 所有可能取的值为 $0,1,2,\cdots,$ 而取各个值的概率为
$$P\{X=k\}=\frac{\lambda ^{k}e^{-\lambda}}{k!},k=0,1,2,\cdots,$$
其中,$\lambda$ 是常数,则称 $X$ 服从参数为 $\lambda$ 的泊松分布,记为 $X ~ \pi (\lambda)$。
泊松定理
设 $\lambda > 0$ 是一个常数,$n$ 是任意正整数,设 $np_{n}=\lambda$,则对于任一固定的非负整数 $k$,有
$$\lim_{n \to \infty}{n \choose k}p_{n}^{k}(1-p_{n})^{n-k}=\frac{\lambda ^{k}e^{-\lambda}}{k!}.$$
连续型随机变量
设随机变量 $X$ 的分布函数为 $F(X)$,如果存在非负可积函数 $f(x)$ ,使得对于任意 $x$,有
$$
F(x)=\int_{-\infty}^{x}f(x)dx,
$$
则称 $X$ 是连续型随机变量,其中 $f(x)\geq 0$ 称为 $X$ 的概率密度。
连续型随机变量性质
由定义知道,概率密度 $f(x)$ 具有以下性质:
- $f(x) \geq 0$;
- $\int_{-\infty}^{\infty}f(x)dx=1$;
- 对于任意的实数 $x_1,x_2,(x_1 \leq x_2),$,有 $P\{x_1<X\leq x_2\}=F(x_2)-F(x_1)=\int_{x_1}^{x_2}f(x)dx;$
- 若 $f(x)$ 在点 $x$ 处连续,则有 $F^{‘}(x)=f(x)$.
连续型随机变量分布
均匀分布
若连续随机变量 $X$ 具有概率密度
$$f(x)=\begin{cases}
\frac{1}{b-a} & \text{a<x<b,}\\
0 & \text{其他}.
\end{cases}$$
则称 $X$ 在区间 $(a,b)$ 上服从均匀分布,记为 $X~U(a,b).$
指数分布
若连续随机变量 $X$ 的概率密度为
$$f(x)=\begin{cases}
\frac{1}{\theta}e^{\frac{-x}{\theta}} & \text{$x$>0,}\\
0 & \text{其他}.
\end{cases}$$
其中,$\theta > 0$ 为常数,则称 $x$ 服从参数为 $\theta$ 的指数分布。
服从指数分布的随机变量 $X$ 具有以下性质:
对于任意 $s,t>0$,有
$$P\{X>s+t|X>s\}=P\{X>t\}$$.
正态分布
若连续随机变量 $X$ 的概率密度为
$$f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma ^2}},-\infty < x < \infty,$$
其中 $\mu,\sigma(\sigma>0)$ 为常数,则称 $X$ 服从参数为 $\mu,\sigma$ 的正太分布 或 高斯(Gauss)分布,记为 $X~N(\mu,\sigma ^2).$
概率密度具有如下性质:
- 曲线关于 $x=\mu$ 对称,这表明对于任意 $h>0$ 有 $P\{\mu-h<X\leq \mu\}=P\{\mu<X\leq \mu+h\}.$
- 当 $x=\mu$ 时取得最大值 $f(\mu)=\frac{1}{\sqrt{2\pi}}\sigma.$
参考资料
- 《概率论与数理统计》,第四版,高等教育出版社