数据科学基础笔记

Week 1

  • DIKW

    DIKW framework describes a hierarchical relationship between data, information, knowledge and wisdom.

    Data Information Knowledge Wisdom

    DIKW金字塔:底层 数据->信息->知识->智慧 高层

    Data不是Info本身,Data要有一定的解释规则才能获得Info。

    数据最相关的是集合论,集合论是现代现代数学的基础。

    数学结构:在数学中,一个集合上的结构是由附在在改集合上的某种操作和含义。

    序结构:集合S和其关系≤满足自反,反对称,传递。S称为偏序集,若偏序集中任意两个元素均可以比较,则≤称为全序关系,偏序集的任意非空子集都有最小元素,则≤为良序关系。(良序关系一定是全序关系)

    代数结构:群是一种只有一个运算的简单代数结构。

    布尔代数

    关系代数:关系代数是在布尔代数的一个扩展。

    推理规则:$((p → q) ∧ p) → q$

    数据—信息—知识:通过规则从数据获得信息,进而取得知识。

  • 数据类型

    数据类型通常分为:低级侧| 定类数据(Nominal Data)、定序数据(Ordinal Data)、定距数据(Interval Data)、定比数据(Ratio Data) |高级侧

    高级数据可以通过数据处理降为低级数据。假如一种数据分析方法适用于低级数据,那么这种方法也适用于高级别的数据。

    定类数据:通常用来代表不同的分类,数据相应的数据没有数量的含义,也没用顺序的分别,只用来识别种类,如将男女定位1和0,Python、C++、Java定为1,2,3,。定类数据之间的数学关系就是等于或者不等于,可以说Java≠C++,但是不能说Java>C++。

    定序数据:是从定类数据往量化的进步,通常用数字表示顺序。定序数据的每个分类不但有差别,还有等级之分,定序数据之间的数学关系有=、≠、>、<、≥、≤等。(将产品分等级,将成绩分等级等)(定序数据虽然描述了顺序,但没有描述各类之间的差距

    定距数据:是在定序数据基础上可以确定事物类别之间的间距。定距变量的数据是一种真正量化的数值,即可以对这些数据进行加减乘除等的运算。在定距变量中,0往往是强行规定的,不一定不代表完全没有的意思。

    定比数据定距数据和定比数据最大的差别是,0是否具有实际的物理含义。定比变量是在定距变量的基础上,扩展可作为比率的基数而成。定比变量一般需要统一单位,如米,秒等。身高体重等都是定比变量。定比数据的零点代表了完全没有的含义

    数据类型 基本特征 关系和运算 举例
    定类数据 无次序分类 =、≠ 性别、政党
    定序数据 有次序分类 =、≠、>、< 产品级别,年级
    定距数据 有距离度量,没有绝对零点 +、-、×、÷ (数值除法) 温度(℃)、成绩
    定比数据 具有绝对零点 可以使比例除法运算 温度(K)、长度、年龄
  • 数据汇总

    数据汇总通常可以分为集中趋势度量(Central Tendency)离散趋势度量(Variation Tendency)

    集中趋势度量:反映的是数据的平均水平或数据的中心值。对平均的不同理解可能导致不同的计算结果。

    众数:众数是所有数据中出现最多的那个数值,通常记为M。众数不受极值的影响。众数通常用来描述离散型变量,尤其是分类型变量。众数通常用于定类变量的统计中,对于定序变量、定距变量、定比变量,通常采用中位数和算数平均数表示集中趋势。对于后3种数据,另外一种做法是先分组再求众数。

    中位数:排序后位于中间的数值。

    四分位数:数据排序后四等分,四分位数有三个,Q1,Q2,Q3,Q2,即第二四分位数就是中位数。

    N分位数

    算数平均数

    加权平均数

    几何平均数:几何平均数是n个数据相乘的n次方根,常用来计算平均增长率。

    调和平均数:n除以倒数的求和。

    平方平均数:平方平均数是对每个数据平方求平均,最后再开方。

    $Hn ≤ Gn ≤ An ≤ Qn$

    调和 几何 算数 平均

    离散趋势度量:集中趋势度量往往是我们产品设计的目标,而考虑数据的离散程度就是在考虑数据能承受波动的能力。

    全距(极差):极差没有考虑数据的分布情况,当数据中存在极值并不太关注数据分布的情况时,极值是一种合适的离散趋势度量。

    内距:内四分位距 = Q3 - Q1。内距不受极值影响的度量值通常称为 抵抗度量。虽然内距比全距更有意义,但它仍有以下两个缺点,即不能提供精确的数据分布信息,以及不能用来进行精确的统计推断。

    偏差平方和(d^2):每个数据减去平均值的平方的和。

    方差(s^2):偏差平均值求平均。

    标准差(s):方差开根。

  • 事件的集合表示

    • 基本事件:由一个样本点组成的单点集
    • 复合事件:由两个或两个以上样本点组成的集合
    • 必然事件:全集 $\Omega$
    • 不可能事件:空集 $\phi$
  • 事件的集合运算

    • 包含:𝐴⊆𝐵,即事件𝐴发生必然导致事件𝐵发生
    • 相等:𝐴=𝐵,即𝐴⊆𝐵且𝐵⊆𝐴
    • 和:𝐴∪𝐵,即𝐴和𝐵至少一个发生
    • 差:𝐴−𝐵,即事件𝐴发生且事件𝐵不发生
    • 积:𝐴∩𝐵,也记作𝐴𝐵,即事件𝐴和𝐵都发生 • 互不相容:𝐴𝐵=∅,即𝐴和𝐵不能同时发生 • 互逆:𝐴∪𝐵=Ω且𝐴𝐵=∅,𝐴和𝐵互逆,通常𝐵记为$\bar{A}$。
  • 复杂集合运算的表示

    • 𝐴发生而𝐵与𝐶都不发生表示为:$A\bar{B}C = A - B - C = A - (B ∪ C)$.
    • 三个事件都发生表示为:$AB$
    • 其他可以此类推
  • 概率的公理化定义

    • Ω为样本空间,对于每一事件𝐴赋予一实数𝑃𝐴, 若P(.)满足下列条件则称为概率:
      1. 非负性:0≤𝑃(𝐴)≤1;
      2. 规范性:𝑃Ω=1
      3. 可列可加性:𝐴1…𝐴n…互不相容则 𝑃𝐴1∪𝐴n∪⋯=𝑃𝐴1+⋯𝑃(𝐴n)+⋯
  • 概率的性质

    • 定理1:P∅=0
    • 定理2:$P(\bar{A}) = 1 - P(A)$
    • 定理3:若𝐴⊂𝐵,则有 𝑃(𝐴)≤𝑃(𝐵),𝑃(𝐵−A)=𝑃(𝐵)−𝑃(𝐴)
    • 定理4:对于任意两个事件𝐴和𝐵有 𝑃(𝐴∪𝐵)=𝑃(𝐴)+𝑃(𝐵)−𝑃(𝐴∩𝐵)
  • *完备事件组 *

    设$B_1, …, B_n$是样本空间 $\Omega$ 的一个事件组,若满足

    • $B_i\bigcap B_j=\phi$,对于任意 $i\neq j$
    • $\bigcup_{i}B_i=\Omega$

    则$B_1, …, B_n$称为完备事件组

  • 概率计算

    • 条件概率公式 $P(A|B)=\frac{P(AB)}{P(B)}$

    • 乘法公式 $P(AB)=P(A|B)P(B)$ $P(A_1A_2…A_n)=P(A_1)P(A_2|A_1)…P(A_n|A_1A_2…A_{n-1})$

    • 全概率公式

      设$B_1, …, B_n$是样本空间 $S$ 的一个完备事件组,且$P(B_i)>0$,则$P(A)=\sum_{i=1}^{n}P(B_i)P(A|B_i)$

      简而言之就是将各部分概率都加起来

    • 贝叶斯公式 $P(A|B)=\frac{P(B|A)P(A)}{P(B)}$

  • 独立性

    • 若$A, B$独立,则$P(B|A)=P(B)$,反之亦然
    • 若$A, B$独立,则其相反事件及本身的总共4种组合都相互独立,如$\bar{A}$和$B$
    • 若$A,B,C$相互独立,则$P(AB)=P(A)P(B);P(BC)=P(B)P(C);P(AC)=P(A)P(C);P(ABC)=P(A)P(B)P(C)$

Week 2

  • 分布函数

    概率分布函数$F(x)$是概率从$-\infty$的累积,也即某个区间内的概率要用断点值相减,且$F(X)$是概率密度函数$f(x)$的积分

    • 归一性:$0\leq 1, $任意$ x\in R$,且$F(-\infty)=0, F(+\infty)=1$
    • 单调不减性:若$x_1\leq x_2$,则有$F(x_1)\leq F(x_2)$
    • 右连续性
  • 离散型随机变量

    一个随机变量 X 的可能取值为有限个或可列无穷多个, 则称X为离散型随机变量。

  • 连续型随机变量

    对于随机变量$X$, 其分布函数为$F(x)$, 如存在 非负可积函数$f(x)$, 使得对于任意实数$x$, 有$F(x)=\int_{-\infty}^{x} f(t)dt$,则称 X为连续型随机变量,$f(x)$称为$X$的概率密度函数

  • 概率密度函数

    1. $f(x)\geq 0$
    2. $\int_{-\infty}^{+\infty} f(x)dx = 1$
    3. $\int_{a}^{b} f(x)dx=F(b)-F(a)$
    4. 若$f(x)$在点$x$处连续,则有$F’(x)=f(x)$,即分布函数$F(x)$是概率密度函数的一个原函数
    5. 对于连续型随机变量$X$,$X$取任一指定实数值$a$的概率均为$0$,即$P{X=a}=0$
  • 数据的原点矩

    给定一批数据$x_1,x_2, …x_n$,其原点矩$A_k(k=1,2…)$定义为:$A_k=\frac{1}{n}\sum_{i=1}^{n} x_i^k$

    • 一阶原点矩代表算数平均值,代表数据集的“重心“
    • 二阶原点矩代表数据集的转动惯量
    • 原点矩代表了数据集跟重量相关的动力度量
  • 数据的中心距

    给定一批数据$x_1,x_2, …x_n$,其中心矩$A_k(k=1,2…)$定义为:$B_k=\frac{1}{n}\sum_{i=1}^{n} (x_i-A_1)^k$

    • 一阶中心距为$0$,二阶中心距为方差
    • 中心距代表了数据集跟几何相关的动力度量
  • 数学期望

    • 离散型随机变量的数学期望:$E(X)=\sum_{k=1}^{\infty} x_kp_k$
    • 连续型随机变量的数学期望:$E(X)=\int_{-\infty}^{+\infty} xf(x)\mathbb{dx}$
    • 两个公式本质上都是各部分乘上概率求和
  • 数学期望的性质

    • $E(C)=C$
    • $E(CX)=CE(X)$
    • $E(X+Y)=E(X)+E(Y)$
    • $E(XY)=E(X)E(Y)$ ($X,Y$独立)
  • 方差

    • $Var(X)=D(X)=E[X-E(X)]^2=E(X^2)-(EX)^2$
    • 平方的期望减去期望的平方
  • 方差的性质

    • $Var(C)=0$
    • $Var(X+C)=Var(X),Var(CX)=C^2Var(X)$
    • $Var(X\pm Y)=Var(X)+Var(Y)$ ($X,Y$独立)
  • 随机变量X的矩

    • $E(X^k)$为$X$的$k$阶原点矩,记为$\mu_k$
    • $E((X-EX)^k)$为$X$的$k$阶中心距,记为$\nu_k$
  • 中心距的原点矩表示

    $PPT$上记录了好几个公式,仅列举觉得可能会用到的

    • $\nu_2=\mu_2-\mu_1^2$
    • $\nu_3=\mu_3-3\mu_2\mu_1+2\mu^3_1$
  • 伯努利分布

    伯努利分布(Bernoulli distribution),又名两点分布或0-1分布,是一个 离散型概率分布,为纪念瑞士科学家雅各布·伯努利而命名。伯努利试验 是只有两种可能结果的单次随机试验。
    $$
    P(X=1)=p,P(X=0)=q,p+q=1
    $$
    伯努利分布的矩:

    • $E(X)=p$
    • $E(X^2)=p$
    • $Var(X)=p(1-p)$
  • 二项分布

    二项分布(Binomial Distribution)是n个独立的伯努利试验的离散概率分布。

    设事件𝐴在任一次试验中出现的概率为𝑝, 则在n重伯努利试验 中事件𝐴发生的次数𝑘的取值为0,1⋯,𝑛。该随机变量X的概率分布为: $$P(X=k)=C_n^kp^k(1-p)^{n-k},k=0,1,…,n$$

    则称$X$服从参数为$n,p$的二项分布,记为$X$~$\mathbb{B}(n,p)$.

    二项分布的矩:

    • $E(X)=np$
    • $Var(X)=np(1-p)$
  • 泊松分布(不是正态分布)

    泊松分布(Poisson Distribution)是法国数学家泊松于1837年引入的。泊松分布 适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一 定时间内受到的服务请求的次数,系统出现的故障数、自然灾害发生的次数、 DNA序列的变异数、放射性原子核的衰变数等等

    若随机变量$X$的概率分布为:
    $$
    P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},k=0,1,2,…
    $$
    则称$X$服从参数为$\lambda$的泊松分布,记为$X$~$\pi(\lambda)$.

  • 二项分布泊松逼近定理

    在很多应用问题中, 我们常常这样的伯努利试验, 其中,相对地说, $n$大, $p$小, 而乘积$\lambda=np$ 大小适中. 在这种情况下, 有一个便于使用的近似公式.

    在伯努利试验中, 以$p_n$代表事件$A$在试验中出现的概率, 如果$np_n\rightarrow\lambda$, 则当$n\rightarrow \infty$时,有
    $$
    \lim_{n\rightarrow \infty}\mathbb{B}(n,p_n)=\pi(\lambda)
    $$

  • 泊松分布的矩

    • $E(X)=\lambda$
    • $Var(X)=\lambda$
    • $E(X^2)=\lambda^2+\lambda$
  • 几何分布

    从生产线上随机抽产品进行检测,设产品的次品率为$p$,$0<p<1$, 若查到次品就停机检修,设停机时已检测到$X$只产品。$X$的概率分布律设$A_i$为第$𝑖$个抽到正品事件,$A_i$相互独立, 则
    $$
    P{X=n}=P{A_1,…,A_{n-1}\bar{A_n}}=(1-p)^{n-1}p
    $$
    若随机变量$X$的概率分布为:
    $$
    P(X=n)=(1-p)^{n-1}p,n=1,2,…,(0<p<1)
    $$
    则称$X$服从几何分布,记为$X$~$\mathbb{G}(p)$

  • 几何分布的矩

    • $E(X)=\frac{1}{p}$
    • $Var(x)=\frac{1-p}{p^2}$
  • 无记忆

    在概率和统计中,无记忆是某些概率分布的属性。它通常是指直到某个事件的“等待时间”的分配不依赖于已经经过了多少时间的情况。为了准确地对无记忆的情况进行建模,我们必须不断地“忘记”系统处于哪个状态:概率不受过程历史的影响。(Wikipedia EN→CN)

    只有两种分布是无记忆的:非负整数的几何分布和非负实数的指数分布。

    无记忆的例子:想象一下长长的走廊,一堵墙排成一排,里面有数千个保险箱。每个保险箱都有一个500个位置的拨盘,并且每个保险箱都随机分配了一个打开位置。想象一下,一个古怪的人走下走廊,在每个保险箱都停了一次,试图随机打开它。在这种情况下,我们可以将随机变量$X$定义为他们的搜索生存期,用“该人在成功打开保险箱之前必须进行的尝试次数”表示。在这种情况下,$E(X)$不管已经进行了多少次尝试,它将始终等于500的值。

    有记忆的例子:大多数现象并非没有记忆,这意味着观察者将随着时间的流逝获得有关它们的信息。例如,假设X是一个随机变量,即汽车发动机的寿命,用“直到发动机发生故障的行驶里程数”表示。根据我们的直觉,很明显,已经行驶了300,000英里的发动机的X值比仅行驶了1,000英里的第二(等效)发动机的X值低得多。因此,该随机变量将不具有无记忆性。

  • 超几何分布

    一批产品共$N$件,$M$件是次品,随机地从这$N$件产品中抽取$n$件产 品,求恰有$k$件次品的概率。

    如果随机变量$X$的概率分布为:
    $$
    P(X=k)=\frac{C_M^kC_{N-M}^{n-k}}{C^n_N},k=1,2,…n
    $$
    其中$N,M,n$均为正整数,且$M\leq N,n\leq N$则称$X$服从参数为$N,M,n$的超几何分布,记为$X$~$\H(N,M,n)$.

  • 超几何分布近似

    明显的,当$N>>n$时,超几何分布近似于二项分布,从而又可在$n$偏大,$p$偏小,$\lambda=np$适中时时近似于泊松分布,从而有
    $$
    \frac{C_M^kC_{N-M}^{n-k}}{C^n_N}\approx C_n^kp^k(1-p)^{n-k}\approx \frac{\lambda^k}{k!}e^{-\lambda}
    $$

  • 超几何分布的矩

    • $E(X)=n\frac{M}{N}$
    • $Var(x)=n\frac{M}{N}\frac{N-M}{N}\frac{N-n}{N-1}$

Week 3

  • 连续概率分布的中位数是指$F(mid)-F(-\infty)=F(\infty)-F(mid)$

  • 均匀分布

    如果随机变量$X$的概率密度为:
    $$
    f(x)=
    \begin{cases}
    \frac{1}{b-a},a<x<b\
    0,x\leq a,or,x\leq b
    \end{cases}
    $$

则称$X$在区间$(a,b)$内服从均匀分布,记为$X$~$\mathbb{U}(a,b)$,其分布函数为
$$
F(x)=
\begin{cases}
0,x<a\
\frac{x-a}{b-a},a\leq x<b\
1,x\geq b
\end{cases}
$$

  • 均匀分布的矩

    $E(X)=\frac{a+b}{2}$

    $E(X^2)=\frac{a^2+b^2+ab}{3}$

    $Var(x)=\frac{(b-a)^2}{12}$

  • 指数分布

    几乎就是泊松分布的一个连续性版本。

    如果随机变量$X$的概率密度为:
    $$
    f(x)=
    \begin{cases}
    \frac{1}{\theta}e^{-\frac{x}{\theta}},x>0\
    0,x\leq 0
    \end{cases}
    $$
    则称$X$服从参数为$\theta(\theta>0)$的指数分布,记为$X$~$\mathbb{E}(\theta)$,其分布函数为
    $$
    F(X)=
    \begin{cases}
    1-e^{-\frac{x}{\theta}},x>0\
    0,x\leq 0
    \end{cases}
    $$

  • 指数分布的无记忆性
    $$
    p{X>s+t|X>s}=P{X>t}
    $$
    这一性质称为指数分布的无记忆性

    事实上可以证明指数分布是唯一具有上述性质的连续型分布

  • 指数分布的矩

    $E(X)=\theta$

    $E(X^2)=2\theta^2$

    $Var(X)=\theta^2$

  • 正态分布

    正态分布最早是棣莫弗在1718年著作的书籍的及1734年发表的一篇关于二项分布文章中提出的,当二项随机变量的位置参数$n$很大及形状参数为$\frac{1}{2}$时,则所推导出二项分布的近似分布函数就是正态分布 。

    如果随机变量$X$的概率密度为:
    $$
    \phi(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
    $$
    则称$X$服从参数为$\mu,\sigma^2$的正态分布,记为$X$~$N(\mu,\sigma^2)$,其中参数$\mu \in R,\sigma > 0$

    1. 曲线关于$x=\mu$对称
    2. 当$x=\mu$时取得最大值$\frac{1}{\sqrt{2\pi}\sigma}$
  • 标准正态分布

    当$\mu=0,\sigma=1$,称$X$服从标准正态分布,记为$X$~$N(0,1)$,分布函数记为$\Phi(x)$
    $$
    \Phi(-x)=1-\Phi(x)
    $$
    标准正态分布查表方法

  • 正态分布标准化

    若$X$$N(\mu,\sigma^2)$,则$Z=\frac{X-\mu}{\sigma}$$N(0,1)$

  • 标准正态分布的矩

    $E(X)=0$

    $Var(x)=1$

  • 正态分布的矩

    $$E(X)=E(\mu+\sigma Z)=\mu$$

    $$Var(X)=Var(\mu+\sigma Z)=\sigma^2$$

  • 超几何分布二项逼近定理
    $$
    \lim_{n\rightarrow \infty}\mathbb{H}(N,M,n)=\mathbb{B}(n,p)
    $$
    其中$M/N=p$

  • 二项分布泊松逼近定理
    $$
    \lim_{n\rightarrow \infty} \mathbb{B}(n,p)=\pi(\lambda)
    $$

    其中$\lambda=np$

  • 泊松分布正态逼近定理
    $$
    \lim_{n\rightarrow\infty}\pi(\lambda)=\mathbb{N}(\mu,\sigma^2)
    $$
    其中$\sigma^2=\lambda$(同时还隐含要求$\mu=\lambda$)

  • 二项分布正态逼近定理
    $$
    \lim_{n\rightarrow\infty}\mathbb{B}(n,p)=\N(\mu,\sigma^2)
    $$
    其中$\mu=np,\ \sigma^2=np(1-p)$

  • 离散可靠性分布——负二项分布

    几何分布的一般化。

    随机变量$X$服从参数为$r$和$p$的负二项分布,其概率分布率为
    $$
    \mathbb{NB}(k;r,p)=
    \left{
    \right}
    $$

  • 负二项分布泊松分布定理

    令$p=\frac{r}{\lambda+r}$,则
    $$
    \lim_{r\rightarrow\infty}{\mathbb{NB}(k’;r,p)}=\lim_{r\rightarrow\infty}sss
    $$

  • 威布尔分布

    威布尔分布可以看做指数分布和其他分布一般化的形式。

    威布尔分布的概率密度公式为:
    $$
    f(t)=(\frac{B}{\eta})(\frac{t}{\eta})^{\beta-1}e^{-(\frac{t}{\eta})^\beta},\ t>0
    $$
    其中$\eta>0$是特征参数;$\beta>0$是形状参数

    可以将上述公式分为两个部分,其中可靠性函数$R(t)$为
    $$
    R(t)=e^{-(\frac{t}{n})^\beta}
    $$
    而故障函数$H(t)$为
    $$
    H(t)=(\frac{B}{\eta})(\frac{t}{\eta})^{\beta-1}
    $$

Week 5

  • 抽样方法

    • 简单随机抽样
    • 系统抽样
    • 整群抽样
    • 分层抽样
  • 简单随机抽样

    简单随机抽样是指从一个数量为$N$(可能很大)的总体中逐个等概率无放回抽取个体,直至达到需要的$n$个个体为止。简单随机抽样是最简单的一种抽样方法,也是其它概率抽样方法的一个基础

    • 由于 N 很大,通常采用有放回抽样替代无放回抽样
    • 在应用中,待抽样的研究对象可能是动态变化
    • 如何准确有效的编码(映射)是随机抽样的前提
  • 系统抽样

    当总体中的个体数较多时,采用简单随机抽样显得较为费事。这时, 可根据总体特征然后按照预先定出的规则抽取个体,得到所需要的 样本,这种抽样叫做系统抽样。

    • 系统抽样的主要特征是:规则+随机
    • 等距规则是最常见的系统抽样规则,但也可以是非等距的
    • 抽样规则跟系统特征匹配是实施的关键所在
  • 整群抽样

    整群抽样先对总体分组(称为群),再随机抽取群(非个体),被抽中的群的 所有个体组成样本。整群抽样时只需要把群作为抽样框,而不需要把数 量庞大的个体作为抽样框,因此能大大降低抽样的成本,提高抽样效率。

    • 整群抽样抽取的是群(子集)而非个体,以提高抽样效率
    • 当抽样成本较高(通常是物理世界)时,整群抽样较常使用
    • 群之间存在差异,由此而引起的抽样误差往往大于简单随机抽样
  • 分层抽样

    分层抽样先按对观察指标影响较大的某种特征,将总体分为若干个类别 (称为层),再从每一层内随机抽取一定数量的个体,组成样本。

    • 研究对象分布不均匀而且特征明显时适合分层抽样
    • 层(类别)的大小没有严格要求,依赖特征自动分层
    • 分层的特征与研究对象和研究目标的贴切程度决定了分析结果
  • 总体分布

    总体分布是总体中所有个体观察值所构成的分布

    • 总体分布不一定是总体分布
    • 总体分布通常是未知的
      1. 分布形式和参数都未知
      2. 分布形式已知但参数未知
  • 样本分布

    • 一个样本中个体观察值的分布,样本分布通常也称经验分布
    • 当样本容量$n$逐渐增大时,样本分布逐渐接近总体的分布。
    • 当$n$为总体中个体数量时与总体分布完全一致。
  • 统计量

    • 统计量是样本的函数
    • 统计量具有二重性:抽样前是随机变量,抽样后是具体数据
    • 统计量通常只依赖于样本,不依赖于总体分布中的未知参数
    • 样本矩是最常用的样本统计量
  • 样本矩统计量

    样本$X_1,…,X_n$,样本的$k$阶矩定义:

    样本的$k$阶原点矩:
    $$
    \bar{X}=\frac1n\sum_{i=1}^nX_i
    $$
    样本的$k$阶中心距:
    $$
    B_k=\frac1n\sum_{i=1}^n(X_i-\bar X)^k
    $$

  • 常用 样本矩统计量

    样本均值为样本的一阶原点矩$A_1$,它代表样本的平均程度,记为$\bar X$
    $$
    \bar{X}=\frac1n\sum_{i=1}^nX_i
    $$
    样本方差修正后 的二阶中心矩,即$\frac n{n-1}B_2$,它代表样本的分散程度,记为$S^2$
    $$
    S^2=\frac1{n-1}\sum_{i=1}^n(X_i-\bar X)^2
    $$
    注意:修正

  • 总体分布的矩

    设一总体为四本书,四本书平均每页的错别字为$x_1 = 1, x_2 = 2,X_3 = 3, X_4 = 4$

    总体均值:$\mu=\frac{\sum_{i=1}^{4}x_i}{4}=2.5$

    总体方差:$\sigma^2=\frac{\sum_{i=1}^{4}(x_i-\mu)^2}{4}=1.25$

  • 抽样分布与总体分布

    现从总体中抽取$n=2$的简单随机样本,在有放回抽样条件下,共有$16$个样本。

    抽样分布与总体分布

  • 抽样分布的矩

    以上所有$16$个样本:

    样本均值的均值:$\frac{1}{16}\sum_{i=1}^{16}\bar{x_i}=2.5$

    样本均值的方差:$\frac1{16}\sum_{i=1}^{16}(\bar{x_i}-2.5)^2=\frac58=0.625$

  • 抽样分布定理

    设总体的均值为$\mu$,方差为$\sigma^2$。$X_1,…,X_n$为总体一样本,$\bar{X}$为样本均值,$S^2$为样本方差,则

    1. $E(\bar X)=\mu$
    2. $Var(\bar X)=\frac{\sigma^2}{n}$
    3. $E(S^2)=\sigma^2$
  • 切比雪夫不等式

    设随机变量具有数学期望$E(X)=\mu$,方差$Var(X)=\sigma^2$,则对于任意$\epsilon>0$,有
    $$
    P(|X-\mu|\geq\epsilon)\leq\frac{\sigma^2}{\epsilon^2}
    $$

    $$
    P(|X-\mu|<\epsilon)\geq1-\frac{\sigma^2}{\epsilon^2}
    $$

    例1:已知事件$A$的随机变量$X$~$\mathbb B(n,0.75)$,估计事件$A$发生频率在$0.74−0.76$之间的 概率大于$0.90$的最小实验次数$𝑛$.

    ​ 解:

    ​ $E(X)=np=0.75n,\ Var(X)=np(1-p)=0.1875n$

    ​ $f_n(A)=\frac Xn$

    ​ $P(0.74<\frac Xn<0.76)=P(|X-0.75n|<0.01n)\geq1-\frac{0.1875n}{(0.01n)^2}=1-\frac{1875}{n}\geq0.90$

    ​ 解得$n\geq 18750$

    例2:设某大楼有$10000$盏电灯,夜晚每一盏灯开灯的概率是$0.7$。 假定开关时间彼此独立,估计夜晚同时开着的灯数在$6800$与 $7200$之间的概率.

    ​ 解:

    ​ $E(X)=10000\times 0.7=7000$

    ​ $Var(X)=np(1-p)=10000\times 0.7\times 0.3=2100$

    ​ $P(|X-200|<7000)\geq 1-\frac{\sigma^2}{\epsilon^2}=1-\frac{2100}{7000^2}=99.9957%$

  • 大数定律

    • 大数定律又称大数法则、大数律,是个数学与统计学的概念,意指数 量越多,则其平均就越趋近期望值。
    • 在重复试验中,随着试验次数的增加,事件发生的频率趋于一个稳定 值;人们同时也发现,在对物理量的测量实践中,测定值的算术平均 也具有稳定性。
    • 历史上最早的大数定律是伯努利在1713年建立的。概率论的研究到现 在约有300多年的历史,最终以事件的频率稳定值来定义其概率。
  • 伯努利大数定律

    设$x_n$是$n$重伯努利试验中事件$A$出现的次数,$p$是事件在每次试验中$A$出现的概率,则对任意的$\epsilon>0$,有
    $$
    \lim_{n\rightarrow+\infty}P\left(\left|\frac{x_n}{n}-p\right|<\epsilon\right)=1
    $$
    伯努利大数定理建立了在大量重复独立试验中事件出现频率的稳定性, 正因为这种稳定性,概率的概念才有客观意义。

  • 独立同分布大数定律

    设$X_1,…X_n$,是相互独立且有相同分布的随机变量序列,各自的数学期望为$E(X_i)=\mu,(i=1,2,…)$,方差有$Var(X_i)=\sigma^2,(i=1,2,…)$,则对任意$\epsilon>0$,有
    $$
    \lim_{n\rightarrow+\infty}P\left{\left|\frac1n\sum_{i=1}^nX_i-\mu\right|<\epsilon\right}=1
    $$

  • 切雪比夫大数定律

    设$X_1,…X_n$,是相互独立的随机变量序列, 各有数学期望$E(X_i)=\mu_i,(i=1,2,…)$,和有限的方差,并且方差有$Var(X_i)(i=1,2,…)$共同的上界,即$D(X_i)\leq c$则对任意的$\epsilon>0$,有
    $$
    \lim_{n\rightarrow+\infty}P\left{\left|\frac1n\sum_{i=1}^nX_i-\frac1n\sum_{i=1}^nEX_i\right|<\epsilon\right}=1
    $$

  • 辛钦大数定律

    设$X_1,…X_n$,是独立同分布的随机变量序列,只要 数学期望$E(X_i)=\mu,(i=1,2,…)$存在,则对任意的$\epsilon>0$,有
    $$
    \lim_{n\rightarrow+\infty}P\left{\left|\frac1n\sum_{i=1}^nX_i-\mu\right|<\epsilon\right}=1
    $$
    伯努利大数定理是辛钦大数定律的特殊情况