统计:通过某种有意义的方式对原始事实和数据进行提炼,使得仅仅通过观察原始数据无法立即水落石出的一些理念得以昭示。
频数:表示在一个特定区间内的统计对象的数目。
饼图:能够很好的体现基本比例。
条形图:更灵活,相比较饼图更精确。
直方图:适合体现分组数值型数据。
直方图与条形图区别:直方图每个长方形没有间隔,直方图每个长方形面积与频数成正比。
数值型数据(定量数据):涉及数字和数量; 类别型数据(定性数据):涉及表述,描述性质和特征。
求中位数:奇数个数值,中位数的位置(n+1)/2,偶数个数值,两个中位数求和取均值,这两个中间数位于(n+1)/2两侧。
全距(极差):用于量度数据集分散程度的一种方法,最大值-最小值。全距仅仅描述了数据的宽度,并没有描述数据在上下界之间的分布形态。
四分位数:将数据分割成四等分的几个数值。最大的四分位数称为上四分位数,最小的四分位数称为下四分位数。中间的四分位数即为中位数。
四分位距:上四分位数-下四分位数。
下四分位数:n/4,如果为整数,取这个位置和下一个位置的均值;如果为小数,向上取整表示下四分位数的位置。
上四分位数:3n/4,如果为整数,取这个位置和下一个位置的均值;如果为小数,向上取整表示下四分位数的位置。
方差:
或者:
标准差:
标准分:z=(x-μ)/σ 特定数值与均值的差除以标准差。定义:距离均值的标准差个数。
标准分为我们提供了一种对不同数据集的数据进行比较的办法,这些不同数据集有不同的均值和标准差,通过标准分可以把这些数值视为来自同一个数据集或数据分布。
对立事件:“A不发生”事件可以用A'表示。A'被称为A的对立事件。A'包含事件A所不包含的任何事件。 P(A')=1-P(A)
互斥事件:如果两个事件是互斥事件,则只有其中一个事件会发生,这两个事件不会同时发生。
公式:P(A∪B)=P(A)+P(B)-P(A∩B)
条件概率:P(A|B)=P(A∩B)/P(B)
全概率公式:P(B)=P(A∩B)+P(A'∩B)=P(A)* P(B|A)+P(A')* P(B|A')
贝叶斯定理:已知P(A),P(B|A),P(B|A');求P(A|B). P(A|B) = P(A∩B) / P(B) = P(A)* P(B|A) / P(A)* P(B|A)+P(A')* P(B|A')
相关事件: 如果 P(A|B)不等于P(A),就说事件A与事件B的概率相互影响。
独立事件:几个事件互相不影响。P(A|B)=P(A). 如果两个事件相互独立,则 P(A∩B)= P(A|B)P(B)=P(A)P(B)
离散型随机变量的期望:E(x)=∑xP(X=x)
离散型随机变量方差:Var(X)=E(x-μ)²=∑[(x-μ)²P(X=x)]
线性变换的通用公式: E(aX+b)=aE(X)+b; Var(aX+b)=a²Var(X)
E(aX+bY)=aE(X)+bE(Y); Var(aX+bY)=a²Var(X)+b²Var(Y)
E(aX-bY)=aE(X)-bE(Y); Var(aX-bY)=a²Var(X)+b²Var(Y)
求n个对象的可能排位方式的数目,n!=n*(n-1)(n-2)……3* 2* 1
如果是圆形排列,则可能的情况一共有 (n-1)!=(n-1)(n-2)……3* 2* 1
按照类型来排位:如果要为n个对象排位,其中包括一类对象有k个,另一类对象有j个,另一类对象有m个,则可能的排位情况有 n!/(k!* j!* m!)
排列(考虑排序):从一个较大(n个)对象群体中取出一定数目(r个)对象进行排序,并得出排序方式总数目:
组合(不考虑排序):从一个群体选取几个对象,不考虑这几个对象的顺序,求出一共有多少种情况。
几何分布包含以下条件:
1、进行一系列相互独立的实验。 2、每一次实验成功概率为p,失败概率为1-p。 3、主要关注:为了取得第一次成功需要进行多少次实验。
几何分布的概率计算:
1、在第r次实验才成功的概率
2、至少需要r次实验才能成功的概率
3、需要实验r次或者不到r次就成功的概率
几何分布的期望和方差:
二项分布的条件:
1、进行一系列独立实验。
2、每一次实验成功概率为p,失败概率为1-p。
3、实验次数有限。
二项分布和几何分布情况一样,需要进行一系列实验,差别在于二项分布的关注点是获得成功的次数
二项分布概率计算:
二项分布期望和方差:
泊松分布条件:
1、单独事件在给定区间内随机,独立地发生,给定区间可以指时间或空间。
2、已知该区间内的事件平均发生次数(发生率),且为有限数值。该事件的平均发生次数用λ表示。
泊松分布概率计算: 求给定区间内,发生n次事件的概率:
X,Y都是独立随机变量,如果X~ Po(λ1), Y~ Po(λ2),则可以等效于X+Y~Po(λ1+λ2)。 如果X,Y都符合泊松分布,则X+Y也符合泊松分布。
特定条件下,泊松分布可以近似代替二项分布。 泊松分布的期望λ,方差λ。 二项分布的期望np,方差npq。当n特别大,q特别小。λ≈np。 所以二项分布可近似于X~Po(np)
对于离散概率分布来说,我们关心的是取得一个特定数值的概率。对于连续概率分布来说,我们关心的是取得一个特定范围的概率
正态分布是连续数据的“理想”模型 如果一个连续随机变量X符合均值为μ,标准差为σ的正态分布,记做 N(μ,σ²) 正态分布计算三步法:
1、确定分布与范围。(确定 N(μ,σ²)中的均值,和标准差)
2、使其标准化。(求标准分 z=(x-μ)/σ)
3、查找概率。(用概率表查找概率) 概率表查到的是P(X<z)的概率。
如果两组正态分布X~ N(μ1,σ1²),Y~ N(μ2,σ2²),X,Y为独立变量 ,则:
X+Y~N(μ1+μ2,σ1²+σ2²)
X-Y~N(μ1-μ2,σ1²+σ2²)
如果X~N(μ,σ²);则:
aX+b~(aμ+b,a²σ²)
如果X1,X2,X3为一系列独立的连续变量,且都满足正态分布X~N(μ,σ²)则:
X1+X2+X3……Xn~N(nμ,nσ²)
在某些特定情况下,可以用正态分布近似代替二项分布,如果二项分布XB(n,p),且np>5,nq>5;则可以用正态分布XN(np,npq),近似代替X。
但是还需要对正态分布进行连续性修正,才能保证得到正确的结果
关于连续性修正:
≤型:如果用正态分布求P(X≤a),实际是求P(X<a+0.5)
≥型:如果用正态分布求P(X≥a),实际是求P(X>a-0.5)
介于型:如果用正态分布求P(a≤X≤b),实际是求P(a-0.5<X<b+0.5)
如果泊松分布X~ Po(λ),λ>15,则可以用正态分布X~ N(λ,λ)代替。需要进行连续性修正