荟萃馆

位置:首页 > 范本 > 校园

考研统计学专业的知识点

校园2.28W

我们在参加了考研统计学专业的时候,需要把一些复习的知识重点了解清楚。小编为大家精心准备了考研统计学专业的重点,欢迎大家前来阅读。

考研统计学专业的知识点

  考研统计学:数据特征

一、集中趋势:表明同类现象在一定时间、地点条件下,所达到的一般水平与大量单位的综合数量特征,有以下3个特点:

1. 用一个代表数值综合反映个体某种标志值的一般水平。

2. 将个体标志值之间的差异抽象掉了。

3. 计量单位与标志值的计量单位一致。

集中趋势

1. 一组数据向其中心值靠拢的倾向和程度

2. 测度集中趋势就是寻找数据水平的代表值或中心值

3. 不同类型的数据用不同的集中趋势测度值

4. 低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据

集中趋势的作用:

比较若干总体的某种标志数值的平均水平

研究总体某种标志数值的平均水平在时间上的变化

分析社会经济现象的依存关系

研究和评价事物优劣的数量指标

计算和估算其他重要的经济指标

二、离中趋势:

数据分布的另一个重要特征

反映各变量值远离其中心值的程度(离散程度)

从另一个侧面说明了集中趋势测度值的代表程度

不同类型的数据有不同的离散程度测度值

离中趋势度量的目的:

描述总体内部差异程度;衡量和比较均值指标的代表性高低;为抽选样本单位数提供依据

区别与联系:

区别:集中趋势是对频数分布资料的集中状况和平均水平的综合测度;是一组数据向其中心值靠拢的倾向和程度;测度集中趋势就是寻找数据水平的代表值或中心值。离中趋势是对频数分布资料的差异程度和离散程度的测度,用来衡量集中趋势所测数据的代表性,或者反应变量值的稳定性与均匀性;是用来描述总体内部差异程度及衡量和比较均值指标的代表性高低。偏度是用来反应变量数列分布偏斜程度的指标,有对称分布和非对称分布,非对称分布也即为偏态分布,包括左偏分布和右偏分布。峰度是用来反应变量数列曲线顶端尖峭或扁平程度的指标。

联系:为了反面描述研究对象的'情况,仅仅用集中趋势方法来测度集中性和共性是不够的,还要用离散趋势方法来测度其离散性和差异性,因此,而这需要结合使用。集中趋势和离中趋势是变量数列分布的两个重要特征,但要全面了解变量数列分布的特点,还需要知道数列的形状是否对称、偏斜程度以及分布的扁平程度等。偏度和峰度就是从分布特征作进一步的描述。

  考研统计学:参数估计

一、点估计

用样本的估计量直接作为总体参数的估计值

2. 缺点:没有给出估计值接近总体参数程度的信息,它与真挚的误差、估计可靠性怎么样无法知道。区间估计可以弥补这种不足。

点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等

二、 区间估计

在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的。

根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。

三、置信水平

将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平

表示为 (1 - a% )

常用的置信水平值有 99%, 95%, 90%;相应的 a 为0.01,0.05,0.10

四、置信区间

ü 由样本统计量所构造的总体参数的估计区间称为置信区间;

ü 统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间

ü 用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值,我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个

置信区间的表述:

总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个随机区间,它会因样本的不同而变化,而且不是所有的区间都包含总体参数

实际估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平(比如95%)下的置信区间。我们只能希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个

当抽取了一个具体的样本,用该样本所构造的区间是一个特定的常数区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值,因为它可能是包含总体均值的区间中的一个,也可能是未包含总体均值的那一个

一个特定的区间总是“包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题

置信水平只是告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值,而不是针对所抽取的这个样本所构建的区间而言的

使用一个较大的置信水平会得到一个比较宽的置信区间,而使用一个较大的样本则会得到一个较准确(较窄)的区间。直观地说,较宽的区间会有更大的可能性包含参数

但实际应用中,过宽的区间往往没有实际意义

区间估计总是要给结论留点儿余地

影响置信区间宽度的因素:

1.总体数据的离散程度,用 s 来测度;2.样本容量;3. 置信水平 (1- a),影响 zα/2 的大小

五、 参数估计标准:

无偏性:估计量抽样分布的数学期望等于被估计的总体参数

有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效

一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数。

  考研统计学:假设检验

一、概念

先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程

有参数检验和非参数检验

逻辑上运用反证法,统计上依据小概率原理

什么小概率?

1. 在一次试验中,一个几乎不可能发生的事件发生的概率

2. 在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设

3. 小概率由研究者事先确定

怎样通过假设检验去掉偶然性

利用P值进行检验就可以去掉偶然性。因为P值告诉我们在某个总体的许多样本中,某一类数据出现的经常程度,P值是当原假设正确的情况下,得到所观测的数据的概率。如果原假设是正确的,P值若很小,则告诉我饿们得到这样的观测数据是多么的不可能,相当不可能得到的数据,就是原假设不对的合理证据,偶然性也就消除了。

二、原假设

1. 研究者想收集证据予以反对的假设。是关于总体参数的表述,它是接受检验的假设。

2. 总是有符号 =, £ 或 ³

3. 表示为 H0

n H0 : m = 某一数值

n 指定为符号 =,£ 或 ³

三、备择假设

研究者想收集证据予以支持的假设。党员假设被否定时另一种可成立的假设。

总是有符号 ¹, < 或 >

表示为 H1

n H1 : m <某一数值,或m >某一数值

四、结论与总结

原假设和备择假设是一个完备事件组,而且相互对立

n 在一项假设检验中,原假设和备择假设必有一个成立,而且只有一个成立

先确定备择假设,再确定原假设

等号“=”总是放在原假设上

因研究目的不同,对同一问题可能提出不同的假设(也可能得出不同的结论)

五、两类错误

1. 第Ⅰ类错误(弃真错误)

原假设为真时拒绝原假设

第Ⅰ类错误的概率记为a。被称为显著性水平。常用的 a 值有0.01, 0.05, 0.10

2. 第Ⅱ类错误(取伪错误)

原假设为假时未拒绝原假设

第Ⅱ类错误的概率记为b (Beta)

影响b错误的因素:1. 总体参数的真值。随着假设的总体参数的减少而增大

2. 显著性水平 a。当 a 减少时增大 3. 总体标准差 s。当 s 增大时增大 4.样本容量 n。当 n 减少时增大

控制:进行假设检验时总希望犯两类错误的可能性都很小,然而,在其他条件不变的情况下,a与b是此消彼长的关系,二者不可能同时减小。若要同时减小a与b,只能是增大样本量。一般总是控制a,是犯错误的概率不大于a,即a是允许犯弃真错误的最大概率值(而P值相当于根据样本计算的犯弃真错误的概率值,故P值又称为观测的显著性水平)。但确定a时必须注意,如果犯弃真错误的代价较大,a可取小些,相反,如果返取伪错误的代价较大,则a宜取大些(以使b较小)

六、假设检验的结论表述

假设检验的目的就在于试图找到拒绝原假设,而不在于证明什么是正确的

拒绝原假设时结论是清楚的

例如,H0:m=10,拒绝H0时,我们可以说¹m10

当不拒绝原假设时

并未给出明确的结论

不能说原假设是正确的,也不能说它不是正确的

例如, 当不拒绝H0:m=10,我们并未说它就是10,但也未说它不是10。我们只能说样本提供的证据还不足以推翻原假设

七、统计上的显著与实际意义

1. 当拒绝原假设时,我们称样本结果是统计上显著的(statistically Significant)

2. 当不拒绝原假设时,我们称样本结果是统计上不显著的

3. 在“显著”和“不显著”之间没有清除的界限,只是在P值越来越小时,我们就有越来越强的证据,检验的结果也就越来越显著

4. “显著的”(Significant)一词的意义在这里并不是“重要的”,而是指“非偶然的”

5. 一项检验在统计上是“显著的”,意思是指:这样的(样本)结果不是偶然得到的,或者说,不是靠机遇能够得到的

6. 如果得到这样的样本概率(P)很小,则拒绝原假设

在这么小的概率下竟然得到了这样的一个样本,表明这样的样本经常出现,所以,样本结果是显著的

7. 在进行决策时,我们只能说P值越小,拒绝原假设的证据就越强,检验的结果也就越显著

8. 但P值很小而拒绝原假设时,并不一定意味着检验的结果就有实际意义

因为假设检验中所说的“显著”仅仅是“统计意义上的显著”

一个在统计上显著的结论在实际中却不见得就很重要,也不意味着就有实际意义

9. 因为值与样本的大小密切相关,样本量越大,检验统计量的P值也就越大,P值就越小,就越有可能拒绝原假设

10.如果你主观上要想拒绝原假设那就一定能拒绝它

这类似于我们通常所说的“欲加之罪,何患无词”

只要你无限制扩大样本量,几乎总能拒绝原假设

11.当样本量很大时,解释假设检验的结果需要小心

在大样本情况下,总能把与假设值的任何细微差别都能查出来,即使这种差别几乎没有任何实际意义

12.在实际检验中,不要刻意追求“统计上的”显著性,也不要把统计上的显著性与实际意义上的显著性混同起来

n一个在统计上显著的结论在实际中却不见得很重要,也不意为着就有实际意义。