【编者按】2011年质量工程师考试时间为2011年6月12日,考试临近,周围考生都在抓紧分分秒秒复习,为了帮助考生更好的复习,威廉希尔app 的小编特别搜集整理了质量工程师考试初级相关知识的复习资料供大家参考!
统计的基本概念
我们在前面研究了随机变量及其概率分布和数字特征等等。然而,在解决实际问题时,人们一般事前并不知道随机事件的概率,也不掌握随机变量的概率分布和数字特征,因此也就产生了数理统计的问题。数理统计的理论和方法,就是分析、处理和研究试验数据以推断随机现象的客观规律性的理论和方法。数理统计与概率论是两个有密切联系的姊妹学科&考试大&。可以说:概率论是数理统计的基础,而数理统计是概率论的重要应用。
学习数理统计最重要的是树立统计思想,同时要善于联系实际,从而达到掌握数理统计基本理论和方法的目的。
学习目标
1.掌握总体、个体、样本及统计量的概念
2.熟悉数据的整理方法
3.掌握样本均值、中位数的概念与计算
4.掌握样本极差、方差、标准差的概念与计算
一、总体与个体
1.总体与个体
定义:在一个统计问题中,称研究对象的全体为总体。
构成总体的每个成员或每个研究对象称为个体。
例如,一批灯泡是总体,其中的每个灯泡是个体;一个城市的人口是总体,这个城市的每个人是个体。
我们通常关心某个总体的某个(某些)数量指标(或数量化的属性特征),一般用X表示所要考察的数量指标(如灯泡的寿命,零件的尺寸,儿童的身高等)。随机试验是从总体中随机地取出一个个体,测定这个数量指标的值X,那么X作为随机试验中被测量的量是一个随机变量,称它为表征总体的随机变量。例如,对于灯泡这个总体,灯泡的使用寿命就是表征它的随机变量;对于零件这个总体,零件的尺寸就是表征它的随机变量。当然,有时候一个总体会有多个数量指标,比如对于某个学校的学生这个总体,我们不仅仅只关心学生的学习成绩,还关心他的思想状况、身体状况等等。
(1)统计学主要的任务
若关心的是研究对象的某个数量指标,那么将每个个体具有的数量指标x称为个体,这样一来,总体就是某数量指标值x的全体,是一堆数。
若从总体中随机抽取一个个体,它的数量指标x随所抽取个体而变,从而总体也相应于一个随机变量X,它有一个分布,从而总体可用一个分布描述。
简单地说,总体就是一个分布,不同总体有不同分布。统计学主要的任务就是:
研究总体是什么分布?
这个总体(分布)的均值、方差(或标准差)各是多少?
例1.对某产品仅考察其合格与否,并记合格品为0,不合格品为1。
分析:
总体={该产品的全体}={由0或1组成的一堆数}
若记l在总体中所占比例为P,则该总体可用如下二项分布b(1,P)(n=l的二项分布)表示:
X01
P1-PP
[page.有两个工厂生产同一产品,甲厂的不合格品率P=0.01,乙厂的不合格品率P=0.08,甲乙两厂所生产的产品(即两个总体)分别用如下两个分布描述:X甲01
P0.990.01
X乙01
P0.920.08
例3.考察某橡胶件的抗张强度。它可用0到∞上的一个实数表示,这时总体可用区间[0,∞]上的一个概率分布表示。国内外橡胶业对其抗张强度有较多研究,认为橡胶件的抗张强度服从正态分布 ,该总体常称为正态总体。这时统计要研究的主要问题是:正态均值 是多少?正态方差 是多少?
例4.用非对称分布(偏态分布)描述的总体也和常见。
例如某型号电视机的寿命全体所构成的总体就是一个偏态分布。
又如两个不同的正态总体混合也可以产生一个偏态总体。如将两位不同的操作工(或在不同机器上,或用不同原料,或不同转速等)生产的同一种零件混在一起,其质量特性常呈偏态分布,应该重视考察偏态分布产生的原因。
二、样本与样本容量
1.样本的概念
样本:从总体中抽取部分个体所组成的集合称为样本。
2.样本容量
样本中所包含个体的个数,或样本所含的元素个数,称为样本容量。常用n表示。
样本中的个体有时也称为样品,如对总体X进行了n次观测,记Xi为第i次观测所得的结果,称(X1,X2,…,Xn)为容量是n的样本。
3.抽样的意义
人们从总体中抽取样本是为了认识总体。即从样本推断总体,如推断总体是什么分布?总体均值为多少?总体的标准差是多少?为了使此种统计推断有所依据,推断结果有效,由样本获得对总体的正确认识,需要对抽样方法有一定的要求。
如为了了解女性所占的比例,不能专门到坦克部队去取样,也不能专门到纺织厂去取样,而应当进行随机抽样。直观地讲就是抽样时,每个个体被抽到的可能性相同。下面介绍一种常见的抽样方法。
4.简单随机样本
简单随机样本:满足下面两个条件的样本称为简单随机样本,简称随机样本,或样本。
简单随机样本的基本特点:
(1)随机性。总体中每个个体都有相同的机会加入样本。例如,按随机性要求抽出5个样品,记为 ,则其中每一个都应与总体分布相同。只要随机抽样就可保证此点实施。
(2)独立性。从总体中抽取的每个个体对其他个体的抽取无任何影响。假如总体是无限的,独立性容易实现,若总体很大,特别与样本量n相比是很大时,即使总体是有限的,此种抽样独立性也可基本得到保证。
即把在不变的条件下对总体X的n次独立观测(如n次放回抽样)叫做n次简单随机取样,这样得到的样本称为简单随机样本。
定义:设(X1,X2,…,Xn)为取自总体X的样本,如果X1,X2,…,Xn相互独立且与总体X同分布(简称X1,X2,…,Xn独立同分布),则称此样本为简单随机样本。
注释:
今后讨论的样本都是指满足这些要求的简单随机样本。在实际抽样时,也应按此要求从总体中进行抽样。这样获得的样本能够很好地反映实际总体的状态。两个不同的总体,&考试大&若是按随机性和独立性要求进行抽样,则机会大的地方(概率密度值大〉被抽到样本的个体就多;而机会少的地方(概率密度值小),被抽到样本的个体就少。分布愈分散,样本也就分散;分布愈集中,样本也相对集中。
抽样切忌受到干扰,特别是人为干扰。某些人为的倾向性会使所得样本不是简单随机样本,从而使最后的统计推断失效。
[page样本的观测值若 是从总体X中获得的样本,那么 是独立同分布的随机变量。所以样本(X1,X2,…,Xn)是一个随机向量,它的每个可能值称为样本观测值,用(x1,x2,…,xn)表示样本观测值。简称为样本值。样本的观测值用 表示,这也是我们常说的数据。有时为方便起见,不分大写与小写,样本及其观测值都用 表示,今后将采用这一方法表示。
三、统计量与抽样分布
样本来自总体,因此样本中包含了有关总体的丰富信息,但是这些信息是零散的,为了把这些零散的信息集中起来反映总体的特征,我们取得样本之后,并不是直接利用样本进行推断,而需要对样本进行一番“加工”和“提炼”,把样本中所包含的有关信息尽可能地集中起来,种有效的办法就是针对不同的问题,构造出样本的某种函数,这就是统计量。不同的函数可以反映总体的不同的特征。
1.统计量
把不含未知参数的样本函数称为统计量。一个统计量也是一个随机变量。
定义:设(X1,X2,…,Xn)为取自总体X的一个样本,g(X1,X2,…,Xn)为一个连续函数,如果这个函数中不包含任何未知参数,则称g(X1,X2,…,Xn)为一个统计量。
例如,设X~N(m ,s 2),其中m 已知,s 2未知,(X1,X2,…,Xn)为取自X的样本,则 是统计量, 不是统计量。
统计量是样本的函数,因而统计量是随机变量。
由统计量进行推断,便可获得对总体的认识,统计推断是数理统计的核心内容。
2.抽样分布
统计量的分布称为抽样分布。
3.常用统计量
常用统计量可分为两类,一类用来描述样本的中心位置,另一类用来描述样本的分散程度。为此先介绍有序样本的概念,再引入几个常用统计量。
有序样本
设是从总体X中随机抽取的样本,样本量为n,将它们的观测值从小到大排列为: ,这便是有序样本。其中 是样本中的最小观测值, 是样本中的最大观测值。
(1)描述样本的中心位置的统计量
总体中每一个个体的取值尽管是有差异的,但是总有一个中心位置,如样本均值、样本中位数等。描述样本中心位置的统计量反映了总体的中心位置,常用的有以下几种:
①样本均值
样本观测值有大有小,样本均值大致处于样本的中间位置,它可以反映总体分布的均值。
②样本中位数
中位数有时也记为Me。
(3)描述样本数据分散程度的统计量
总体中各个个体的取值总是有差别的,因此样本的观测值也是有差异的,这种差异有大有小,反映样本数据的分散程度的统计量实际上反映了总体取值的分散程度,常用的有如下几种:
①样本极差:
例10.数据为 ,样本观测值为:140,150,155,130,145,那么将它们从小到大排序后为:130,140,145,150,155
解析:最小值为130,最大值为155,因此样本极差R=155-130=25
②样本方差:
同样,对分组数据来讲,样本方差的近似值为:
其中 表示第i组的组中值。
样本极差的计算十分简便,但对样本中的信息利用得也较少,而样本方差就能充分利用样本中的信息,因此在实际中样本方差比样本极差用得更广。
③样本标准差:
样本标准差的意义:
样本方差尽管对数据的利用是充分的,但是方差的量纲(即数据的单位)是原始量纲的平方,例如样本观测值是长度,单位是“毫米”,而方差的单位是“平方毫米”,单位不同就不便于比较,而采用样本标准差就消除了单位的差异。
四、样本数据的整理
从总体x中获得的样本是总体的一个缩影,具有丰富信息的数据,我们需要对数据进行加工,将有用的信息提取出来,以便对总体有所了解。
对数据加工有两种方法:
一是计算统计量,二是利用图形与表格。上面提到的便是常用的统计量,它具有概括性,但不够形象,下面给出对数据进行整理的表格与图形描述。我们结合一个例子来叙述对计置数据给出频数频率分布表的步骤。