首页 理论教育 样本描述法记录优点

样本描述法记录优点

时间:2022-04-19 理论教育 版权反馈
【摘要】:3.总体均数可信区间及其估计方法:①σ已知时,总体均数的95%可信区间为:,99%可信区间为:。测量的结果被称为变量值或观察值。1.定义 均数抽样误差是指由于抽样引起的样本均数与总体均数之间的误差,用均数的标准误表示,符号为σx。1.用途 统计学上将分析某变量随另一变量变化而变化依存关系的方法称为直线回归,通过拟合线性方程来描述两变量间的回归关系。某医生拟开展一项科研工作,决定按统计工作4

本节热门考点

1.统计工作设计包括调查设计和实验设计。实验原则:对照、随机和重复。

2.反映数量变量集中趋势的指标有:算数平均数、几何平均数、中位数。离散趋势指标有:全距(极差)、四分位数间距、方差、标准差、变异系数

3.总体均数可信区间及其估计方法:①σ已知时,总体均数µ的95%可信区间为:,99%可信区间为:。②σ未知,但样本例数n足够大时,总体均数μ的95 %的可信区间为:,99%的可信区间为:。σ未知,样本例数较小时,总体均数μ的95 %的可信区为:,99%的可信区间为:

4.假设检验、t检验和u检验适用条件及检验方法。

5.u检验和χ2检验。

一、基本概念和基本步骤

(一)统计学中的几个基本概念

1.总体 根据研究目的确定的、同质的全部研究对象。分为有限总体和无限总体。

2.样本 根据随机化的原则从总体中抽出有代表性的一部分,观察单位组成的子集。抽取样本的过程称为抽样。

3.变异 在同质的基础上被观察个体之间的差异被称作变异。

4.参数 总体的统计指标。

5.统计量 样本的统计指标。

6.误差 研究对象的观察值和实际值的差别。包括:①过失误差。②系统误差。③随机测量误差。④随机抽样误差。

7.概率 描述随机事件发生可能性大小的度量,常用P表示,范围0~1。小概率事件:P≤0.05或P≤0.01的事件,发生的可能性很小。

8.同质 除了实验因素外,影响被研究指标的非实验因素相同被称为同质。

9.变量 观察对象的特征或指标,分为定性(分类)变量和定量(数值)变量两种类型。测量的结果被称为变量值或观察值。

(二)统计工作的基本步骤

1.设计 包括调查设计和实验设计。

实验设计的原则:对照、随机和重复。

2.搜集资料 选择得到资料的最佳途径并获取完整、准确、可靠的资料。

3.资料整理 将搜集到的原始资料系统化、条理化,便于进一步计算统计指标和分析。

4.分析资料 ①统计描述:即计算统计指标。②统计推断:即推断总体的特征。

二、定量资料的统计描述

(一)集中趋势指标

1.算术平均数 适用于正态分布资料(或近似正态或对称分布)。

符号:总体均数μ,样本均数

2.几何均数 适用于对数正态分布资料或等比级数资料。

符号:G。

3.中位数 适用于任何分布类型的数值变量资料,常用于描述偏态分布资料、一端或两端无界的资料、频数分布类型不清楚的集中趋势。

符号:M。

(二)离散趋势指标

1.全距 也称极差,是一组资料的最大值与最小值之差,适用于任何分布类型的资料。

符号:R

计算公式 R=Xmax−Xmin

2.四分位数间距 一组资料上四分位数和下四分位数之差,适用于偏态分布资料,和一端或两端无确切值资料。

符号:Q

计算公式:Q=QU−QL=P75−P25

3.方差 适用于正态和近似正态分布资料。

4.标准差 适用于正态和近似正态分布资料。

符号:总体标准差σ,样本标准差S。

5.变异系数 适用于比较度量单位不同,或均数相差悬殊的两组(或多组)资料的变异度。符号:CV。

(三)正态分布的特点与面积分布规律

1.正态分布的特点

(1)正态分布曲线在横轴上方均数处最高。

(2)正态分布以均数为中心,左右对称。

(3)正态分布有两个参数,均数µ与标准差σ,标准正态分布的均数和标准差分别为0和1。

(4)标准正态分布在μ±1σ处各有一个拐点 。

(5)正态曲线下的面积分布有一定规律。

2.正态分布曲线的面积分布规律 见表10-1。

表10-1正态分布曲线的面积分布规律

三、定量资料的统计推断

(一)均数的抽样误差

1.定义 均数抽样误差是指由于抽样引起的样本均数与总体均数之间的误差,用均数的标准误表示,符号为σx

2.计算公式。实际研究中σ未知,用s代替求标准误的近似值

(二)总体均数可信区间及其估计方法

1.可信区间的定义 从总体中做随机抽样,根据每个样本可算得一个可信区间。如95%可信区间,意味着做100次抽样,算得100个可信区间,有95个可信区间包括总体均数(估计正确),只有5个可信区间不包括总体均数(估计错误)。

2.估计方法

(1)σ已知时,总体均数µ的95%可信区间为:,99%可信区间为:

(2)σ未知,但样本例数n足够大时,总体均数μ的95 %的可信区间为:,99%的可信区间为:

(3)σ未知,样本例数较小时,总体均数μ的95 %的可信区为:,99%的可信区间为:

(三)假设检验的基本步骤

1.建立假设和确定检验水准

(1)H0(无效假设):假设比较指标的差异是由于抽样误差所致。

(2)H1(备择假设):假设比较指标的差别不是由于抽样误差所致,而是总体的差别。

(3)α(检验水准):一般为0.05,可以根据情况决定是单侧还是双侧。

2.计算统计量

3.确定P值 P值:从H0所规定的总体进行随机抽样,获得等于及大于(或等于及小于)现有样本统计量的概率。

4.做出统计推断 P≤α拒绝H0,按α水准接受H1,可认为比较指标的差别是总体差别;P>α则按α水准不拒绝H0,可以认为比较指标的差别是抽样误差引起。

(四)t检验和u检验

1.t检验

(1)适用条件:样本例数n较小,总体标准差未知时,样本与总体均数的比较,配对设计资料的比较与两个样本均数的比较。

进行t检验时应注意:样本来自正态分布总体,用于成组设计的两样本均数比较时,要求两样本来自总体方差齐。

(2)单样本t检验

目的:推断样本所代表的未知总体均数µ与已知总体均数µ0有无差别。

(3)配对t检验

目的:推断某种处理有无作用,或两种处理的效果有无差别。

(4)两样本t检验

目的:推断两样本分别代表的总体均数是否相等。

2.u检验

(1)适用条件:已知总体标准差情况下的样本均数与总体均数比较,大样本资料的两均数比较,要求资料服从对称或正态分布。

(2)单样本u检验:

目的:推断样本所代表的未知总体均数μ与已知总体均数0μ有无差别。

(五)假设检验的两类错误及注意事项

1.第Ⅰ类错误 拒绝了实际正确的无效假设H0称为犯了第Ⅰ类错误,概率用α表示,通常称之为检验水准,常α=0.05。

2.第Ⅱ类错误 接受了实际上错误的无效假设H0称为犯了第Ⅱ类错误,概率用β表示。

3.注意事项

(1)样本具有较好的代表性和均衡可比性。

(2)选用的假设检验方法应符合其应用条件。

(3)实际大小与统计学意义的区别:差别有显著性不应误解为两个均数差别很大。

(4)进行假设检验时,对差异有无显著性或有无统计学意义的判断不能绝对化。

(5)注意单侧检验与双侧检验的选择。

四、分类资料的统计描述

(一)相对数常用指标及其意义

1.率 又称频率指标,说明某现象发生的频率或强度。

K为比例基数

2.比例 又称构成比、说明事物内部各组成部分所占的比重或分布情况。

3.比 也称相对比,指两个有联系的指标之比,常以百分数或倍数表示。两指标可以性质相同,也可以性质不同。

4.动态数列 一系列按时间顺序排列起来的统计指标(绝对数、相对数和平均数),说明事物在时间上的变化和发展趋势。

(1)绝对增长量:事物在一定时期内某指标增减的绝对数量,可计算累计绝对增长量与逐年绝对增长量;

(2)发展速度和增长速度:可计算定基比发展速度、环比发展速度、定基比增长速度和环比增长速度;

(二)相对数应用注意事项

1.计算相对数的分母不宜过小。

2.分析时不能以构成比代替率。

3.正确计算平均率。

4.相互比较时应注意可比性。

5.样本率或构成比的比较应进行假设检验。

五、分类资料的统计推断

(一)率的抽样误差、总体率的可信区间及其估计方法

1.率的抽样误差 由于抽样而引起的样本率与总体率之间的差别,率的抽样误差可用率的标准误来表示。

2.总体率可信区间及其估计方法

(1)查表法:小样本资料(n≤50),根据样本阳性例数X及样本例数n,直接查二项分布参数π可信区间表。

(2)正态近似法:n足够大,p和(1−p)均不太小,且np和n(1−p)均大于5时,样本率p的抽样分布近似服从正态分布。公式估计总体率可信区间:(p−uαsp,p+uαsp)。

(二)u检验和χ2检验

1.率的u检验

(1)样本率与总体率的比较。

适用条件:样本率分布近似服从正态分布时。

公式:

(2)两样本率的比较

适用条件:两样本n1、n2均较大,两样本率p1、(1−p1)及p2、(1−p2)均不太小,即n1p1、n1(1−p1)及n2p2或n2(1−p2)均>5,可采用正态近似法。

公式:

注意事项:

1.作行×列表资料χ2检验时,允许有1/5以下的格子理论数<5,如果有1/5以上的格子理论数<5,或有理论数<1时,需要:①适当增加样本例数。②理论频数太小的行或列与性质相近的邻行或邻列合并。③删去理论频数太小格子对应的行或列。

2.该资料 χ2检验结果,如果有统计意义,并不表示任何两组之间差别都有统计意义。

六、秩和检验

1.配对资料的符号秩和检验

(1)检验步骤

①求出各对数据的差值。

②建立假设检验。

H0:差值的总体中位数为零。

H1:差值的总体中位数不为零。

确定检验水平α。

③编秩次并求秩和:依差值绝对值,从小到大编秩,并按差值的正负,标上正负号。对差值为0的对子,舍去不计,相应的总的对子数也要减去其对子数,记为n。分别求正负秩次之和T+与T,并以绝对值较小者作为统计量T值,所示T=min(T+,T)。

正负秩和相加应等于总秩和,即T++ T=n﹙n+1﹚/2,通过计算判断T+和T的计算是否有误。

④查表确定P值范围:当n≤25时,可查附表8的T界值表,T愈小P愈小。当T恰为附表中的界值时,P值一般都小于表中对应的概率值。

当n>25时,无法查表,可按近似正态分布u检验,公式为

校正公式为

2.两样本比较秩和检验

(1)检验步骤

①建立假设检验及确定显著水α

H0:两总体分布相同

H1:两总体分布不同

α=0.05

②编秩号:两样本观察值从小到大混合编秩,属不同组的相同观察值取原秩次的平均秩次。

③求秩和:设n1与n2分别为两样本的含量,规定n1<n2,两组合计列数N=n1+n2。分别计算两样本含量为n1和n2组对应的秩和T1和T2(两组的秩和合计等于总秩和,即T1+T2=N(N+1)/2,可用于核对),取样本含量小的n1的秩和T1为统计量T值。

④确定P值:当n1<10,n2−n1≤10时,查T界值表。T值在表中范围外(包括端点时),P值小于表中对应的概率值,T值在表中范围内,P值大于表中对应的概率值。

当n1与n2超出T界值表的范围时,可按近似正态用μ检验:

当相同秩次较多时(如等级资料),采用校正公式:

其中ti为相同秩次的个数。

(2)基本思想:如果H0成立,则两样本来自分布相同的总体,两样本的平均秩次T1/n1与T2/n2应相等或很接近,且都和总体的平均秩次(N+1)/2相差很小。含量为n1样本的秩和T1,应在n1(T+1)/2(T值表范围中心为n1(N+1)/2)的左右变化,当T值偏离此值太远,H0发生的可能性就很小;若偏离出给定α值所确定的范围,即P<α时,拒绝H0

3.多样本比较秩和检验 设有k个样本,每个样本含量为ni(i=1,…,k),总例数N= …。检验的具体步骤如下。

(1)建立假设检验

H0:各抽样总体分布相同。

H1:各抽样总体的分布不同或不全相同。

α=0.05。

(2)计算统计量

①编秩次,将各组数据统一从小到大编秩次,对相等的数值,如果分属不同组时应取平均秩次。

②求秩和,分别计算各组的秩和Ti,可用关系式∑Ti= N(N+1)/2检验Ti的计算是否正确。

式中ti为相同秩次的个数。H或Hc近似服从自由度υ=k−1的χ2分布。按χ2的界值表确定P的范围。

七、直线相关和回归

(一)直线相关分析的用途,相关系数及其意义

1.用途 可以用来描述具有线性关系的两变量X、Y间的相互关系。

2.相关系数

定义:也称Pearson积矩相关系数,是说明具有直线关系的两变量间相关方向与密切程度的统计指标。

符号:r表示样本相关系数,ρ表示总体相关系数。

3.相关系数的意义 相关系数没有单位,数值范围为−1≤r≤1,r值为正表示正相关,r值为负表示负相关,r值等于零为零相关。在相关系数具有统计意义的前提下,|r|愈接近1,表示相关程度愈密切,|r|等于1为完全相关。

(二)直线回归分析的作用,回归系数及其意义

1.用途 统计学上将分析某变量随另一变量变化而变化依存关系的方法称为直线回归,通过拟合线性方程来描述两变量间的回归关系。

2.回归系数

(1)定义:回归直线的斜率。

(2)符号:b

(3)公式:

3.回归系数的意义 回归系数描述了X变量与Y变量的依存关系,即表示X变动一个单位时Y平均变动的单位数。b>0,表示y随x增大而增大;b<0,表示y随x增大而减小;b=0,即y与x无线性依存关系。

八、统计表和统计图

(一)统计表的基本结构和要求

1.结构 统计表外观由标题、标目、线条、数字和备注等部分组成,有简单表和复合表。

2.要求

(1)标题:简要说明表的中心内容,一般写在表的正上方。

(2)标目:即表内所列项目,横标目在左,表明被研究事物的主要特征;纵标目在表的右上端,说明横标目内容的各项统计指标。

(3)线条:包括顶线、底线、隔开纵标目与数字的横线。

(4)数字:同一指标小数位数保留、单位和精度应一致,表内不留空格。

(5)备注:非必需,用“*”标出,解释在表的下面。

(二)统计图形的选择,制图通则

1.统计图的选择

(1)条图:适于彼此相互独立的现象间相同指标的比较。

(2)圆图:用来表示全体中各部分的构成情况。

(3)线图:用于描述某指标随时间或条件而变动的趋势,或某一现象随另一现象变迁的情况。

(4)半对数线图:用于表示事物现象发展变化的速度(相对比)。

(5)直方图:用于描述某连续性资料的分布。

(6)散点图:用于双变量统计分析

(7)统计地图:用以显示不同地域事物数量的分布情况。

2.制图通则

(1)标题:概括图的内容,至于图域下方。

(2)图域:制图空间,长宽比例7∶5或5∶7。

(3)标目:图纵轴左侧为纵标目,横轴下方为横标目,并指明指标与单位。(4)刻度:多用算术尺度或对数尺度,标注于纵轴外侧和横轴上侧。

(5)图例:说明不同线条或颜色所表达的内容,放于横标目下方或图域中。

试题精选

1.反映一组正态分布计量资料离散趋势的指标是

A.变异系数

B.标准误

C.标准差

D.均数

E.全距

2.等距离抽样或机械抽样方法又称为

A.单纯抽样

B.系统抽样

C.分层抽样

D.整群抽样

E.多阶段抽样

3.随机抽样调查是

A.用目标人群来推断样本人群的患病情况

B.用观察单位来推断样本人群的患病情况

C.用总体人群来推断样本人群的患病情况

D.用样本人群来推断目标人群的患病情况

E.用目标人群来推断总体人群的患病情况

4.对10名25岁以上的山区健康男子测量脉搏次数(次/分),用t检验与全国正常男子资料进行比较,按α=0.05的检验水淮,自由度为

A.v=9

B.v=19

C.v=8

D.v=20

E.v=18

(5-7题共用题干)

为研究45岁以上男性体重指数(BML)≥25者糖尿病患病率是否高于体重指数(BMI)<25的人群,某医师将资料汇总如下糖尿病患者检测情况。

5.若BMI≥25者,为第1个样本;BIVLI<25者,为第2个样本,则其检验假设为

A.H0:P1=P2,H1:P1不等于P2

B.H0:P1=P2,H1:P1<P2

C.H0: π12,H1l>π2

D.H0:π12,H1l<π2

E.H012,H112

6.若选用u检验,公式为

A.|P−π|/σp

B.|P−π|/sp

C.|P1=P2|/σp

D.|Pl−P2|/Sp

E.|Pl−P2|/Sp1-p2

7.若值等于2.95,则最接近的概率P应

A.>0.05

B.=0.05

C.<0.01

D.=0.0l

E.>0.0l

(8-10题共用题干)

某医生拟开展一项科研工作,决定按统计工作4个步骤统计设计、搜索资料、整理资料和分析资料进行操作和实施。

8.该医生的医学科研设计可有下列设计,除了

A.调查设计

B.实验设计

C.临床试验设计

D.动物实验设计

E.对照设计

9.搜索资料不包括下列哪些方面

A.统计报表

B.医疗卫生工作记录

C.实验

D.录入计算机

E.专题调查

10.分析资料有

A.描述推断

B.计算讨论

C.归纳整理

D.随机均衡

E.对照重复

答案:1.C 2.B 3.D 4.A 5.C 6.E 7.C 8.D 9.A 10.A

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈