首页 百科知识 回归分析中的两个变量

回归分析中的两个变量

时间:2022-03-13 百科知识 版权反馈
【摘要】:回归分析的中心问题是建立回归方程,而建立回归方程的基础是最小二乘法。根据社会调查的目的要求,这里结合前面例20女青年受教育年限与理想子女数一例介绍一元线性回归方程的建立过程与方法。回归分析和相关分析有着密切的联系。
回归分析_现代社会调查方法

三、回归分析

相关分析的目的在于了解两个变量之间的关系强度,它并不涉及两变量之间有无因果关系。回归分析是在确定两变量之间存在相关关系之后,根据研究的目的,把两个变量之间的变动关系,加以模型化,即建立回归方程,来近似地表达变量间的平均变化关系,以便依据回归方程对未知情况进行估计和预测。回归分析由于增加了因果性,又具有预测的功能,因此它比相关分析更进了一步,作用也更大了。

回归分析的中心问题是建立回归方程,而建立回归方程的基础是最小二乘法。根据社会调查的目的要求,这里结合前面例20女青年受教育年限与理想子女数一例介绍一元线性回归方程的建立过程与方法。

首先,必须依据理论分析来确定自变量与因变量。在本例中,我们确定受教育年限为自变量(X),理想子女数为因变量(Y)。

其次,要以自变量为X轴,以因变量为Y轴,根据资料作散点图,以判断X、Y两变量之间是否存在线性相关。从散点图上可以看出,两变量之间存在线性相关关系。

img161

在上图中,我们可以作出许多条直线,但每条直线都不会正好与所有点相连,因而都存在着误差。回归计算的目的就是要找到一条最佳的直线,使它与各点的误差之和为最小。这条最佳回归线可以运用数学上最小二乘法计算得到,其标准方程为

Y=a+bX

在上述回归方程中,a是回归直线在Y轴上的截距,b是回归直线的斜率,称为回归系数。a和b确定了,回归直线也就确定了。估计这些系数可有不同方法,使用最多的是最小平方法。用这个方法求出的回归线就是原始资料的最适线(最优拟合线)。其标准方程是

img162

由方程组可以解出

img163

现在我们将上例中的数据代入方程式

img164

由a、b的数值可以写出回归方程式为

Y=5.18-0.37X

根据这个回归方程式可以对受教育年限不同的女青年的理想子女数进行预测:X每增加1年,Y相应地少0.37人。

如果X=3,则Y=4.1

如果X=5,则Y=3.33

如果X=12,则Y=0.74

显然,预测值与实际值有一定的误差,造成误差的原因在于影响生育意愿的原因不仅是文化程度这一项,还有许多其他因素也在起作用。但这些因素的影响在这个方程式中都被省略了,所以必然出现误差。但从理论上说,以这个方程式来进行预测,误差又是最小的。

回归分析和相关分析有着密切的联系。它们是同一个问题的两个不同方面。相关分析是研究两个变量之间是否存在相关关系并寻找合适的数值来反映相关关系的紧密程度;回归分析则是在确定了两现象间的相关关系之后,根据一现象的变化去预测另一现象的变化,因而具有推估预测的功能。从方向上来说,相关分析是双向的,而回归分析则是单向的。但是相关分析与回归分析又有密切的联系。两个变量相关程度越高,即相关系数的值越大时,越容易从其中一个变量较为准确地预测另一个变量。当相关系数的值越小时,越难以根据一个变量预测另一个变量,仅能粗略地预测其趋势;当相关系数为1时,就可以准确无误地根据一个变量预测另一个变量,当相关系数为0时,就完全不能进行回归分析。

基本概念:

频数分布 频率分布 集中趋势 平均数 中位数 众数 离散趋势 全距 异众比率 四分位差 标准差 离散系数 区间估计 假设检验 研究假设 虚无假设 相关关系 因果关系列联表 回归分析

思考与练习:

1.简述判定变量之间存在因果关系的三个条件。

2.设某调查收集到被调查对象平均每天观看电视的时间如下(单位:小时)

 2.5 2.3 2.5 1.0 0.5 0.5 1.5 2.1 1.8 3.4

 3.5 2.2 1.0 4.0 3.1 2.5 2.2 2.0 5.0 4.5

 1.6 2.2 3.0 3.5 4.2 0.5 1.2 2.7 2.7 2.0

 3.3 3.0 3.5 2.1 2.0 1.5 2.6 2.5 3.0 3.5

请计算频数分布和累积频数分布,并画出相应统计表。

3.分别求出下列四组数据的平均数与标准差、中位数与四分位差、众数与异众比率。

 A:1 3 5 6 7 7 8

 B:1 3 4 6 7 8 8 9 9 9

 C:2 2 4 5 6 6 6 9 12 15

 D:1 3 4 5 5 5 6 7 8 8 8 8 8 10 25

4.市场上鲜鱼每斤价格在早上6点钟为10元,8点钟为7元,10点钟为5元,现有两种购买方法:(1)分别在6点、8点、10点各买一斤鱼;(2)分别在6点、8点、10点各买10元钱的鱼。问这两种购买方法每斤平均价格各为多少?

5.设有100人身高分组资料如下表,试求(1)四分位差;(2)标准差。

img165

6.从某市居民家庭中随机抽取400个家庭,调查得这400个家庭的平均人口为3.8人,标准差为1人,试估计这一年该市家庭的平均人口数。

7.从某乡随机抽取100个家庭,调查得其中每16个家庭中至少有一个学龄儿童辍学在家,试估计该乡有学龄儿童辍学在家的家庭占多大比例?

8.考核青年工人的业务水平,出了150道题,答对100道算合格,抽取81名青工进行考核,结果平均答对96道题,标准差为16.5,问:答对100题为合格的标准能成立吗?(α=0.05)。

9.某社会心理学家研究工业生产效率与群体领导类型之间的关系,得到如下资料(单位:个企业):

img166

试问:(1)向哪个方向计算百分比更适宜?为什么?

(2)计算百分比并简略总结资料。

【注释】

[1]《中国统计年鉴2002》,第359页。

[2]《中国统计年鉴2002》,第359页。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈