首页 理论教育 某水泥硬化放热与其四组分含量关系的回归分析[]

某水泥硬化放热与其四组分含量关系的回归分析[]

时间:2022-02-13 理论教育 版权反馈
【摘要】:表中共5列数,第一列为观测数据序号,后面依次为 “原指标值”;由当前回归方程算得的“回归值”;两者的“偏差”及此“偏差的平方”。表示“偏差平方的和”,也称“剩余平方和”,为将所有“偏差平方”相加所得。表1-4分两部分,最上为回归方程,下为显著性检验。 的信息后,停止运行。本次回归分析选择了模型类型1,初始包含全部4个决策变量,为第一轮回归分析,给出一个含全部变量的回归方程,接

有表1-2的观测数据,求做Y与各X关系的回归模型。

表1-2 水泥硬化放热与4种成分关系的数据

本题数据块写法(本题无经验误差δ值)。:

回归数据块仅有回归参数行和数据行,其写法与输入程序RD的方法等已详细说过。数据输入RD并运行后,直接调出回归程序RR,打入开机指令Start 或F5,屏幕出现问号后,根据使用者意愿打入任意选择的模型类型号,例如本次打入数字“1”,即指定该批数据用模型类型1——仅含变量一次项的线性模型——做回归分析,回车后,程序运行并在断点处暂停,经转黑屏(按F4键),看到如表1-3的首轮回归所得方程对观测数据拟合所得的数据表(输出形式已稍做整理,下同)。

表1-3 例1-1首轮回归拟合数据表(Model=1,Round=1)

表1-3各部分意义如下:

标题行中“Model=1”和“Round=1”。意为“模型类型1”和“第一轮”。关于“轮”次数的概念容后解释。表中共5列数,第一列为观测数据序号,后面依次为 “原指标值”;由当前回归方程算得的“回归值”;两者的“偏差”及此“偏差的平方”。最下行“Q =ΣΔ^2=…”表示“偏差平方的和”,也称“剩余平方和”,为将所有“偏差平方”相加所得。看了这张表,操作者对当前数据与模型的拟合好坏可有大体了解,例如此时原观测值与回归值的最大偏差为3.925,出现在第6号数据上;总的剩余平方和为47.863等。当前程序只是暂停,工作未做完,看完应继续运行,转成蓝屏再按F5(继续)键,程序继续运行并将在下一断点暂停,再转黑屏,显示表1-4。

表1-4 例1-1回归显著性检验表

表1-4分两部分,最上为回归方程,下为显著性检验。上部最前行的意义为 “回归方程(模型=1,变量数=4,轮次数=1)”;第二行“Y=62.39211+… ” 为当前获得的回归方程具体形式;下一行“s,z,h=2.44,2.56,0”按顺序分别表示计算所得因变量的标准偏差值;模型预测数据的相对偏差百分数及回归方程对实际过程拟合好坏的判别参数h,因当前经验误差值δ未输入,给出“0”。s﹑z﹑h为判明回归方程质量的三个十分重要的参数,此处先说明前者,后两个移入例1-2中说明。

“s”称标准偏差或残差,为一个估计值,从观测值的统计计算得来(方法见附录三),约为做一次试验因变量可能产生的平均绝对偏差大小,单位与因变量同,其出现概率为68.3%。实际可任意给定模型预报数据的误差范围,该范围按s的增倍数h考量,即模型可给出±hs的误差范围,此时其出现概率随h不同而不同。误差分布符合正态分布,按正态分布表(见附录),按给定的h可查得表值Kα,将Kα乘2(表列为单边数据),再计算其与1之差后乘100,即得该误差出现的概率数值,也称“置信度”。见下:

Y=62.39211+…-.1439267X4±s ,置信度68.3%,

Y=62.39211+…-.1439267X4±1.96s,置信度95%,

Y=62.39211+…-.1439267X4±2s,置信度95.4%,

Y=62.39211+…-.1439267X4±3s,置信度99.7%。

此概念应牢记,做到心中有数。

使用同一批数据,选择不同模型类型的回归分析,通常s值不同,s越小说明方程对数据的拟合越精确,其值的大小可作评判所得模型好坏的标准,本法自动选择模型即以此为准,选s最小者。s因试验值带有误差而产生,如果算得的s趋于0,既说明回归模型选择正确,也说明试验观测数据几乎没有误差;若s值很大,说明模型预报数据的离散程度大,其超过一定程度,模型即不能指导生产(详后)。

表1-4中部的“Check On F”意为“F检验”,为显著性检验,即方差分析,也分两部分,前3行是对方程的显著性检验,后两行是对每个变量的显著性检验。显著性检验的具体介绍见附录三。

显著性检验中,首行“F(0Equ.)0.1 0.05 0.01=2.80 3.847.05” ,表示进行方程显著性检验时,按不同显著性水平α用到的标准F值F0α,该标准值与其显著性水平对应,即2.80与α=0.1对应,3.84与α=0.05对应等。这里按“(1-‘显著性水平α’)×100=把握性程度百分数(置信度)”理解。

值通常手工由F分布表查出,再作比较检验,但此做法将使程序运行频繁暂停,既麻烦又费时,为简单计,将F分布表拟合成相应一个个回归方程,编入程序,程序运行需要 值时会直接算出,虽稍有误差,但甚小,不影响使用,此会使回归程序运行连续,一气呵成,直到最后,实践证明,这样做甚为方便、简单。

下一行列出了6个量的实际计算结果,其中S为总平方和;U为回归平方和;Q为剩余平方和,且S=U+Q; f1﹑f2分别为因子自由度和剩余自由度的值,它们的定义﹑用途等在附录三中有说明;回归计算中会算出一个回归方程的F值,其定义为回归均方对剩余均方的比,可简单理解为回归效应对误差效应的比,其值大,表明回归方程给出的规律性与观测数据本身规律性的符合程度大,反之亦然。本题实际算得的F值为111.4,只要该F值大于某一标准 值,就说该回归方程在某一显著性水平上,或有多大把握说,是显著的,并标注 * 号。看到,这里该F值比最大的 值还大;再下一行“Reg.equ.**” 意为“回归方程高度显著”,或“有99%的把握说” 该回归方程显著。若回归方程不显著,程序将在给出“Regression equation isn’ t remarkable !” (回归方程不显著) 的信息后,停止运行。关于“*”号的标注方法和意义与下段关于变量显著性检验者类似,请注意参看。

“F0(Varia.)0.1 0.05 0.01=3.43 5.30 11.35”,意为 “变量显著性检验的标准 值,本题当显著性水平分别为α = 0.1﹑0.05﹑0.01时的对应 值分别为3.43﹑5.30﹑11.35”。下一行的4个数“4.3380(*),… .04120” 为回归后各变量实际算得的Fi值(i=1,2,… n,对应变量号),其中比标准 值大者,表示该变量在α 水平上对过程指标的影响显著,并标注“*” 号。标注规定如下:当实际算得的变量Fi值比0.01水平标准值 大时,在实际Fi值后标 “**”,表示该变量对过程指标的影响高度显著;比 值大时,标 “*”,表示变量的影响很显著;当仅比 值大时,标“(*)”,表示其有明显影响。可参看所有回归结果的显著性检验输出表,如表1-4。回归分析的显著性检验与变量筛选(不显著变量会逐个被剔除)等工作完全由全回归程序自主处理,不需由人关照,读者只要知道有此一回事即可。

现在说明“轮次数”(Round)概念。本次回归分析选择了模型类型1,初始包含全部4个决策变量(全为线性关系),为第一轮回归分析,给出一个含全部变量的回归方程,接着进行显著性检验,结果如表1-4。经显著性检验将确定,本轮回归方程是否显著和所包含的全部变量是否都对过程指标有显著影响。若回归方程显著,且各变量也都显著,则所有变量都应保留在回归方程内,当前轮的回归就是最后一轮;若检验证明,回归方程显著,但有的变量对过程指标的影响不显著,则从不显著变量中选出影响最小者,即Fi最小者,从原始观测数据中将其剔除(指将变量名及其数值剔除,指标值不变),每轮只剔除一个变量。注意:是剔除回归变量,不管是否为决策变量,使变量数减少一个。接着,程序运行自动返回回归开始处,按剩下的变量从头再进行“下一轮” 回归分析,最后会给出一个较前少一个变量的回归方程,做完又进行显著性检验…。一轮轮做下去,直到当前回归方程所含全部变量都显著。最后所得回归方程就是该批数据使用当前所选模型类型的最优回归方程。

表1-4最下行写有“Veriables forecast:1 1 0 1” ,意为“变量预报:1 1 0 1”,第一个数代表X1,第二个数代表X2…;数字“1” 表示该变量在本轮中有(存在)和在下轮中将被保留;数字“0”表示该变量在下轮回归中将被剔除或此前已被剔除。这里的预报清单指出,下一轮回归中变量X1﹑X2﹑X4将被保留,X3将被剔除。一轮轮做下去,每轮运行中出现的现象相同。当出现“Veriables final:1 1 0 0”时,见表1-6的第三轮运行结果,表示使用本模型类型回归的变量最后状态。该行下出现“END” 字样表示使用当前所选模型类型的回归 “到此结束”。使用本模型类型最后所得最优回归方程就列在表1-6的靠上位置(数据拟合状况见表1-5)。

表1-5 例1-1第三轮回归数据表
(Model=1 Round=3)

表1-6 例1-1第三轮回归的显著性检验表

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈