实验数据的基本处理方式

时间：2023-02-13 理论教育版权反馈

【摘要】：一、数据的表示检测结果的表示应采用法定计量单位并尽量与食品卫生标准一致。需要注意的是，现阶段ppm、ppb和ppt已不再作为表示浓度的标准单位。Q－检验法是检验异常数据的常用方法。中位数即处于一组数据的中点或中央的数值，即实验结果有一半比中位数小，而另一半比中位数大，但此法不用于一般食品的检测。准确度和精确度是评价数据可靠性的两个重要指标。

一、数据的表示

检测结果的表示应采用法定计量单位并尽量与食品卫生标准一致。食品分析数据常用以下单位表示:

(1)百分含量(%)，g/100g或g/100mL。

(2)千分含量(‰)，g/kg或g/L。

(3)百万分含量，mg/kg或mg/L，即ppm(partpermillion)。

(4)十亿分含量，μg/kg或μg/L，即ppb(partperbillion)。

(5)万亿分含量，ng/kg或ng/L，即ppt(partpertrillion)。

需要注意的是，现阶段ppm、ppb和ppt已不再作为表示浓度的标准单位。

二、有效数字(significantfigure)及其应用

测量任何一个参数都会受到检测仪器的限制。一般来说，记录数据时要在记录最低刻度读数后再加一位估计数字。例如，用普通酸式滴定管滴定某碱液后，甲同学得出消耗标准酸液15．47mL，乙同学得出数据为15．49mL。该数据前三位数字可直接从滴定管读出，为准确数字;最后一位即为估计数字。但该四位数字都是有效数字。因此，在食品分析检测中，有效数字即为所有准确数字后再加上最后一位估计数字，其反映了所用仪器的精密度。而针对零是否为有效数字，应考虑到以下情况:

(1)小数点前的零不计为有效数字;小数点前无其他数字，那么小数点后的零也不计为有效数字。例如，0．375和0．00375均只有3位有效数字。

(2)小数点后的零通常为有效数字。例如，14．250有5位有效数字。

(3)无小数点时，数据末尾的零是否为有效数字应根据仪器检测限判定。例如，用不同的方法表示1L容量瓶的体积(容量瓶的允许误差为0．4mL)，若写成1．0L或1000mL都不规范，其反应容量瓶检测限为0．1升或1毫升，与仪器检测限不符，因此其末尾的零不能计为有效数字。因此，应根据实际情况采用科学计数法确定有效数字，即1．0×103mL(两位有效数字)，这表示容量瓶体积可以读到0．1毫升。

有效数字运算的经验规则总结如下:

(1)加或减:小数点后的有效数字的位数不能高于参加加或减的数字的小数位数最小的数。如:0．002+0．0016+1．07=1．0736(最终表示为1．07，有效数字3位)。

(2)乘或除:有效数字的位数与参与乘或除的数字中位数最小的一致。例如，0．001× 2．500×0．13×23．45=0．00762125(最终表示为0．008，有效数字1位)。

(3)复杂运算时，其中间过程各数末尾多保留一位有效数字，最后结果须取应有的位数。

三、数字的取舍

1．四舍六入五成双法则

其规则如下:

(1)如果保留数字后位数等于或小于4时，该数字舍去。

(2)如果保留数字后位数等于或大于6时，则进位。

(3)如果保留数字后位数等于5时，要看5前面的数字，若是奇数则进位，若是偶数则将5舍掉，即舍去末尾数字后数据均成偶数。如保留四位有效数字，54．125记为54．12;75．115记为75．12。

2．Q－检验法

在实际测定某参数时，需进行多次重复的测定，但并非每个数据均可以用于数据分析，对于个别偏离整体较大的数据应慎重对待，必要时要倒推分析过程寻找原因。对于是实验仪器或方法选择不当造成的数据偏差，应对实验方案进行修正后再次测定，而不能在原因不明的情况下直接舍弃异常数据来减小误差。

Q－检验法是检验异常数据的常用方法。在Q－检验法中，可疑值的Q值按下式计算，并将其结果与表3－1中的数值相比较，如果Q值比表格中对应数值大，那么该可疑值可被舍弃(90%置信度)。

式中:x——可疑值;

x2——x1的最临近值;

W——所有数值的极差，等于最高值减去最低值。

表3－1列出了舍弃结果所需要的Q值(90%置信度)。

表3－1　舍弃结果所需要的Q值

pagenumber_ebook=16,pagenumber_book=16

现以面包中水分质量测定为例进行说明。对面包中的水分进行了5次重复测定，其测定数值分别为58．65%、60．81%、55．19%、56．71%和41．72%。其中41．71%这个数值直观感觉偏差较大，现用Q－检验法判断此数据是否该舍弃。根据Q－检验法公式，x1=41．72%，

x2=55．19%，极差=60．81%－41．72%=19．09%。则

由表3－1可知，Q值(0．71)大于表中测定次数为5次时的Q值(0．64)，因此测定水分为41．72的数值可以舍弃，不必参与数据的进一步分析。

四、实验结果的科学表示

1．平均值(meanvalue)

在对食品进行分析检测时，通常需对相关指标进行多次(至少3次)重复测定以保证实验数据的精准度。在处理数据时，首先对整体实验数据求平均值，用平均值描述整体数据的概况。平均值用x表示，通过下式计算:

pagenumber_ebook=17,pagenumber_book=17

式中:x1——测定数据平均值;

x1，x2，…xn——各个测定数据(xi);

n——测量次数。

通过平均值，可对相关参数的真值进行初步的估计，但仍无法知道该数据的准确度和精确度，所以尚需进一步分析。

另一种估计真值的方法是用中位数表示，如淀粉和小麦的粒度大小常用中位数表示。中位数即处于一组数据的中点或中央的数值，即实验结果有一半比中位数小，而另一半比中位数大，但此法不用于一般食品的检测。

2．准确度(accuracy)和精确度(precision)

食品分析的结果是否能够反映被测参数的真实情况，分析结果是否具有可重复性是判断实验数据是否可靠的首要标准。对于相关参数的多次重复测定以得出平均值只能反映真值的概况，无法确定实验的可重复性以及测定结果与真实值的接近程度。

准确度和精确度是评价数据可靠性的两个重要指标。准确度是指单个测量值与真实值的接近程度;精确度即在同样条件下多次测定样品某一参数时，所得测量值的离散程度。用步枪打靶可形象说明准确度和精确度的差别。如图3－1(a)所示，该组数据排列紧密(精确度高)且靠近靶心(准确度高);在图3－1(b)中，该组数据排列紧密(精确度高)但偏离靶心(准确度低);在图3－1(c)中，该组数据排列松散(精确度低)但靠近靶心(准确度高);在图3－1(d)中，该组数据排列松散(精确度低)且偏离靶心(准确度低)。一组数据的精确度和准确度越高，说明此组数据越可靠。

3．准确度的评价

回收率(recoveryrate)是评价数据准确度广泛采用的方法。

在未知样品中加入已知量的标准物质，称加标样品。同时测定未知样品和加标样品，可测出加入的标准物质的回收率。测定回收率是目前实验室常用的确定准确度的方法，多次回收实验还可以发现检验方法的系统误差。

加入的标准物质的回收率，可按下式计算。

pagenumber_ebook=18,pagenumber_book=18

图3－1　准确度和精确度

式中:P——加入的标准物质的回收率;

m——加入标准物质的量;

x1——加标样品的测定值;

x0——未知样品的测定值。

在日常实验中，正确使用回收率的方法对评价实验数据有较大的意义。

4．精确度的评价

在一般情况下，真实值是不易知道的，故常用精确度来判断分析数据的好坏。对精确度的系统评价通常用标准偏差(standarddeviation)和变异系数(coefficientvariation)来表示。

假设对某一指标重复测定了n次，那么标准偏差可用下式来计算。

pagenumber_ebook=18,pagenumber_book=18

式中:

σ——标准偏差;

μ——真实值;

xi——各个样品测量值;

n——样品个数。

在上式中，由于真实值μ未知，所以一般用平均值x代替μ，σ则用样品标准偏差SD代替。因此，上式可简化为:

pagenumber_ebook=18,pagenumber_book=18

在一般情况下，我们进行指标测定时，重复次数一般少于30，即n＜30，此时n可用(n－1)代替，即:

pagenumber_ebook=18,pagenumber_book=18

除了标准偏差，变异系数(即相对标准偏差)是评价分析数据精确度的直观方法，可通过下式进行计算:

pagenumber_ebook=18,pagenumber_book=18

虽然不同类型的分析对变异系数的要求不同，但在一般情况下，变异系数小于5%时，可认为重复结果的精确度和重现性水平均很高。在本例中，变异系数已远超过5%，因此，该重复结果的精确度和重现性均较差，仪器操作或实验过程存在需改进的地方。

5．正态分布(normaldistribution)与置信区间(confidenceinterval)

另一种评价重复实验数据可靠性的方法是分析数据的分布情况。正态分布也叫常态分布或高斯分布，是连续随机变量概率分布的一种，自然界、人类社会、心理和教育中大量现象(数值)均按正态形式分布。例如，当样本数量足够大时，社区居民能力的高低，学生成绩的好坏和身高等都属于正态分布。因此，当食品指标测定的重复数较多时，其自然测定结果也必定基本符合正态分布。而当无数次重复测定时，其自然测定结果则会出现一张类似图3－2所示的标准正态分布曲线图，这其中68%的测定数值在距离平均值±1σ之内的数值范围内，95%的数值在距离平均值±2σ之内的数值范围内，99．7%的数值在距离平均值±3σ之内的数值范围内，即“68－95－99．7”法则。也就是说，在使用正确的实验仪器和方法时，测定结果只有0．3%的概率会落在距离平均值±3σ的范围之外。

pagenumber_ebook=19,pagenumber_book=19

图3－2　标准正态分布曲线图

理解正态分布曲线的方法就要认识到真实值可能存在于标准偏差确定的某一置信区间内。对于大批样品，采用Z值统计来确定围绕平均值的置信区间。数据处理时，首先确定置信度(confidence)，再从表3－2中查找Z值，最后按照下式计算出结果。

表3－2　各置信度对应的Z值表

pagenumber_ebook=19,pagenumber_book=19

在实际运用时，常直接用SD/槡 pagenumber_ebook=20,pagenumber_book=20 n作为平均值的标准偏差。

对于低数目样本的置信区间按t表来计算。此时，根据自由度(n－1)和需要的置信度从表3－3查到t值。

表3－3　各置信度对应的t值表

pagenumber_ebook=20,pagenumber_book=20

五、实验误差及其控制

1．误差(error)

pagenumber_ebook=20,pagenumber_book=20

误差是测量值与真实值之间的差距。通常用绝对误差和相对误差来表示。式中:T——待测样品的真实值。绝对误差和相对误差需保留正负号以判断误差出现的方向。

2．误差来源

在自然状态下，无论如何避免，由于检测技术、设备以及其他因素的干扰，测定过程中都会不可避免的出现误差。食品分析者不可能完全排除误差，但可以通过查找误差来源从而改进分析方案以减小误差和数据波动。而根据误差来源的不同，通常将误差分为系统误差和偶然(随机)误差。

系统误差(systematicerror)又称定制误差，是由固定原因造成，在测定过程中误差按一定规律反复出现，有一定的方向性，这种误差的大小是可测的，因而也被称为可测误差。系统误差主要来源于实验室偏差和方法偏差。实验室偏差主要包括操作者的素质、仪器和试剂的选择。所以，系统误差可通过适当的方法来校正仪器，用空白试剂做平行实验或改进测定方法来消除。

偶然(随机)误差(randomerror)又称不可确定误差，其在分析测定时经常出现，是由操作者、仪器、试剂和方法的不确定性造成的，无重复(现)性。例如，仪器本身不稳定、设备噪音、试剂轻微变质、外界环境不同以及不同操作者观察存有差异等。这些误差随机性大，无规律可循，不可彻底消除，但可以通过测定者仔细操作而减小。但从宏观来说，这些偶然误差出现的正负分布大致相同并遵从正态分布规律。

3．灵敏度(sensitivity)和检测限(detectionlimit)

灵敏度和检测限两个术语具有一定的共通性，均是描述仪器性能的术语，但两者含义不同，不可混淆使用。灵敏度指用给定仪器所能测定出来的最小浓度间隔(差)。其数学表示为信号Y改变量与浓度c改变量之间的比值(灵敏度=dY/dc)。在实际应用中，可以调节仪器灵敏度以使之符合测量需要。例如，测定浓度变化小的样品时，常需要将仪器调至较高的灵敏度;与之相反，测定浓度变化大的样品时，常需要较低的灵敏度。

检测限是判断样品最低浓度的重要指标。其数学表示为空白样品的信号(噪音)加上3倍的标准偏差。高于检测限的值可认为分析物存在，低于检测限的值表示在可检测量的范围内没有检出分析物。