什么叫样本含量

时间：2022-02-09 理论教育版权反馈

【摘要】：样本含量，就是在一项调查或实验研究中，被调查的人数或用于实验的动物数。有时称其为受试对象的个数或样本大小。一般来说，若从严格定义的总体中随机抽样，样本含量越大越好。若设π为该药对于该病的总体治愈率，由统计学知识可算出总体率π的95%置信区间为：44.4%≤π≤97.5%。事实上，共有54＝625个实验小组，每个小组的样本含量n≈1.6例。这个实验设计仍应属于样本含量很小的错误的实验设计。这就是通常所讲的样本含量估计问题。

样本含量，就是在一项调查或实验研究中，被调查的人数或用于实验的动物数。有时称其为受试对象的个数或样本大小。在一项具体的调查或实验研究中，究竟应该用多大的样本含量合适呢？一般来说，若从严格定义的总体中随机抽样，样本含量越大越好。但事实上，这样做是行不通的。因为样本越大，所需花在调查或实验上的精力、人力和物力都会很大，有时需要的时间很长。一旦人力和物力等不足，工作开展起来必然会粗枝大叶，数据的精确度必然很低，此时，样本含量越大，提供的错误信息就越多，劳民伤财，的确毫无价值；样本含量过小，也不妥当。因为人们研究的问题往往比较复杂，观测的指标常带有变异性。例如，同是正常人，有的人血压较高，有的人血压较低，统计学上就说血压这个定量指标具有变异性。要想反映带有变异性的指标（常称其为随机变量）的变化规律性，必须在相同的实验条件下进行多次独立的重复实验，才有可能使随机变量的规律性真实地显露出来。例如，用某种新药治疗某种疾病患者，治疗10人结果有8人治愈，我们能认为，该药对于该病的治愈率为80%吗？不能，绝对不能！因为在此项实验研究中，样本含量n＝10还是比较小的，80%这个结果可能不具有重现性和稳定性。若设π为该药对于该病的总体治愈率，由统计学知识可算出总体率π的95%置信区间为：44.4%≤π≤97.5%。也就是说，如果我们把同样的实验重复做100批，每批都治疗10名患者，在疗效居中的95批实验结果中，疗效最差时可低到44.4%，疗效最好时可高到97.5%。若用该药治疗该病患者1万人结果有8 000人治愈，此时，我们又能得出什么样的结论呢？由统计学知识可算出总体率π的95%置信区间为：79.2%≤π≤80.8%。也就是说，如果我们把同样的实验重复做100批，每批都治疗1万名患者，在疗效居中的95批实验结果中，疗效最差时也可达到79.2%，疗效最好时也仅为80.8%。于是，我们可以很有信心地说：该药对该病的治愈率为80.0%。这个例子告诉人们，样本含量很小时，依据其实验结果是很难得出明确结论的；而当样本含量很大时，所得的结果就非常稳定，具有很好的重现性。

样本含量通常需要区分，是整个实验研究中的样本含量，还是实验研究中某特定小组中的样本含量。例如，现有3种手术方法需要比较，各手术组均有20名患者，整个实验中含有样本含量N＝60，而各小组的样本含量均为n＝20。在多因素实验研究中，千万不要仅看N的数值，而应着重考察各组的n数值。再比如，在某项实验研究中，所用的样本含量已达N＝1 000例，初看起来，样本含量已相当大了。但仔细一看，发现实验中共涉及4个5水平因素，研究者考虑问题还十分“周到”，即考察的实验条件为全部因素的所有水平组合。事实上，共有54＝625个实验小组，每个小组的样本含量n≈1.6例。这个实验设计仍应属于样本含量很小的错误的实验设计。

总而言之，要想使实验结果达到一定的精确度，又不浪费人力、物力和时间，需要根据具体情况、基本信息和精确度要求，估计所需的各小组的最小样本含量。这就是通常所讲的样本含量估计问题。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈