元分析(-)

时间：2022-04-16 理论教育版权反馈

【摘要】：元分析(-)_传播学十年:阐释与建构元分析基本原理及设计虽然理论上的回顾和相关证据的详细评估已经出现,但迄今为止,尚未有人就涵化数据从整体上进行一个元分析。元分析纠正了传统的叙述文献回顾中的许多误区。在元分析中,每一个观察结果都被假定为来自意味着有代表性的“真实”效果的分布状态中的随机抽样。但是元分析所做远不止这些。

元分析(Meta-Analysis)

基本原理及设计

虽然理论上的回顾和相关证据的详细评估已经出现(Hawkins& Pingree, 1982; Ogles, 1987; Potter, 1993),但迄今为止,尚未有人就涵化数据从整体上进行一个元分析。赫雷特-斯克杰鲁(Herrett-Skjellum)和艾伦(Allen)(1996)最近完成了一项关于电视与性别角色感知的元分析,其中包括了一些和我们这里相同的有关元分析的研究。尽管他们不从涵化的视角解释他们的数据,但他们的结论——显示出一个小的确定效果——是与涵化相关联的。

或许元分析的最大理由就在于它剔除了我们在回顾中的主观色彩。那些回顾者基于学院派或政治因素的制约,将涵化研究描绘成另外一种方式。由于这些分歧,人们就会怀疑是否批评家们正在读着同样的研究。虽然我们不作如下假设,即一个诸多结果的纯粹整合会在某种意义上自动地提供关于效果的“真实”根据,但与先前的回顾性研究相比,我们的数据资料的确让我们用一个更加系统的方式来看待涵化。

元分析纠正了传统的叙述文献回顾中的许多误区。例如,当批评家将公布的有意义的结果的数字简单相加时,形成类型II的差错的风险是相当大的(Hunter& Schmidt,1990)。元分析能够使我们更加清楚这一研究,对那些不一致的结果,它可能会以另外的方式去解释。

在元分析中,每一个观察结果都被假定为来自意味着有代表性的“真实”效果的分布状态中的随机抽样。如此一来,样本量的调节就使得这种对真实效果的分析比任何单个的研究有了一个更好的估计。但是元分析所做远不止这些。累计的数据被检验,以便发现这一组关联是否是类似的、同质的(借用Mullen的术语, 1989),或用以观察跨越不同研究所得结论中有多少可见的变量反映了样本的误差(借用Hunter和Schmidt的说法,1990)。如果结果是庞杂不一的,或者假如在样本误差因素被排除掉或其他判断都尽可能考虑到之后依然遗留许多无法解释的变量,那么元分析家就可以推断出一个理论驾驭的相关变量的研究,而这些变量可能一直主导着那些看得见的效果。(在下文中,我们严格地在统计学意义上使用“效果”一词,而且,我们强调,涵化和那种所谓刺激——反应式因果关系的效果观念是两码事。)

研究摘选

我们将自1976年以来公开出版的广泛综合的涵化研究书目文献进行检索归纳以开始我们的研究。无论从文化指标计划或者诸如商务和多种与世界范围内关联的网页之类的在线数据库里,这些都是很方便得到的。进一步的计算机和参考书目搜索未发现新的、另外的引文。从超过300部的书目中,我们建构了一个这些研究的基本数据库:(a)测试电视收视量(不论测量方式)与被认为提供了电视答案的因变量之间的关联;(b)分类引证或批评作为结论解释的涵化理论。出于其他某些原因,一些适合这些标准的研究也不能包括进来。

一些高度支持涵化理论的研究被排除了,原因是这些研究没有将受访者作为分析单元。例如,摩根(1983)发现,因看电视而加深恐惧感的人群显示出较强的涵化迹象,而在另一项研究中,可以观察到一个跨越全美各地区的变化受冲蚀的主流化倾向(1986);罗思柴尔德(Rothschild)(1984)用同质性很高的贵族人群作为分析对象。其他研究涉及相关议题但没有提出能够编码的相关数据(e. g.,Reep和Drambot, 1989,考察观众对经选择提供的人物的评估在多大程度上是依据性别、某些特别播出的节目等等诸如此类)。

研究设计是另外一个因素。几乎所有的涵化研究都是以观察测量为基础的。存在着涵化关联的实验性测试或者可认识变量的实验性操纵,但这些都依赖短期现象,因而不能真实地测到涵化过程。

于是,我们仅将到目前为止最为共同的,纵览、概观类型的涵化研究纳入视野,而忽略了小规模的相关调查(一些例子,见Bryant等, 1981; Shapiro, 1991; Tan,1979; Wakshlag, Viol,& Tamborini, 1983; Zillman& Wakshlag, 1985)。

在一些案例中,理论上无法确定“电视答案”应该是什么。我们将所有研究尽可能地编码,以便产生一些与涵化理论有理由的关联,而没有滥用、轻信那些远离临界点的东西。自然,在一些案例中,这种判断可能有些侥幸;在总体上,我们尽最大可能地包容极端。然而,对于一些研究而言,明显不合理的涵化关联期望是能够推断出来的。例如,冈特(Gunter)和沃伯(Wober)(1983a)测试个人对于火灾、洪水、心脏病、突如其来的打击、车祸、食物中毒,等等诸如此类的风险感知,而波特(1986)考虑由事故、癌症、肺炎以及心脏病引发的死亡的百分比的测量。没有任何证据表明电视以任何方式代表着这些风险,依照它们是否符合涵化预期来将测试结果编码,这显然是不可能的。

只有正式出版的研究结果被包括进来,来自非公开出版的参考资料、论文和报告等类似数据被排除了。或许有人争论,说这样做偏袒了有“较大”结论的研究,而那些不重要的结果往往在一些领域不给出版;然而,在涵化的案例中,这看上去是极端不可能的,因为这些刊物没有流露任何意愿去发表主张驳斥涵化理论的论文。这也保证了我们的分析更加光明正大。我们获取了格伯纳及其同僚提交的许多非正式出版的报告(暴力素描流程报告,认证报告及其他)。这些报告包含着大量支持性数据,但我们无法将这些数据与任何可比较的未公开出版的来自其他渠道的数据在量上进行平衡,后者可能(或不可能)是相反的。于是,在常规意义上没有“出版”的数据未被包括进来。这也使数据的可重复性得以保证。

没有某项研究仅仅因为逻辑方法上的“欠缺”,或者因为电视收视这一自变量的测量方式而被取消。这个变量携带了许多变化的形式,包括收视时间的自我陈述(每天、每周、“昨天”,抑或一天中的不同时间),收视特定节目的频度和类型(在顺序级别上),看节目的数量,以及日记测量(参见Potter, 1994,关于多种手段被使用的讨论)。基于他们有关自变量的测量来排除某项研究是不恰当的,因为那种分歧本身就代表着涵化学说的一个重要部分。这样,我们将所有相关的可操作的收视情形都纳入视野,目的是在元分析中确定用不同方式测量电视收视是否有着不同的结果。

资料数据累积

在元分析中,单个的研究通常被看做一个分析单元,每一个独立的研究(或者独立的数据设置)得出一个单个的结果——也就是说,一个关于效果大小的单个评估——以此用于之后的元分析的一组积累起来的数据。当然,有许多研究提出了多种结果——例如,他们对一个建构可能用好几种测量方法——那就不总是独立的。在这些案例中,元分析倾向于选择一项结果去“代表”一个特别的研究或者去平均呈现出来的关联,以便元分析中的每一个材料都构成一个“独立的”测量。(对独立性假设的违背不影响效果大小的测量,但它确实影响效果的可观测的变化和由于样本误差造成的可预测的变化的测量; Hunter和Schmidt,1990,第480页。)

涵化研究提出了对一个极端事物出现多种结果的问题。这些涵化著作几乎从未报告过一个单个的“效果”(例如,一个F测验或者一个关联);通常是在一个单个的论文中去发现许多关联,或者非线性系数,或者ANOVA含义测验,或者类似的人或物。在我们的选择标准之下出现了82个已发表的研究,其中包括了总数达5 633的不同结果。如此高数目的多样化(并且是非独立的)结果是由3种因素导致的,而3个不同的解释被要求完成一个跨越各研究的意味深长的独立汇合。

首先,一些研究包含着因变量的多种测量。有些研究将一组变量组成表征某种情形的指数(例如, 3项关于“丑恶世界”的指数)。但有时候单个的项目被分解开来进行分析。当不同的因变量被用来测量一个单独的基本的尺度或因素时,结果被简单地平均了。虽然由于可靠性的减少,这个源于平均值变量的效果测量比从那些放在组合指标中的同样的变量所得效果要小(Hunter和Schmidt,1990,第456页),但这已经是疑问最少的一种情形了。

第二,许多研究提出了大量的偏向性关联,这些关联经常是第一位的;我们编码的5 633个结果中的几乎40%是有所偏向的。例如,在一些研究中,在收视量和一些因变量或指数之间的关联被提出是受如下因素控制的,即性别、教育、收入、年龄、其他媒介的使用以及更多因素——先是个别地然后是同时地起作用。这些显然不是独立的测试,但是平均这些因素并非解决问题的恰当方式。典型的元分析需要在无顺序影响的测量状态下去做;采用偏向性关联或次级系数是不可取的,因为那样一来效果大小的不同测量就没有可比性了(Hunter和Schmidt, 1990,第502页)。因此,我们不采集任何带有偏向的数据(或次级资料),而只是分析最简单的关联。

然而这样做又在涵化研究上提出了一个问题,即何处存在的有意义的关联是虚假的。通过为大量的非独立结果申明第3种缘由,这个问题部分地得以缓解。第3种缘由就是,涵化研究是如此经常地在变化的人群中被分开来进行分析。也就是说,可能性(跨越样本标签的)关联在男性和女性、年轻人和老年人等类似的情形中被非常典型地提了出来。这成为一个十分重要的手段,例如,在主流化的分析中即如此。但是由于这些受测试的群体是重叠的(例如,同样公众的计算人数要多于一个群体的计算人数),因此这些测验也是非独立的。它不能形成任何观念来平均所有这些分离的群体,因为如果那样的话,其结果将相当于把作为样本的整个数据当作一个整体。

因此,我们决定在实施涵化分析时,不仅从整个样本,而且从人口统计学上分成不同群体。在文献中受测试的大量人群中,我们化繁为简,只聚焦于3个关键性的人口统计学标记:性别、受教育程度和年龄(虽然我们的较大的数据库包含了其他一些人群的数据)。那就是说,在我们为整个作为一个整体的独立样本积累和分析数据之后,我们也根据男性和女性、受教育程度的高低以及那些不同年龄的受测群体等情况来进行分离开来的元分析。这些不是跨越人群的独立测试(例如,女性在整个受测人群中受教育程度较高),它们更显示人口学分类上的独立性(例如,男性对女性)。这虽然不是标准的元分析程序,但这种做法似乎更为恰当合理,它被赋予涵化数据资料应有的本性和检验人群变量所需的方式,这是不同于检验调节变量的一些方式。(当然,它不涉及多种还原控制的选项,后者是我们分离地进行的。)

进一步的精炼与限制

很显然,涵化研究提出了一个令人迷惑的广泛产生歧义的议题的有关数据的多样性,涵化研究运用大相径庭的研究方法,从许多独立的样本中得出大量矛盾、分歧的数据资料,使之服从于多种多样的统计资料程序,被报告的信息的类别上也缺乏一致性(如信度测量、标准偏差等)。一些研究报告结果来自好几个不同的数据库;一些报告引发了一个以上的种类不同的研究;并且一些数据库利用了在大量出版物中报告过的研究。所有这些意味着在能够进行元分析之前必须对研究结果进一步精炼、删繁就简。

对于某一项而言,涵化文献中没有单个的因变量;但一个广泛的局部领域的变化却被揭示出来了。因此,为将事物保持在其复杂的所以如此的层面,我们仅将涵化结果集中于3个领域:(a)暴力(包括恐惧和丑恶世界量表);(b)性别角色;(c)政治信仰和倾向。关于年龄、少数民族、宗教、职业、科学、健康、家庭以及其他主题象征的涵化研究有待他们自己的元分析。

对于那些已经报告的没有一个特定系数的结果我们不予编码。例如,作者在谈及效果时往往表述道:“数据显示,当变量Y被作为进一步的控制被提供时,表X没有相对地改变。”在类似的案例中,没有明确给出数据,也就没有作任何编码。我们也没有对那些被高度提炼但没有被明确提出的数据进行编码。例如,格伯纳及其同僚(1981a)、摩根(1984)、摩根和尚翰(1992b)都提交了总结几乎1 500个相关性的表格,但由于他们没有给出确切的系数,所以没有一项用于编码。

除了关联外,一些涵化研究运用ANOVA来检验跨越不同见解、不同媒介和各类重度收视者的因变量上的平均差别。将这些数据种类转换到一个相对应的r系数的公式确实存在,但遗憾的是这些已出版的研究很少包含从事上述工作所必需的信息(例如变化情况)。因此,基于跨越收视人群的平均差异的结果未被纳入。

涵化研究经常用gamma——在总数为5 633的整个结果中大约30%是gammas。这些与皮尔森关联在概念上是大致可以比较的,尽管它们基于普通数据;这样做也是由于一个关于gamma在某些计算方面的长处的讨论,参见尼尔森(Nelson)(1986)。广泛的研究和查阅没有提供有关如何将一个gamma转换成一个r的任何指南,于是我们通过一个修改了的Monte Carlo模型来开发我们自己的公式。我们将电视收视的rs和gammas二者与随机选择的100个变量一起计算,这些变量选自1994年NORC总体社会调查。Gamma和r呈高度相关(r=. 946)。我们计算了一个关于线性、非线性以及多元回归方程式的变异,在每一个案例中都呈现这个gamma,并且gamma单独地解释r中的90%以上的变化;对被解释的变化而言,没有其他的增加超过. 0014%的转换或变量。于是,我们运用这个已得的回归方程式(r=. 6024∗gamma—. 0032)去获取一个从gamma到r的近似却也令人满意的转换。

研究手段

在大多数元分析中,数据的收集手段不是最重要的,原因是从每项研究中收集的无关联的信息的比特只有极少数。然而,在我们的研究中,我们有一个企图,即希望收集到分类的信息。我们的手段因此变得相当广泛。和5633个研究结果中的的每一个相关的大多数信息我们都作了编码(虽然在这里我们主要聚焦于独立的、累积的数据)。

对于每一个研究,我们记录相关的识别性信息(作者、出版年代以及发表刊物),并且记下采集数据的日期(一些研究报告数据的收集历经多年)。然后,我们对每项研究中测量电视收视的情形予以编码。我们对资料收集方式也进行编码(通常是电话访问、调查表,或者个体访谈)。编码也可以是结论所要求的因变量、自变量以及受访人群(如果有的话)。

我们记录每一个研究结果的随机度和(或)样本量。数据报告中的自相矛盾迫使我们去评估这些情况。只要能作出合理的评估(从该研究的其他信息中),我们都尽可能去做了。在一些案例中,没有足够的信息去做这些评估。我们也记录了每一项研究结果的意义(虽然Hunter和Schmidt不认为意义是十分重要的, 1990),对意义的评估级别通常只是用结论表格中的星标来注明。

同样的,我们将样本来源的国家及样本的一般特性进行编码。例如,这使我们能够区别容易采集的大学生的样本和成人的国家概率样本,并且标明从资料中显现出的样本的理解程度和年龄段。

在积累数据期间,当我们从每一个纳入的研究中选取结果并且进一步浓缩数据库时,我们不断地互文以使数据登录的质量更为可信。因为解释涵化结果要求较高的类型化特性,所以对自主性过强的编码员不予采用。虽然在这一层面出现编码偏见的可能性很小,我们依然认为这样做有助于使人相信更为精确的数据设置。说明这一点是重要的,这与其说是数据编码操作,还不如说是一个改写、改编的过程。不仅如此,就像亨特(Hunter)和施密特(Schmidt)(1990)提醒我们的那样,“众所周知,元分析不制造误差”(第262页)。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈