多模态话语

时间：2023-10-24 理论教育版权反馈

【摘要】：本节介绍模态与多模态的概念，然后总结多模态话语（或语篇）分析的主要研究理论与方法，最后介绍多模态语篇的语料标注方法。多模态话语分析领域的不同流派对模态的解释也各不相同。按照这一观点，语言就是一种较高一级的符号系统，通过书面与口头两个子模态来实现意义。多模态指的是“同一符号性话语产品或事件中使用了多种符号模态”或同一语篇中存在多种模态符号。

本节介绍模态与多模态的概念，然后总结多模态话语（或语篇）分析的主要研究理论与方法，最后介绍多模态语篇的语料标注方法。

2.1.1 模态与多模态

模态（modality）是基于模式（mode）发展起来的概念，它在不同的领域中有不同的界定，很容易导致误解。极易与之混淆的概念是情态（modality）[1]，即语言学传统意义上的“附着在语言上的语义范畴”（Bybee&Fleischman，1995：2，cf van Leeuwen， 2005：160），指的是在话语命题的中性意义（事实型或陈述型）上增加的附加意义，包括祈使、意愿、目的、假设、必然、怀疑、感叹、劝告、可能等（Bybee&Fleischman，1995：2）。一般来说，有两种情态，分别是义务性情态（deontic modality）与认知性情态（epistemic modality），前者指实施者实现某行为的可能性与必然性，而后者涉及话语命题真值的可能性与必然性。情态可以通过一种或多种手段实现，比如语符（morphology）、词汇、句法或音调。近年来，对情态的表达与识别，研究者的观点与视角各不相同，详见Bybee与Fleischman（1995：5-6）。本课题所说的“模态”是表意符号系统（Kress， 2009：Kress&van Leeuwen，2006）。

在多模态话语分析领域，学者们对“模态”的理解也各不相同。Forceville（2008、2009）从认知角度出发，按照感知方式把模态区分为与五种感官相对应的系统，分别是听觉模态、视觉模态、感觉模态、触觉模态与味觉模态。但是，这种区分过于笼统，“忽略了同一模态下不同表意系统之间的差异”（Gibbons，2012：9）。比如，视觉模态既包括图画系统，也包括书面文字系统，在认知视角的概念下两者的差异无法得以凸显。顾曰国（2013、2015、2016）也把模态与感官系统联系起来讨论，认为模态与语言学习有密切的联系。

多模态话语分析领域的不同流派对模态的解释也各不相同。在互动交际分析框架（见Norris，2004；Scollon&Scollon，2001）中，研究者感兴趣的是人们如何在交际中使用各种资源表达意义，发现人的姿势也可能成为一种模态。在这里，如何界定模态并非那么关键。Norris（2004：84）指出，模态是交际的一种媒介方法（mediational means）或文化工具，同一模态在不同的交际中可起到不同的表意作用，而同一交际中所使用到的多种模态按其作用大小可以分为不同层次，比如说，根据交际者对模态的不同注意程度，可将模态分为高、中、低三类。在系统功能语言学的话语分析视角（O'Halloran，2004）下，人们从符号资源能否构成一个相对完整的体系这一点来考量模态。符号资源是实现不同社会功能的意义系统，而意义的生成即在不同符号资源中进行选择并对之进行有效的组合（Jewitt，2009：21 22）。可以说，在话语分析视角下，意义的形成本身就是多模态语篇现象（a multimodal phenomenon）。按照这一观点，语言就是一种较高一级的符号系统，通过书面与口头两个子模态来实现意义。在社会符号学视角下，人们从表达意义的载体的文化与物质属性来考察模态，模态是“在特定的语境下，在长期的人际交往中形成的”（Kress，2009：54-67）。Kress（2009）指出，要从两个方面考察某一模态的存在。第一，模态具有社会性。人们是否习惯性地经常用到这一模态的资源？第二，模态具有功能性。该模态是否同时具有概念、人际与语篇三个交际功能？任何表意系统都有可能成为模态。基于此，Page（2009：6）以折中的语气提出，“多模态话语分析中的模态是符号性的，是人们进行意义交流并加以选择的系统。作为一个开放性的概念，它包括但不限于语言、图像、颜色、排版、音乐、音质、手势、空间等资源。”这一论断使得模态的概念具有了足够的张力，可以因地制宜地囊括多种动态交际。在具体的言语交际语境中，可以围绕“何时、何地、何模态在何种程度上成为主体表意手段”（Page，2009：6）这一问题展开讨论。

以上几种对模态的界定各有侧重。Forceville（2009）是从意义接受者的感知角度来讨论模态[2]，而Kress（2009）等把模态看作独立的客体，从符号性与社会性来讨论模态的意义，话语分析视角（O'Halloran，2004）则从使用者的角度，认为模态即意义选择的过程。Page（2009）则以点睛之笔，勾勒出模态的动态性与开放性特点。可以说，综合以上不同视角来讨论模态，将会更有利于我们接近其本质。

我们认为模态是社会生活中约定形成的表意符号系统，具有韩礼德所说的三大元功能（Kress，2009），其具体的功能与形式依据语境而定，因此具有开放性与动态性。物质材料或文化特征等都有可能逐渐具有特定的符号性，构成比较稳定的表意系统。同时，也可以按意义接受者在交际中所调用或使用的生理认知功能来对模态进行分类。

多模态指的是“同一符号性话语产品或事件中使用了多种符号模态”（Kress&van Leeuwen，2006：20）或同一语篇中存在多种模态符号。实际生活中，交际语篇往往是多模态的（Matthiessen，2007；Wacewicz&Zywiczynski，2017）。多模态语篇的研究并不会弱化语言符号系统在交际中的作用，反而为人们更好地了解语言与交际的本质提供了不同的视角。

多模态的分类方法各有不同。按照文本中涉及的模态的种类，可将模态分为单模态与多模态；按照模态的动静特点，可以分为静态模态与动态模态，前者如图片或文字，后者如视频文本；以语言系统为参照，可以将模态分为语言模态与非语言模态；按照符号与意义的对应关系，可以分为符号意义简单模态（如红、绿灯构成的模态）与符号语法意义这类比较复杂、系统的模态（如语言模态、图像模态等）。也可根据具体的交际场景，将模态分为不同层次，如张德禄（2015）将外语教学环境下的多模态交际分为语言模态、非语言模态，而非语言模态再分为以头部为主的模态（如表情、眼神等）、以上肢为主的模态（如手势）、以身体躯干为主的模态（如姿势）以及工具与环境模态。

2.1.2 多模态话语分析的理论与方法

目前，在多模态语篇研究中取得系列研究发现或成就的主要有五个理论或流派，分别是系统功能语言学的多模态话语分析、社会符号学、互动交际、认知语言学与语料库语言学，其中，前两个流派的研究方法在现有多模态研究中使用得比较多（冯德正、Low，2015）。此外，人类学、精神分析等其他理论也对多模态语篇进行过不同程度的探讨分析（van Leeuwen&Jewitt，2001）。

2.1.2.1 系统功能语言学的多模态话语分析

研究者主要采用韩礼德的系统功能语言学方法分析艺术、绘画、雕塑、建筑等多模态语篇，成果颇丰，主要代表性论著有《造型艺术的语言》（The Language of the Displayed Art）（O'Toole，1994）、《多模态话语分析：系统功能视角》（Multimodal Discourse Analysis:Systemic Functional Perspective）（O'Halloran，2004）、《叙述中的世界与显示的世界：多模态议题》（The World Told and the World Shown:Multimodal Issues）（Ventola&Guijarro，2009）等。他们主要运用系统功能语言学的阶分析（rankanalysis）与层级结构（stratum）方法，把各类多模态艺术作品逐阶分为较小的分析单位，并从概念功能、人际功能与语篇功能上微观地讨论这些单位的不同意义。此分析方法为艺术鉴赏者详细地描写自己对艺术作品的感受与认知提供了可行的操作框架，但是其主要缺陷在于把语言学概念与框架过度泛化，使得语言学理论成为一切符号研究的母理论，给人以“语言帝国主义”或“语言中心主义”的印象，不利于人们深入理解符号系统的个性特征（见Gibbons，2012：13；Kress&van Leeuwen， 2006）。

尽管系统功能语言学领域的多模态话语分析方法不可避免地存在某些不足，但瑕不掩瑜，它对多模态话语分析的贡献非常大。此分析方法的系统性为我们描写并阐释多模态语篇的结构与功能提供了很好的工具与坐标，同时，其独特的理论观点，即“语言具有社会符号性”与“语言的多模态性”，对人们深入理解多模态语篇的本质具有重大指引作用。Matthiessen（2007）从意义的理论体系与语篇发生（logogenesis）两个方面论证了语言具有多模态性这一本质，为多模态语篇发展成为独立的研究领域与课题提供了合法性解释，也为多模态话语分析的具体操作方法提供了依据。

“语言本身具有多模态性”这一论断（Matthiessen，2007）直接证明了语言与其他模态在表意上具有同质性地位。讨论语言系统的时候，系统功能语言学沿袭叶尔姆斯列夫（Hjelmslev，1943／1953）、费斯（Firth，1957）等的层级分析法，将语言分为语境层面（context plane）、表达层面（expression plane）与内容层面（content plane）[3]，表达层面居于内容层面之下；以此层级为参照，在考察语言系统的时候，如果从内容这一层推演表达层的结构，称为“自上而下”法，相反，如果从表达层出发去分析内容层的话，称为“自下而上”法（Thompson&Hunston，2006）。以自上而下的视角，立足于语境（内容层之上的一层）的实现方式来看，位于表达层面的诸多符号体系（或模态系统）之间具有近乎相同的地位，都具有表达意义的潜势，而且它们相互补充，共同创造、表达或实现文化意义，体现出更多的本质相似性——符号性；以“自下而上”的视角，从表达层面的形式结构出发讨论意义，则不同模态分属于不同的领域，体现出更多的差异性。如果将语境层面、内容层面与表达层面从上到下连成一线的话，越往上看，各模态之间的差别越来越小，它们在表意上的互补性越来越明显。Matthiessen（2007）指出在内容（意义）这一层面上诸多模态系统逐步地有机融合，共同表达语境语义（见图2．1）。

图2．1 多模态在表达层面与内容层面上的差异

（资料来源Matthiessen，2007：3）

正是基于这一理论前提，我们认为借用语言理论的某些思路或方法去研究多模态警示语语篇，是具有可行性的，“鉴于符号系统本质上具有多模态性，语言的符号系统便成为观察多模态特点的一个起点，这一点在语境中也同样可行……”（Matthiessen， 2007：4）。

多模态是语言系统的内在特征之一（Matthiessen，2007），人类早期的原语言（protolanguage）本身就具有多模态性。考察世界各地不同语言的起源情况，可以发现早期的原语言都是口语形式，综合使用姿势、面部表情、目光与发音（vocalization）等表意资源（位于表达层面），系统性地实现内容层面上的微观意义潜势（包括调节性、工具性、人际性与互动性）（Matthiessen，2007）。通常来说，某一模态极有可能与某一特定意义联系在一起，比如体现动作性或动态性的意义通常由动态的模态来实现。在原语言向较为成熟的语言阶段发展进化的过程中，语言的多模态性得以保存与拓展，逐渐在语言和其他符号模态之间形成更加广泛的对应性联系，姿势与面部表情形成了表达层面的“体势语”（body language）模态的部分资源，发音（vocalization）仍然是表达层面的一个模态，但此模态资源的部分组成要素，包括音色（tamber）、速度（tempo）、音量（loudness）逐渐转化为所谓的“副语言”（paralanguage）。显而易见，语言模态与体势语模态之间的界限是比较模糊的，因为在特定语境下在意义生成的过程中，语言总是会与体势语、副语言融合在一起。典型的例证是，在表达“感叹”这一意义的时候，人们总是用明显的声调将语言的感叹意义明示化，或适度配以相应的表情与手势。在语言的后期进化过程中，体势语与副语言逐渐演化为独立的模态，但这并不意味着语言就退化为单模态了，相反，它依然“保持了多模态潜势”。盲人所使用的手语（sign language）可以充分证明这一点，另外，口语中的发音特征（vocalization）仍然是多模态的，包含了音（articulation）与韵（prosody）两种子模态。

原语言的书面语也具有多模态性，因为世界上所有的文字都起源于图画性的象形文字。在文字发展的过程中，图形文字与外在世界具有很大的相似性，但随着认知系统（尤其是抽象推理能力）的介入，这种相似性变得越来越小（Matthiessen，2007）。象形文字中的图像部分逐渐转化为文字的笔画或语相（graphology）。在象形文字阶段，图像与它的所指（外在世界）之间的关系是“自然的”，而当象形文字进化为现代文字后，文字与意义之间的关系就变成了“常规的”（Matthiessen，2007：9）。Halliday（1991）指出，文字与口头语言之间存在功能上的互补性，也就是说，在实现意义的过程中两者有不同的语域占位。一般来说，使用文字的语境总是与古代使用图像文字的场合联系在一起。口头语言通常更有“交际功能”，而书面文字更趋向于“档案记录功能”。最初的书写（writing）就是“非命题”（或非小句）的，如记账用的物品名称或人名，非命题的意义通常是用图画文字来指示的（Halliday，1991）。总之，在原语言进化的过程中，口头语与体势语、副语言保持着紧密的联系，同理，书面文字与图像文字之间也存在着密切的联系。在现存的许多古工艺品上面，书面文字与图像往往混成一体，构成一个语篇整体。

Matthiessen（2007）指出语言含有三种次级表达系统（分别是语音系统、文字记录系统与符号系统）。文字记录系统与符号系统通常以视觉方式显示，实现那些相对静态或持久的体势语意义，最初被刻录在可长久保存的物质载体上；语音系统是听觉的，语音与音调实现可听到或看到的较短暂的体势语意义。语言表达层面上的诸多模态与其他非语言符号系统一起发展进化。

如何解释诸多模态在表意中产生不同的分工？Matthiessen（2007）尝试用情态（modality）、表达媒介（media of expression）、表达模式（mode of expression）与意义模式（mode of meaning）之间的关系进行解释。语言的多模态性只停留在语言的表达层面，其中共有三个表达系统，分别是语相（graphology）、语音（intonation）与符号（sign）。根据功能语言学的实证研究与理论探讨，在内容层面，书面语与口语之间存在的“模态”差异只不过是语域的差异，也就是说，两者的差别是由于语境的不同而形成形式迥异的实例化（instantiation）方式。当然，书面语与口语在体现词汇句法与语义表达的方式上存在一些偏差，尤其在体现人际意义的基调（Key）与语篇信息功能时，但是这些功能完全可以在口语与书面语的词汇句法层面由具体模态来实现。对于其他表意系统来说，类似于口语与书面语之间的这种差别，大致都概率性地与实现过程中的语域或语境相对应。换言之，最初的原语言的确具有把意义模式与相应的表达模式相对应的趋向，但是这种简单对应并非语言内在的特征。

经验性表达模式是结构性的，人际性表达模式是韵律性的，语篇表达模式是波状的，逻辑性表达模式是链条状的。表达模式由表达媒介（诸如序列、片段与语调）来体现。这些表达媒介随着表达情态的变化而变化，并与后者存在一定的对照关系。口语中，表达媒介包括片段（segment）（由发音序列［articulatory sequence］实现）、序列（sequence）（由时间长度［temporal unfolding］实现）与语调（intonation）（由音调活动［pitch movement］实现），书面语中，表达媒介包括片段（由书写顺序［graphemic sequence］形成）与序列（从上到下或从左到右展开的书写［graphological unfolding］实现）。在书面语中，语调是缺位的，但是字号风格可以实现类似的动能，尽管其在系统性上稍微欠缺一些（Matthiessen，2007：13）。

以上分析说明一点，语言的表述媒介是表达模式的载体，表达模式包含不同的表达媒介。有两个特点值得注意：第一，载体可能有不同的形式，三个媒介虽然常互补性地实现系统的功能，比如语调既实现信息功能也实现主题功能，但它们仍然有可能具有其他功能；第二，在同一或相同的元功能表达模式中，表达媒介存在变异性。比如，语篇的波形功能可以由序列、语调或片段来实现。这种特点存在于同一种语言内，由此推断它也存在于不同语言之间。推而广之，作为抽象组织的表达模式可由不同的表达媒介实现，究竟由哪种表达媒介来实现，最终取决于特定符号系统的模态。在口语系统中，韵律与波形通常由语调实现，但在图画系统中，韵律可由颜色来实现，体现为语调或色调（hue）（Matthiessen，2007：14）。

必须指出，语言系统与其他系统在表达媒介的选择上存在差异，主要与其表意过程中所遵从的规约性程度有关。在语言体系中，语调、序列与它们所体现的意义之间存在着自然的关系，但是片段与它所实现的意义之间的关系则是规约性的。相反，在图像系统中，表达媒介与它们所实现的意义之间存在自然关系，主要因为其内容层面的阶与表达层面的阶是一致的（Matthiessen，2007：20）。

Matthiessen（2007：21）指出，把语言系统“移植”或“翻译”到其他符号系统，具有潜在可能性：在语言资源中，我们充分利用语言隐喻（诸如波、韵律与结构）来建构位于语言系统内容层面的意义。也就是说，概念性功能使我们有了构筑表达模式与表达媒介的方法，用这种方法，非语言符号系统（比如素描、绘画、动画、雕塑或音乐）使我们可以用多种具体手段来表达内容层面的意义。因此，其他符号系统均可用来将抽象的语义做“具体化”（concretize）的体现。抽象的时空这一语义内涵可以用语言符号来描写，就是一个典型的例证。认知语言学研究发现，语言词汇在实现“时间的变化”意义时，通常在垂直方向上被具象化为向上或向下的过程或动作。这足以证明不同符号系统之间可以进行“转化”或“翻译”。

在论证语言系统本身就具有多模态性之外，包括马丁在内的功能语言学的研究者们，不断完善系统功能语言学在具体的多模态话语分析过程中的可操作性问题（Martin，2009，2011），并在数学（O'Halloran，2005）、建筑领域（O'Halloran，2004）、体势语（Jaworski and Thurlow，2009）与其他众多领域（Bowcher，2012）展开了很多实证研究，取得了丰硕的成果，如《叙事与多模态研究新视野》（New Perspectives to Narrative and Multimodality）（Page，2009）、《多模态话语研究的新途径》（New Directions in the Analysisof Multimodal Discourse）（Royce&Bowcher，2007）与《多样化的多模态语篇》（Multimodal Texts from Around the World）（Bowcher，2012）。系统功能语言学的多模态话语分析方法目前正处在蓬勃发展的上升期。

2.1.2.2 社会符号学

运用社会符号学方法对多模态话语进行分析的代表作是《视觉语法》（Kress&van Leeuwen，2006）。在这一论著中，两位研究者在巴尔特、皮尔斯等符号学理论的基础上，结合系统功能语言学的元功能与分析方法（如及物性系统、信息系统与人际系统等），对一系列视觉文本，包括儿童绘画草图、艺术品、油画、广告等，进行了深入系统的分析，向人们揭示了多模态文本中的语法规则，以此昭示了对多模态文本的符号意义进行系统描述具有一定的现实性，为跨学科研究开辟了新的领地（李战子，2003）。

在方法论上，他们的研究难免受到学界的批评，主要问题是他们“坚持”将语言系统的规则运用到图画文本系统中，而有些学者认为“并不能将系统功能语言学的概念与结构，比如语法，充分地移植于解释图像系统”（Gibbons，2012：14）。被广为诟病的部分是语篇的信息结构，Kress和van Leeuwen（2006）将语言学信息结构的分布规律（左侧的为旧信息，右侧为新信息）直接移植到对图画文本系统的信息结构的描述中，但图画文本的线性解读顺序并不一定是约定俗成的唯一解读方式。到目前为止，所有的质疑大致集中在三个方面：第一，将语言与图像文本视作同类文本，并对其按相同的结构分析处理；第二，对图像的分析方法没有提供实证分析的佐证；第三，在多模态文本中，分析重点主要集中在图像因素上，对图文之间存在的语义关系没有给予足够深入的探讨（Gibbons，2012：15）。

对此，Kress和van Leeuwen（2006）解释说，“在语言的序列性信息结构与图像的横向组合之间具有比较大的相似性，证明了信息排列上确实存在更加抽象的编码原则（coding orientation），从而使得不同的符号模态在表达上出现了差异。”可喜的是， Matthiessen（2007）的“语言多模态性”的论说从一定程度上对此进行了理论阐释：在信息系统的表达媒介的选择与实现方式上，图画与语言文字之间存在差异。

瑕不掩瑜。尽管《视觉语法》（Kress&van Leeuwen，2006）屡遭质疑，但是此书开辟了语篇分析中的新领地与研究方向，对推动多模态语篇分析向前发展，确实功不可没。在随后的论著中，如在《多模态话语》（Kress&van Leeuwen，2001）与《多模态：当代交际的社会符号观》（Kress，2010）中，Kress与van Leeuwen对多模态话语分析的社会符号学方法进行了系统的范畴化，提出他们对多模态话语的基本观点，“不同模态内部与相互之间存在共同的符号原理”（Kress&van Leeuwen，2001：2），这一观点显然比Kress和Leeuwen（1996／2006）的观点更近了一层。他们指出，多模态语篇的生成实践有四个不同的领域，分别是语篇（discourse）、设计（design）（表达的概念层面，包括符号模式）、生产（语篇实际使用的材料）与发布（产品送到终端读者的方式），这在课堂话语、服饰、声音与音乐、儿童速描等不同场景或者路标、厨具等一系列具有广泛社会性的产品中均有体现（参见张德禄，2009，韦琴红，2009等）。这些研究大大拓宽了多模态话语分析的研究领域，拓展了研究视野，把多模态文本的生产过程与技术方面拉入到分析者的考量范围中。

社会符号学所关注的主要议题是特定社会语境或社区中人们使用模态资源的规律，重点关注符号使用者的信息与他们在具体语境下对模态资源的使用与选择，认为符号使用过程就是社会实践过程，人们在特定场景下如何从可用的资源中选择某些资源，与语言和社会语境之间存在着必然联系，为此，Kress（2009）特别提出“有动因的符号”（motivated sign）这一术语（Jewitt，2009：30）。社会语境或文化决定了意义生成的过程，也决定了人们如何选择与设计意义。为此，他们不仅广泛借鉴互动语言学（比如Goffman，1981；Bateman，2008），也借鉴非语言学领域的观点，比如电影理论、艺术理论等，甚至包括社会学家，如福柯和伯恩斯坦的观点。如果说系统功能语言学的多模态话语分析比较微观的话，社会符号学的多模态话语分析则更加宏观，更强调文本的社会政治语境，可以说这与社会符号学（Hodge&Kress，2012）对语篇的观点是一脉相承的。

2.1.2.3 互动分析

从互动分析角度（如Norris，2004；Jones，2005等）对多模态语篇进行分析主要依赖于互动社会语言学（Goffman，1981；Gumperz，1982等）、跨文化交际（Scollon&Scollon，2001）与多模态符号学（Kress&van Leeuwen，1996／2006）的相关研究。在论著《空间中的语篇》（Discoursein Space）（Scollon&Scollon，2003）中，语言的物理与材料属性均可有效地表达意义，这大大拓宽了表意资源的范围。“我们试图理解与描述特定交际中正在发生的（意义），分析特定语境中人们表达什么或应对什么，在交际中共同建构什么意义。”（Norris，2004：4）互动分析流派关注具体语境与特定情境中人们如何进行互动性的交际，尤其是社会行为人（social actors）如何使用或通过多模态媒介手段（multimodal mediational means）动态地进行意义建构，以及模态是如何被带入交际从而帮助人们构建社会交往、角色与人际关系。在这里，最值得关注的概念是交际场（habitus）与体验（embodiment）。

在互动分析视域中，“多模态”的核心实现了转移与拓展，从实现言语行为的交际表达手段这一相对稳定的、独立的实体，延伸为动态出现的、较为不确定却更开放的实体——交往中任何可用于动态表意的资源，如手势、目光、姿态、动作、空间与物体等。这一变化带来的结果是：模态是在交往与行动中出现并即时在线建构的，离开了交往就没有模态系统，因此模态系统不再是关注的基本重点；符号使用者与语境密不可分，脱离了社会语境单纯谈论模态资源的潜势与限制，没有任何实质性意义。

Norris（2004）指出，在具体分析多模态交际的时候，可以区分交际人所使用的模态的多寡（称为模态浓度modal density）、共现的社会行为的层次（分别是高层次high-level、中层次middel-level与低层次low-level）与行为人的注意力大小（levelsof attention）。

系统功能语言学的多模态话语分析对语言系统的选择比较关注，而对语言使用者的关注比较低。相反，在社会符号学与互动分析框架中，比较重视对行为人的分析；互动分析对语言的系统性不太关注，而对交际场景中的意义的动态生成过程更为关注（Jewitt，2009：36）。

2.1.2.4 认知语言学视角

隐喻不仅仅是一种修辞手段，更是人类普遍使用的认知方式（Lakoff&Johnson， 1999）。长久以来，作为探究人类认知方式的主要工具，语言隐喻一直是认知语言学的研究对象，直到最近，随着科技的发展与电子化传媒工具的普及，多媒体与多模态广泛出现在交际中（顾曰国，2007），非语言隐喻才逐渐发展成为隐喻研究的新话题。多模态隐喻的发展历史印证了一个千古不变的规律：任何新事物的发展都源于对旧事物的批判性评价和对事物本质的追问。

把语言隐喻视作探讨隐喻本质的“唯一”手段，具有以下缺陷。第一，自我循环论证。认知语言学试图把语言看作解开大脑奥秘的工具，反过来又从体验或大脑的工作机制来阐释语言结构。破解缺陷的方法在于全面系统地考察隐喻的形式（包括语言与非语言）或各种（广义上的）语言的组织规律。第二，过于关注语言隐喻容易一叶障目，使研究者无法窥探隐喻的本质（Forceville，2009：21）。将单模态隐喻与多模态隐喻一起纳入认知研究的视野，将有望克服以上缺陷。Forceville（2009）等积极研究各种体裁（比如广告、政治、教学材料等）中非语言隐喻的形式与功能，使得多模态隐喻逐渐进入隐喻研究的正堂。

认知语言学在多模态研究的许多问题上尚没有形成定论。首先，对模态的界定比较模糊，“模态（mode）是基于感知的符号阐释系统，一般对应于人的五种感官系统……但是这一分类显然非常粗糙宽泛……在确定模态的时候，仍然需要考察语篇的生产方式，另外模态的确定与文化也有紧密的联系。”（Forceville，2009：22 23）而顾曰国（2016）则认为认知意义上的模态不一定与五官相对应，有更广的意义。“单模态隐喻”指的是源域与目标域都在同一个模态的隐喻，而“多模态隐喻”则是目标域与源域分别在不同模态的隐喻（Forceville，2009：23 24）。其次，多模态隐喻的使用是语篇使用者的有意识的表意活动。最早出现的单模态隐喻分析来自广告语篇（Kennedy，1982），视觉隐喻的出现并非修辞错误，而是语篇使用者在表达中有意违背规则造成的对规则的“背离”。再次，关于隐喻的源域与目标域之间是否存在可逆性，不少学者各持己见，争论不休。对此，Forceville（2009）持否定态度。最后，多模态隐喻的阐释过程与分类情况比较复杂。Forceville（2009）认为视觉隐喻或多模态隐喻中存在多重隐喻与投射现象，提出非语言隐喻的识别仍然可以用认知关联理论来解释。一般用非描摹性的形式标记，如气泡、线条等，来标记隐喻（Kennedy，1992）。在研究电影中的隐喻时， Whittock（1990）发现视觉转喻是视觉隐喻中的重要现象之一，据此提出对视觉隐喻可以进行更细小的划分。

当前，对多模态隐喻进行实证分析达成的普遍认识是：多模态隐喻的研究对于理解语言与思维的本质具有内在战略性意义；隐喻的两个域之间在特征上的相似性既包括感知上的相似，也包括超常规、跨语境的相似；多模态隐喻在不同域之间的概念投射既有基本投射，也有复杂投射；而多模态隐喻的解读与使用与文本体裁、社会习俗等存在密切的联系（Forceville，2009：33；Ning，2009；赵秀风、冯德正，2017；冯德正， 2011）。更为重要的是，大部分学者认为，多模态隐喻与语言隐喻之间存在的共性大于其差异性（Yus，2009）。如果事实如此，这对于我们更加深刻地理解语言的本质将有重要意义。

尽管目前对多模态隐喻的分析还处于探索阶段，但是语言学的概念隐喻理论对于解释不同体裁中多模态隐喻的表达规律，以及探讨人们如何用各种隐喻开展认知活动，具有重要的启发意义。同理，借助隐喻理论讨论多模态警示语，将拓宽警示语研究的思路。

2.1.2.5 语料库语言学

用“语料库语言学的方法”研究多模态语篇（Jones，2012），以解决多模态话语分析的“实证性”问题（Gibbons，2012），为多模态话语分析提供了新的分析方法。Bateman （2008）的“体裁与多模态模型”（Ge MModel）主要界定了分析多模态文档的几个描写层面（layers of description），分别是基（base）、架（layout）、辞（rhetoric）与裁（genre），基（base）指的是基本构成成分，架（layout）指的是图像如何构成，辞（rhetoric）指的是基本构成成分与交际意义之间的关系，裁（genre）指的是对文本进行分类的语义特征（Bateman，2008：108）。Bateman（2008）非常强调受众对多模态文本的接受情况，区分了四个不同阶段，分别是阐释、视觉感知、实证性的加工过程与文本的生产。

虽然此方法确实为多模态文本分析提供了一个确实可行的分析路径，但是它与受众实际处理文本的过程却并不一定相符，越来越多的认知语言研究或神经科学研究证明，人们是用比较综合的方法对符号进行脑力加工的，也就是说这一方法没能反映出人们对多模态文本进行加工的复杂性。另外，到目前为止，此理论仍然以纸媒时代常用的静态文本为主要研究对象，尚未辐射到动态、立体的多模态语篇，比如雕塑或网页超文本（Gibbons，2012：19）。尽管如此，采用语料库方法对多模态文本进行研究仍然是未来的趋势（冯德正、Low，2015）。

2.1.2.6 其他研究方法

以上五种多模态语篇分析视角是目前出现的相对比较稳定、系统的分析方法，如果把其他学科或领域，如内容分析、视觉人类学分析、视觉文化研究、心理分析学、民族方法学（ethnomethology），对多模态文本的相关分析与探讨都囊括进来，则多模态文本的研究方法真可谓多种多样（van Leeuwen&Jewitt，2001）。诚然，这些研究并不以多模态为其研究目的，而仅仅以多模态文本为其研究工具，但这些研究也为多模态语篇的分析提供了一种方法上的参考。

内容分析（Bell，2001）采用一些“可靠、定义清楚的范畴”（比如独立变量的“值”）对音频视频（包括话语）的某些表征进行量化研究，探讨基于多模态文本的描述性量化研究方法与步骤。比如，若比较某杂志在视觉文本中对男性与女性的性别塑造有何差异，就需要对视觉文本中的性别（自变量）与因变量（比如，男性与女性的衣着的颜色，或男女所处的社会语境）之间的关系做出定量分析。当然，这样的视觉内容分析主要用于检测我们对视觉文本认知的某个假设，并没把对视觉文本本身的意义解读作为研究目标。

视觉人类学（visual anthropology）研究者主要采用视觉文本来记录或分析特定社团中人们的生活状况，其主要目的是从视觉文本中找出“规律与意义”（Collier，2001：35），对他们来说，提取视觉文本的语境尤为关键。为了较真切地通过文本（纪录片或照片）了解特定阶段人们的生活，在采集视觉文本的时候需要保留必要的文本语境信息，包括时间、地点、人物背景等，以便后期进行深度的信息采集与语料分析。同理，在收集受试者对视觉文本的解读信息时，既要注意文本信息的排列顺序对受试者的影响（不同的文本排列意味着不同的意义），又要注意他们对视觉文本的反馈存在区域、语言等方面的差异。比如，对于同样的视觉图片文本，Navojo与Pueblo两个社区的受试者倾向于先对图片文本进行详细的描述，然后再对图片给出反馈性评价或不给评价，而Anglo社区的人则倾向于直接对图片给出反馈性解读，不提供任何详细的文本解读（Collier，2001：35）。当然，在对文本进行解读的时候，需要适当发挥研究者集体的智慧，以便能对图片或基于图片的交际意义进行多样化的阐释。

视觉文化研究从文化的角度挖掘视觉文本的信息、意义、传播与消费中存在的社会文化问题，指出视觉文本中普遍存在其他学科中已经揭示出的文化问题，比如媒体对贫穷国家的多模态描述中仍然存在欧洲中心论的偏见（Lister&Wells，2001）。

心理分析研究中也常把多模态图片文本看作人们内心想法的外在无意识表征，充分发挥图片文本的表达与交际功能，洞见受试者内心对自我身份的认识与建构（Diem-Wille，2001；陈新仁，2014）。当然，把图片文本作为精神分析的材料与证据时，应对受试者进行当面采访以获取其亲身的体验或反馈数据，从而结合所有信息进行分析，否则会以偏概全。

民族方法学传统下的话语分析更强调特定话语实践发生过程中非语言交际（如手势语、目光）与图像（如路标、地图等）所起的作用（Goodwin，2001）。不同的人对会话中的同一视觉图像文本可能有不同的解读，导致人们对当前发生的话语有不同的结论。在这方面，最典型的研究是Goodwin（2001）对一桩刑事诉讼案件中肢体动作的符号意义的分析。在美国著名的刑事诉讼案件罗德尼·金（Rodney King）诉洛杉矶警署（1992）案中，一名非洲裔黑人因超速被警察拦下，在与警察对抗的过程中，他使用了有侮辱性色彩的肢体动作，而在制服他的过程中，警察使用了一定的暴力，这一过程正好被路人拍到。当这则（有剪接）视频材料被电视台播出后，所有看到视频的人都认为警察在施暴，而审判中四名警察竟被判无罪，由此引发了洛杉矶全城的抗议性暴动，并最终导致对“施暴”警察的再次刑事诉讼。为何控辩双方对视频中受害人罗德尼·金的肢体动作与当时双方交际的意义作出完全不同的解读？Goodwin（2001）用话语分析法对此进行了深入分析，发现对同一肢体动作在话语序列中的意义与作用，控辩双方竟然有不同的意义解读。控方从罗德尼“平放的脚掌”解读出他有意配合警方的“合作”态度，而辩方则从当时的冲突语境中解读，认为罗德尼的脚掌动作是身体受到打击后的自然反应，不代表他的合作态度与意向，提出警察使用暴力是在一定的语境前提下发生的，是合理的。对法庭案例或其他语域中视觉动作在话语交际中的构成性作用进行深入分析后，Goodwin（2001：179）指出：“视觉表意资源（指手势语、目光等）并非独立存在的，它们既阐释一些符号意义与活动，比如话语的序列组织、语流中的结构、相关活动等，同时也被这些符号活动所阐释，交际者用视觉表意资源与符号活动去建构各自的交际行为，并向对方明示自己的交际意图。”可以说，这一视角与多模态话语互动研究的观点极为相近（Norris，2004）。

多模态视觉文本也广泛用于戏剧或电影研究中，如Iedema（2001），通过分析灯光、色彩、人物表情、手势语等对塑造人物角色所起的作用，分析作品的美学效果，为解读影视或戏剧提供了新的研究材料或途径。

总之，在众多领域中，多模态文本被视为研究行为反馈的“铁证据”（如上文的精神分析法、人类学分析与话语分析），或被视作语篇使用者进行意义表达与建构的具体过程与手段（比如社会符号学）。其实，从宏观的功能上讲，多模态语篇兼有反映现实（外在或内在，虚幻或实际的）、调整人际意义（如会话分析中的手势语）或连接前后话语（比如，在话语停顿时，说话人可使用目光来表达一定的语篇功能）等多重功能，因此，如何对具体的多模态警示语文本进行描写或阐释，必须根据研究目的与研究需要而确定。

2.1.3 多模态话语的转写与文本呈现

多模态话语分静态的与动态的，在语篇分析时，均需要对其进行一定的文本采集与呈现。一般来说，对动态的多模态交际（如视频）需要进行话语转写（transcription），对静态的多模态话语或语篇也需要进行一定的提取与再现。现有文献中，人们对动态话语的转写原则与方法进行了很多讨论，形成了一定的看法，而对如何呈现静态的多模态文本，则基本默认为图片呈现，并没有详细的探讨。下面先简要介绍一下多模态话语语料收集与转写／呈现时需注意的一般原则，再分别概述两者所涉及的不同方法。

2.1.3.1 基本原则

一般来说，转写是对所描写的交际现象的简化性再现，其详略程度主要由研究的语境与研究者的需要所决定，某些交际特征可能需要最优化的处理与再现，而另外一些则被忽略不计。正因如此，Ochs（1979：44）指出，“转写称得上是一种理论，语料再现的方式既反映研究者自主确定的研究目标，也不可避免地影响其研究结果。”

确定语料转写方式需要考虑以下几个方面：研究目的、分析单位、转写对象与转写方法，在转写过程中，既要对事件进行精确描写，又要对读者的解读与反应、研究目的等各方面进行斟酌，才能恰当地呈现语料。因研究目的不同，静态的多模态文本的转写方法与动态的多模态文本应有所区别。不管是哪一种文本，多模态话语转写都基于这种假设：“转写可帮助我们理解某一语类的文本在具体个案中的体现，同时有助于我们把握这种语类文本的整体典型特征。”（Baldry&Thibault，2006：30）在转写特定语境中某一社会行为时，尽管研究目的可能有所不同，对于交际中的参与人如何在当前交际中生成意义，将其恰当地反映出来是非常重要的，为此，交际场景、对相关物体的利用、体势语等，都应囊括在转写体例中。

转写动态话语交际时，通常把话轮与话轮的转换作为转写的单位（Sacks，Schegloff&Jefferson，1974），这一方法在多模态语篇转写中略显捉襟见肘，因为当多种模态同时参与表意时，在言语话轮转换的位置（turn-relevant place），任何传统意义上的非言语行为（比如，目光、体态语等）均可以延续前一话轮或开展下一话轮，使得转换界限变得很模糊。要解决这一问题，可把视觉模态纳入讨论的范围，使用视觉框架作为分析单位，或以时间为标尺，线性地转写交际现象。

话语转写大致有微观与宏观两种方法，宏观转写方法重点解释主要物体之间的关系，而微观转写方法把多模态页面视作“不同模态的聚合体”（cluster），不仅考察各组合之间的关系，也对这些物体内部已存的关系进行特征化描写（Baldry&Thibault，2006：27）。

目前，对多模态文本进行转写，最困难的地方在于无法圆满地解决文本中多种模态的“同时性”（simultaneity），体现模态的结构与物质，也没有理想的转写方法既可以将空间、视觉与时间综合为一体，又能标注多种模态，为读者整合解读时的感知过程。

2.1.3.2 静态多模态语篇的文本呈现方法

分析静态多模态语篇，如平面的图文混合型语篇（漫画），或雕刻作品、建筑物等三维静态语篇，需要对其文本进行一定的提取，从而在符号层面对其进行描写与讨论。一般采用拍图或截图的方式对其进行信息采集。当然，在采集图片的时候，需要记录图片采集的时间、地点与主题，以保存语料采集的元信息。同时，在采集图片的时候，要尽量保存该图所处的自然语境，比如背景、所处的建筑物的信息、地面的信息等，将这些信息作为多模态语篇意义的参考因素。然后根据研究的目的与侧重点，对其进行一定的描写。比如，在分析某一图片文本的信息结构时，可以按照该图片的各个视觉组成要素（visual element，VE）的不同位置与其相应的占位大小，制作相应的结构简图，以便更好地对其进行符号化描写与分析。在研究警示牌的警示内容时，如果研究的重点是警示的文字信息，则只需要在简图中体现其文字内容与文字的大小即可；如果对警示的背景色与警示文字的协同作用感兴趣，则需要在简图中分别标示背景色与文字在多模态文本中所占的比例，还要标示背景色的色彩与浓度（以文字元符号体现）。

2.1.3.3 动态多模态话语的转写方法

传统的话语分析主要转写口语的各种特征，首先是语音的时长、停顿、重叠等自然特征，以及重音、长短元音、音高等说话人发音时产生的特征，其次是说话人发音时的笑声以及说话过程中附带发出的其他声音，甚至说话人说话时伴随的目光移动等非语言特征（Sacks，Schegloff&Jefferson，1974）。随着“语境”因素越来越受到重视，人们对语境因素的理解也发生了变化，非语言模态在意义生成过程中所产生的作用得到认可，空间距离、身体姿态、目光、音乐、印刷与排版等都可纳入语境之中（Norris，2004）。对于多模态话语中的语境因素与实体意义之间的界限与关系，功能语言学曾给出一些有见地的解释。根据语言的层次观，“语境不仅包括社会文化与环境因素，也包括所涉及的意义潜势”（张德禄，2016），因此语境与表意模态之间并不存在泾渭分明的关系，在具体的交际中，某些模态手段既是语境参照物，同时也是表意的作用过程与体现。此时，对模态各要素进行孤立研究是远远不够的，必须对多种模态的意义进行综合研究。意义是多重复合性的（multiplicative）而非叠加性的（Baldry&Thibault，2006；Lemke，1998），“多模态文本是所有构成它的符号资源形成的整合性产品”（Baldryand Thibault，2006：18），或者说是“意义的交往合成（orchestration）”（Kress，etal．， 2001），即整体的意义多于不同模态的意义总和。转写的任务就是尽量系统性地揭示文本的多模态基础而不是随机地临时处理某些意义（Baldry&Thibault，2006：21）。

在互动话语分析（Norris，2004）的视角下，语境与文本之间泾渭分明的界限不复存在，交际中涉及的任何符号资源或工具，比如手势、电脑配件或书面文本，都可生成社会行为，成为研究的重点。这种中介话语研究（mediateddiscourseanalysis）（唐青叶、李青，2015）所关心的问题是：正在发生的是什么社会行为？在这些行为中话语的作用是什么？（Scollon&Scollon，2001：9）

不管是做微观还是宏观转写，研究者必须承认这一点：在描述文本时，为描写得客观或“纯洁”，转写者会对语料进行一些简化处理，造成人们在“解读”多模态转写时会遇到很大的认知障碍，这足以抵消转写所具有的优点。转写时，为力求把交际中所用的多种模态都记录下来，转写体例各不相同。一般来说，转写都是用书面形式再现活生生的多维交际语料，转写的过程相当于把不同模态“翻译成”文字模态。若不把语言形式放在优先位置，该如何避免模态间的“翻译”？这显然是个棘手的问题。

为了突破话语的线性组织的局限，充分再现交际中模态的丰富性，语篇分析界一般有两种不同的转写模式，矩阵式图表转写与混合共现法。矩阵式图表转写通常有两种排列方法，第一种是按照时间（可精确到毫秒）的先后（矩阵的列），把诸多模态逐一描写（矩阵的行）（Lancaster&Roberts，2007；转自Jewitt，2009：48），如表2．1所示。

表2.1 多模态话语转写的矩阵式排列方法（样表1）

表2．1中按时间框架来区分一个交往事件与另一个交往事件（event），在切分事件时并不完全按照时间的推进，而需要找一个划分参照点，比如把说话人视觉目光的移动作为分析事件的参照模态，分析他如何对正在发生的交际行为进行解读与意义建构。

这种转写方法最大限度地体现了交际中模态的多样性，但是其缺点是它依然以书面模态为主，并且语言被放在矩阵靠左的地方，显然语言依然占据了多模态的主要位置，“在偏好视觉模态的西方文化传统中，无论在解读的具体实践还是逻辑推理上，通常放在左侧的信息显然更占有优势，因此这样的排列会给人留下错误的印象”（Thibault，2000：318）。

为强调电视广告文本中视觉要素的独特性，Baldry和Thibault（2006）则把静态图片放在矩阵的第一列。他们按时间（以秒为单位）、视觉框架（每秒一个静态图）、视觉图形（以图形的特征为主）、动作（kinestic action）（身体的移动）、声音（包括语言、音乐与其他声音）与元功能阐释（语篇、概念与人际）这几个要素对语料进行微观描写。他们把交际中的序列视觉图像分成一系列子框架（按照每秒一个），同时将模态按照从左到右的方式排列，如表2．2所示。

表2.2 多模态话语转写矩阵（样表2）（Baldry&Thibault，2006）

同样用矩阵式排列，但行与列却可以放置不同的项目，将时间点按横向序列展开，而把同一时间点上出现的多种模态分写于同一列所在的上下行，如表2．3。

表2.3 多模态话语转写矩阵（样表3）

另一种转写模式是将图形与文字混合转写起来，尽量还原其在线共现的状态。Norris（2004）把技能序列（sequence of stills）中的各种模态因素都同时显现，把言语内容用不同字体插在相关的图形上，以表示交际的动态性（见图2．2）。这种转写方法主要关注的是距离、手势、视觉目光、身体部位的动作与语言，转写的目的是要解释诸多模态如何协同实施某一特定的社会行为。

图2．2 互动话语分析的多人会话转写（Norris，2004：102）

同理，用这种方法再现互动会话，转写方法可略有变通。“在分析与陈述的不同阶段，需要多种不同的转写方法。研究者需要在分析与描写的过程中不断循环，往返几次。”Goodwin（2001：161）在考察多人会话中人们如何共同建构叙事故事时，研究者不仅要观察并记录说话人的言语，还要观察听话人对话语的态度反应与相应的身体动作对叙事的作用，为此，Goodwin（2001）采用了一种比较综合的转写方法，他用传统的话语分析方法（Sacks，Schegloff&Jefferson，1974）转写说话人的会话特征（包括音高、音长、停顿等），用加黑的斜体字标注自己对部分重点语境特征的分析，如图2．3中的Projects Quote、Climax，用箭头标注话语交际人的目光移动，如图2．3中的小箭头，用小图片再现那些对话语理解有直接影响的模态因素，比如空间距离或身体姿势，并将这些标注按照话语序列的形式有机地融合在一起（见图2．3）。

图2．3 多人会话的综合转写法（Goodwin，2001：63；转引自Jewitt，2009：51）

随着多模态文本转写方法的发展，多模态文本转写与标注软件不断被开发出来，比较有影响的有三个软件，分别是：澳大利亚悉尼大学O'Donnell团队开发的以纸媒文本为目标语料的转写软件UAMCorpus Tool（O'Donnell，2007），[4]新加坡国立大学研制的多模态话语标注软件（O'Halloran，2013），[5]与使用更广泛的音频、视频转写与标注的工具Elan。[6]前两种软件基本是以英语文本为目标文本，按照系统功能语言学的理论框架所设计开发的，而第三种软件虽最初为心理学研究所设计，却可广泛用于多模态话语的转写与标注，不仅兼容不同语言，还允许研究者根据需要自行设定转写的变量，给使用人提供了更多的灵活性与便利性。

多模态语料的转写与标注毕竟是对复杂交际现象的一种简化概括，其分析与描写的难度很高，随着科技的进步与多模态话语研究的深入开展，专门针对汉语多模态语料的更灵活的软件设计有望获得技术上的突破。

多模态的研究具有天然的跨学科性（O'Halloran&Smith，2011：2），迫切需要将语篇分析与传播学、艺术设计、计算机、叙事等各个学科进行融合，从而逐渐加深对多模态话语的理解与研究。本研究对多模态警示语的分析，将是对多模态研究的一次尝试。

[1] 也有学者曾将modality翻译为“模态”，如朱永生（2007：83）。

[2] 意义的生成也有多种感知器官的参与，见顾曰国（2013、2016）。

[3] 语境层面包括文化语境与情景语境，内容层面包括语义与词汇句法，表达层面包括书面语、口语等符号的终端。

[4] 这是一款免费话语转写软件，见http：／／www．corpustool．com／

[5] 分静态图像处理软件与动态图像处理软件，http：／／multimodal-analysis．com／products／multimodal-analysis-image／

[6] 有不同的软件版本https：／／tla．mpi．nl／tools／tla-tools／elan／

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈