基于可视化技术的知识提取策略

时间：2024-09-30 百科知识版权反馈

【摘要】：基于可视化技术的知识提取是通过可视化技术丰富知识的表示方式，并易于知识评价活动的开展，进而完成知识构建，使得知识得以沉淀，旨在改善知识提取的效率与效果、增加知识存量以及提高知识库的质量。基于可视化技术的知识提取策略如图2-8所示，主要有知识源、知识构建以及知识库三大部分组成。整个知识提取过程是在基于可视化技术的知识提取平台支撑下完成的，该平台能够满足相关构成要素的需要。

2.3.1　基于可视化技术的知识提取策略

基于可视化技术的知识提取是通过可视化技术丰富知识的表示方式，并易于知识评价活动的开展，进而完成知识构建，使得知识得以沉淀，旨在改善知识提取的效率与效果、增加知识存量以及提高知识库的质量。基于可视化技术的知识提取策略如图2-8所示，主要有知识源、知识构建以及知识库三大部分组成。知识源拥有的隐性知识通过知识构建过程转化成显性知识，而形成的显性知识存入知识库以在较大范围内共享。其中，知识构建是整个提取过程的关键，由知识表示和知识评价两块构成，图形化的知识表示方式不仅利于知识表示的完成，也易于知识评价的完成。知识构建过程可以分为发散、收敛以及形成三个阶段。在发散阶段，参与者针对某个主题提出他们的观点和见解，此阶段不过分关注观点的质量而强调观点的数量，希望收集更多的观点，一般在宽松、流畅、自由的气氛中进行，只要参与者能够清楚表达出自己的观点即可；在收敛阶段，参与者对上一阶段收集的观点进行初步评价，并将这些观点进行分类和比较，建立这些观点之间的关联，此阶段强调观点的质量以及各观点之间的关系；在形成阶段，相关人员对收集得到的观点进行深层评价，并将可用的观点进行综合形成一个明确的、一致的结果。知识构建的参与者不仅包括知识源，一般还包括一名或多名知识工程师来协调、沟通相关知识主体，以保障知识构建的顺利完成。另外，整个知识提取还受到不同任务情境的影响，不同的任务情境对知识源、知识构建及知识库的要求是不完全一样的，因此任务情境是整个知识提取任务开展的出发点。整个知识提取过程是在基于可视化技术的知识提取平台支撑下完成的，该平台能够满足相关构成要素的需要。

图2-8　基于可视化技术的知识提取策略

知识构建是一个反复提炼的过程，需要知识源的不断参与。在发散阶段，产生的大量观点是初步的，有些需要调整优化，有些需要补充修改，有些不合要求需要删除，因此参与人员应该根据需要适时对提取出的知识进行修改，即需要调整绘出的图形。知识表示和知识评价之间是两个彼此交叉进行的活动，有时甚至是同时进行的。一方面，提出者表示出知识后需要评价者理解，评价者在理解之前首先要进行重构，而重构可能产生误解甚至曲解，因此需要与提出者进行沟通、优化知识的表示确保知识能够正确理解；另一方面，在收敛和形成阶段，需要对产生的大量观点进行分类、联结和综合，将产生新的具有更高凝聚水平的知识，这些知识也需要表示出来，甚至要与前面产生的知识形成关联以便更好地表示知识形成的过程。同时，这里知识库里的知识库不再是狭义上的专家系统中的知识库或者规则库，而是从整个组织的角度设计的知识库，是广义的知识库，其存储的知识形式也是多样的，可以是结构化的，也可以是半结构化的，甚至是非结构化的。

2.3.1.1　知识源

知识源是知识的提供者，是知识所依附的个体，这里主要是各类专家以及其他知识工人。知识源直接影响知识提取的效果，影响知识提取效果的因素主要包括知识源的性格特征、认知处理能力、分享意愿以及所拥有知识的特性四个方面。性格特征是人们表现在态度和行为上的稳定的个性特征，这些个性特征也会体现在知识提取中。主动型的个体在知识提取中也会非常积极，常常率先发表意见；而被动型的个体一般需要他人的引导或者整体气氛的感染。认知处理能力包括感觉、知觉、视觉、表达、注意、记忆、思维和想象等方面的能力（马捷和靖继鹏，2007），这些能力对知识提取的完成至关重要。视觉处理能力强，更易发现可视化平台中的细节和全局视图。分享意愿是知识源主动分享所拥有知识的主观渴望，渴望越强烈，知识提取越易完成。知识本身的特性也影响知识提取的效果，包括内隐性、复杂性、模糊性等，内隐性强的知识越难提取。

例如，对专家而言，可以分为“学者”型、“实践”型、“日本武士”型（Guus Schreiber等，2003）。“学者”型专家认为他的领域在逻辑上已经被组织过。这类专家可以谈论许多领域方面的问题，由于教育和专业等原因，他们认为和谐统一地表达是他们的责任，同时能够主动去解释、阐明知识或者相互指导。他们的知识大多数是结构化的、易于理解的。这些专家常常会认为他们思考的结果就是问题的正确答案，他们认为问题可以通过恰当地应用理论来加以解决。然而，有时他们会距离问题的解决相当遥远。“实践”型专家致力于解决某一领域不断出现的日常问题。对于这类专家而言，特殊问题和事件是客观存在的，他们的实践也许是盲从的，并且他们渴望的结果也常常仅仅适用于他们正从事的、资源限制和特定约束的问题。在他们眼里，泛化的学术理论是很难被清晰地表达和说明的，因为他发现一些主观推动和理论在现场有时显得非常苍白。“日本武士”型专家是一个纯执行专家，他们面临的唯一现实是执行某种行为去保护最佳的性能，实践是唯一的训练而反应通常也是自动的。他们主要通过口头方式表达知识。

特别要注意的是，人类的认知是有局限性和偏见的。心理学研究已经表明局限和偏见遍及所有人的决策制定过程中，不论是专家还是新手。西方管理决策学派的创始人之一西蒙提出的决策理论更将人类认知能力的局限性作为核心概念和根本前提。因此，在知识提取过程中，各个知识源的相互补充、相互提示、相互促进、反复进行也是必需的，因为不同个体之间进行深入的交流和讨论，不仅能够聚集更多的信息、观点和建议，从而有更多的备选方案和选择机会，而且在做最终的选择、判断和评价时，集体的智慧总会超过个体的智慧，从而能够找到更加正确的解决问题的方案，更为有效地完成知识的提取。

2.3.1.2　知识表示

知识表示是选择合适的可视化技术将知识源所拥有的知识表示出来，可以利用的可视化技术包括概念图、认知地图、语义网络、思维导图以及视觉隐喻等。概念图作为知识表示工具，可以提高对概念的理解；概念图作为知识提取工具，可以提供交流共享；概念图作为定量测评工具，可以用于知识评价（马费成和郝金星，2006）。概念图对于结构化知识具有较强的表达力，在知识提取中具有重要作用。认知地图是提取隐性知识的有效工具，可以作为构建组织记忆的重要工具，认知地图优于普通的知识表示方法，例如产生式规则和框架表示方法等。在头脑风暴法中可以利用思维导图将参与人员的想法组织起来，不仅能够明确讨论的方向、给出结论，而且能够诱导思维、激发人们创造知识。思维导图充分利用了人类的发散性思维，与头脑风暴法相结合，能够提取更多的知识。视觉隐喻将知识表达为人们更易理解的事物，通过比喻、类比及比较等形象的方式完成知识的提取，能够充分利用人类的形象思维能力，充分提取知识。

不同的可视化表示方式，其制作步骤是不同的。概念图的绘制包括以下四个步骤：概念图选取、概念分类、定位中心概念、连接概念以及连接交叉概念（Novak，1984）。①概念选取。列出关于某个主题的所有重要概念。②概念分类。分为广度结构和深度结构。广度结构根据概念间关联性强弱将概念划分为不同的分支；深度结构将不同分支中的概念按照概念的宽窄由上至下排列。③定位中心概念、连接概念。首先，获取中心主题概念，作为整个概念图的根节点。然后，从中心节点出发连接每个分支的中心节点，形成概念图的第二层，并注明连接词。继续上述过程，直至连接完所有概念。④连接交叉概念。仔细研究概念图中的各个概念，看它们是否存在交叉关系。若存在，连接交叉关系，并注明连接词。绘制思维导图的步骤为：①使用一个能够清楚地体现主题的图片建立思维导图的中心；②由中心出发，建立跟中心相关的子节点；③每个子节点再建立自己的子节点；④用不同的颜色、线型及图片表示节点；⑤留下一些空白，随时可以添加新的内容，尽量将所有的内容放在一个图中。认知地图的绘制步骤是：①选题，确定质量特性；②尽可能找出所有可能会影响结果的因素；③找出各原因之间的关系，在认知地图上以因果关系箭头联接起来；④根据对结果影响的重要程度，将认为对结果有显著影响的重要因素标出来；⑤在认知地图上标出必要的信息。

2.3.1.3　知识评价

知识评价是对提取出的知识进行评判以确保知识质量，评价主要从创造性、翔实性、可行性和结构化等方面展开。知识的创造性是知识提取任务得以进行的基础，所提取的知识应该能够为现实问题提供实际贡献，是现有知识库中尚未存在的。知识的翔实性是确保提取的知识能够应用的关键，主要从知识的结构和内容两个方面对其进行评判，发现需要修正、补充或者删减的，尽量保证知识在知识库中可用而又不重复。知识的可行性反映知识应用的范围和条件，知识的应用是有一定适应范围的，有些倾向于普遍场合，而有些仅适合特定领域。例如，问题解决策略是普遍性知识，一般包括分析、计划、执行及验证四个步骤。在知识提取过程中，需要对知识的可行性做出评断，对其适应范围和条件详细记录存入知识库。知识的结构化程度能够反映知识主体的认知水平，专家能够利用知识块集成更大的有意义单元，构建结构化的知识结构；而新手则难以做到。知识的结构化程度越高，表明知识提取的水平越高，更易于存储、组织和利用（De Jong等，1996）。

知识评价的方法包括定量评价和定性评价两种。定量评价依据统计数据，建立数学模型，并用数学模型计算出提取知识的各项指标及其数值的一种方法，需要针对具体任务环境设立相应的评价指标体系，并选择相应的数学模型，如层次分析法、模糊评价法、线性加权法等；定性评价主要根据评价者的直觉、经验，对提取出知识的创造性、翔实性、可行性及结构化等方面做出判断，一般给出评价等级或者评语。

例如，对概念图的结构和内容进行知识评价可以从知识的广度、知识的深度、信息熵等方面进行（马费成和郝金星，2006）。其中，广度指标包括节点个数、叶节点个数、分支个数、最大层宽度、等级关系的个数、交叉关系的个数、总宽度、平均宽度；深度指标包括层数、最大叶节点深度、叶节点深度总和、根节点到叶节点的所有路径条数、平均叶子深度、路径总深度、路径总条数、评价路径深度；信息熵指标包括单个节点的信息熵以及整个树的信息熵。

2.3.1.4　知识库

经过评价可行的知识被存入知识库当中，这里的知识库是广义上的知识库，它是将存储和管理提取出来的知识以及其他来源知识的方法和工具，一般是企业的整体意义上的知识存储工具。即是说，知识提取生成的知识只是知识库的一个组成部分。

知识库的存储策略可以是文件系统，也可以是数据库系统，还可以是XML、RDF、OWL等知识描述语言。概念图、思维导图、认知地图等以单独文件的形式进行存储，每个图形作为一个独立文件；也可以存放在数据库当中，将节点及节点之间的关系作为数据库字段或记录进行格式化存储；还可以转化为XML或OWL形式进行存储。

例如，关于“利润”的认知地图如图2-9所示。引起“利润”变化的直接原因有“收入”和“成本”两个因素，而“成本”的变化又由“固定成本”和“可变成本”两个因素导致。不难发现，认知地图大致遵照树形结构，将总目标作为根节点，其他因素或方法作为子节点。但是，也有一些节点存在循环或具有多个父节点，例如“成本”节点不仅与“利润”直接相关，而且与“价格”关系密切。另外，认知地图的连接线一般没有连接词，连接线的默认意义是“导致”或“因果关系”。