用户知识的组织_智能信息系统

时间：2022-06-29 理论教育版权反馈

【摘要】：用户知识的组织_智能信息系统8.3.3　用户知识的组织尽管自然语言接口可提供方便灵活的通信手段和用户特点知识化的丰富资源，但问题在于用户常常不能够描述他们的要求、信息需求和知识的异常状态。目前，人机接口设计者已将用户模型作为一个重要组成部分，并将它应用于许多人工智能系统，如专家系统和智能辅助系统。隐式模型是由系统根据用户行为和已知的信息推导产生的。

用户知识的组织_智能信息系统

8.3.3　用户知识的组织

尽管自然语言接口可提供方便灵活的通信手段和用户特点知识化的丰富资源，但问题在于用户常常不能够描述他们的要求、信息需求和知识的异常状态。因此，智能信息系统应能构造和利用合适的用户模型(User Model)，引导交互和处理信息问题。

1.用户模型定义

用户模型是用户与外部世界联系的知识模型，是人对外部世界的认识以及人与外部世界交互的描述。用户模型对用户进行“虚拟”表示，主要研究用户知识表示及其动态维护问题［6］。用户模型是人机接口设计需要首先考虑的问题，它是软件开发过程中通过任务分析和需求说明而产生的，以便于用户对系统功能有全面、完整的理解的设计过程，那么什么是用户模型呢?

Murray认为用户模型是系统对单个用户、用户组或非用户的知识、喜好和能力的建模和表示，包括了系统对于特定用户的认知。它通常是用户行为、需求和特征的规范化描述，大部分用户模型描述的都是与研究相关的表示，而完全的、真正意义上的用户模型还比较少见。(www.guayunfan.com)

实质上，用户模型是用户的显性与隐性知识、静态与动态知识的综合抽象描述。它是机器理解用户知识的基础，也是系统在与用户交互过程中实现知识获取的基础。它提供给用户的有关它所处理的对象及作用于这些对象的处理过程的一个概念性模型［7］。目前，人机接口设计者已将用户模型作为一个重要组成部分，并将它应用于许多人工智能系统，如专家系统和智能辅助系统。

用户模型的应用实践证明，它有以下优点:

(1)提高人机交互能力，产生解释和评价系统执行，使系统发挥主动作用。

(2)改进整个系统的执行性能:系统效能，如容易实现决策;系统效率，如帮助识别用户的信息需求，实现正确的决策;系统的接受能力，如转换和接受系统外部行为和建议;易理解能力，如用户友好。

(3)增强系统适用于广泛用户的灵活性。

2.用户模型的分类

在用户模型的研究和应用中，产生了不少用户模型分类模式。在用户模型的研究应用中，产生了不少用户模型分类方式，常见的有以下一些分类方法［8］:

(1)Carbonell分类法

Carbonell分类模式识别两种广义类:经验定量模型(Empirical Quantitative Models)和分析认知模型(Analytical Cognitive Models)。

经验定量模型从一般用户类的抽象表达中推导信息，模型的定义是通过转换经验数据的参数、编码用户在交互中的基本操作以及应用评估中的定量关系来实现的。这种模型仅包含关于用户的表层知识，没有内部推理。设计者定义的用户类，仅适合于整个类的公共特征。因此，系统不包含任何独立的知识库来存储每个用户模型信息。

分析认知模型的目标是，模仿交互过程中用户认知处理的各个方面。这种模式基于用户知识的显式表示，而不是定量的。模型的实现是利用人工智能技术，不同于前一种模型。它利用知识库存储用户模型信息，允许每个用户有自己的特殊特征。

(2)Rich分类法

Rich的研究工作从三个方面分类用户模型。

①典型与个体模型。典型模型，或称原型(stereotype)，描述一类用户的公共特征，个体模型表示单个用户的特征。面对各种类型的用户，系统仅有典型模型，应用是很有限的。个体模型能使系统对每个用户的需求提供一个合适的接口，并有助于情报问题的描述。典型模型可被设计一次，然后直接产生到整个系统结构中。如果系统要具有许多个体模型，问题是怎样构造它们。

②显式与隐式模型。显式模型是由用户显式提供的，系统允许用户修改系统以符合自己的需要。用户可以设置系统参数、定义自己的过程或符号，也可以显式地选择感兴趣的信息存到他自己的数据库中。隐式模型是由系统根据用户行为和已知的信息推导产生的。系统根据用户的行为线索和系统已有的典型模型来推导必要信息，形成用户的初始模型。在以后的人机交互中，用户可能提供一些附加信息，系统可以利用这些信息修改该用户的初始模型，直到它明显不同于典型模型。隐式模型中的知识是不确定的，包含许多猜想，因为它来自推理处理，但比用户直接提供的可靠。

③长期与短期模型。短期模型涉及短期内的变化信息(如一次咨询中，用户新键入的主题信息)。短期模型依赖于交互中的变化状态，有人称它为动态模型。它基于用户的同类特点，并且主观的或智力的(mental)特点最重要。智力特点可被认为是用户的计划、目标和交互环境中的可信度。这种方法要求动态地理解不同的、变化的目标，并在短期咨询中反复修改、精练模型，使之适合于用户的真实情况。

长期模型表示用户的较永久的特征，且独立于系统的行为，可从一系列的人机交互过程中推导。模型包含专业知识水平、系统水平以及与任务领域有关的特殊信息。例如，图书咨询程序，用户模型应包含用户喜欢的书目信息。经过较长时间的多次交互咨询，系统可形成关于用户稳定特征的精确模型。

3.用户模型的表示

在各种原型系统中对用户模型的表示常见的有以下几种方式［9］:

(1)向量空间模型

向量空间模型(Vector Space Model，VSM)，由Salton等人于20世纪60年代末提出。其基本思想是将文档表示为加权的特征向量，然后通过计算文本相似度的方法来确定待分样本的类别。当文本被表示为空间向量模型的时候，文本的相似度就可以借助特征向量之间的内积来表示。与文本分类相类似，用户模型实际上代表用户特征的分类，不同行为特征的用户被划分到不同的用户模型中，因而，VSM同样可以用来描述和表示用户模型。用户模型中的VSM基本概念如下:

概念1文档D(Document):泛指用户模型或者用户模型中的一个片段。

概念2特征项t(Term):指出现在文档中能够代表文档性质的基本语言单位(如字、词等)，也就是通常所指的检索词，这样一个文档D就可以表示为D(t1，t2，…，tn)，其中n就代表了关键字的数量。

概念3特征项权重Wk(Term Weight):指特征项tn能够代表文档D能力的大小，体现了特征项在文档中的重要程度。这样文档D的向量可以表示为D(wn1，wn2，…，wnm)，其中w1，w2，…，wm分别代表文档D特征项t1，t2，…，tn的特征项权重。这样，对于整个文档集合来说，所有的文档页面都可以存储于一个特征向量权值矩阵之中。

图8-2　VSM及相似度的计算

概念4相似度S(Similarity)计算:相似度是指两个文档相关程度的大小，当用户模型以向量来表示时，可以使用向量文档向量间的距离来衡量，一般使用内积或夹角θ的余弦来计算，两者夹角越小说明相似度越高(图8-2)。

用户的特征和用户模型的表示构成空间中的两类向量，因而可以通过计算向量之间的夹角余弦来判定两个向量的相似度，并将之按照重要性加以排序，同时也能够设定阈值，推理用户所在的分类，即确定用户模型。其计算方公式如下:

向量空间模型的优点在于将文本和查询简化为特征项及权值集合的向量表示，即把文本内容转换为易为数学处理的向量方式，从而把检索和过滤操作变成向量空间上的向量运算。向量的权重可以通过简单的统计来完成，即通过定量的分析对查询和文本进行匹配，并可以在结果集中进行排序。

向量空间模型的缺点在于，该模型中默认这样一个前提:空间向量中词与词之间是正交的，即特征项之间无关，但在现实应用中这是不实际的。很明显在自然语言中，词或短语之间存在着十分密切的联系，所以这一假设对计算结果的可靠性造成一定的影响。

(2)基于规则的模型

基于规则模型的基本思想是:基于规则的用户模型中包含一些能代表用户兴趣的规则，虽然对于不同的、特定的领域系统不同的用户有自己具体的行为规则，但模式可以归结为:

If＜条件＞Then＜行为＞(8.3)

对于每个进入系统的对象，系统用其规则与该对象进行比较，如果该对象与其中一条或者多条规则的＜条件＞相匹配，则执行与该条件相对应的行为。这种结构的用户模型的更新非常简单，只要直接修改其规则就可以实现用户模型的更新，但是无法通过相关度反馈学习实现更新。

规则可以利用用户静态属性来建立，也可以利用用户动态信息来建立。为了利用规则来推荐资源，用户模型和资源描述文件需要相同的关键词集合来进行描述。基于规则的系统一般分为三部分:关键词层、描述层和用户接口层。关键词层提供上层描述所需的关键词，并定义关键词间的依赖关系，在该层可以定义静态属性的个性化规则。描述层定义用户描述和资源描述。由于描述层是针对具体的用户和资源，所以描述层的个性化规则是动态变化的。用户接口层提供个性化的服务，根据下面两层定义的个性化规则将满足规则的资源推荐给用户。

基于规则的模型优点是:用户模型的表示简单、直接，易于理解模型的运作和更新机制。缺点是规则的质量难以保证，而且不能动态更新。此外，随着规则的数量增多，规则之间的推理也相继变得繁琐，规则之间还可能产生冲突，导致系统变得越来越难以管理。

基于规则的用户模型通常用于处理结构化比较强的信息类型，适用情况是反馈机制要求不严格的系统。基于规则的模型往往有很好的可扩展性。对于一个新的领域，只要定义了该领域的业务规则就可以应用到该领域。

(3)基于概念的用户模型

基于概念的用户模型的基本思想是从词汇所表达的概念意义层次来认识用户的兴趣主题，在一定程度上表达了用户的兴趣主题语义信息。模型中不仅仅使用一些关键词来描述用户的兴趣，同时还描述了这些关键词之间的联系。该模型首先用词构造出概念结点，并识别和描述出词到概念结点之间的多种映射关系。通常模型使用语义网(Semantic Network)、联想网(Associative Network)，推理网(Inference Network)等来描述这些关键词间的联系。

●如果词相应的概念结点之间的连接代表的是语义关系，那么概念网络就可以看作是一个语义网，通常要按照语义对结点间的连接进行标注。

●如果词相应的概念结点间的连接代表的是普通意义上的关联，那么概念网络就可以看作是一个联想网。联想网结点间的连接不需要进行标注，只需加上权重，以表示连接的紧密度。

●如果词相应的概念层结点间的连接代表的是逻辑蕴含(Logic Implication)，那么概念网络就可以看作是一个推理网。

概念模型的优点是知识概念过滤。知识概念过滤主要是对自然语言理解更深一层，用基于本体论等知识表示方法来展示过滤模板并采用相应的方法来进行过滤。基于概念的模型不仅对信息进行语义处理，还能表示出概念与概念之间以及概念所具有属性之间的关系，并据此抽象出多层次的网状结构的概念模型。

概念模型的缺点:知识的有效表示和知识概念的联系比较复杂，只有建立在大规模知识有效表示和概念联系的基础之上的方法，才有可能应用词和词之间的概念对用户模型进行表示。但是，知识库的构造已经成为了概念信息过滤的瓶颈，它的研究将是一个艰巨而费时的任务。

(4)基于用户群体的模型

基于用户群体的模型，在信息过滤中称为Automated collaborative filtering(ACF)，即协作过滤模型，它向用户推荐相似群体的获取信息情况。它的基本思想是:现实生活中，任何人的兴趣不是孤立的，他所接收的很多信息往往是与他兴趣相同或者类似的用户推荐给他的，即具有社会性。所以这种方法又叫社会过滤。类似用户之间的推荐不是基于内容的相似性，而是基于他们的用户模型的相似性。所以在这种模式中用户模型中的信息不是用户想要查找的信息内容的特征，而是用户的个人特征和其他用户模型相关性等信息。

基于用户群体的模型可形式化地描述为一个用户-信息项矩阵:

设用户-信息项矩阵为:行为n个信息项I={I1，I2，…，In}，列为m个用户U={U1，U2，…，Um}，矩阵中的值表示某一个用户对某个信息项的观点或意见，它一般通过用户显式提交兴趣评价级别而获得，通常用数字表示评价级别，也可以通过分析用户的行为特征信息来隐式获取其兴趣级别。

基于用户群体的模型有下列优点:能够过滤难以进行机器自动内容分析的信息，比如非文本内容的信息，像艺术品、音乐、电影、电子邮件等;能够基于一些复杂的，难以表述的概念(如信息质量、品位)等进行过滤;具有推荐新信息的能力。

基于用户群体的模型的不足:①早期级别问题，在系统运行起始阶段，由于参与系统评价的用户很少，很多信息项没有被评价。当用户首次使用系统并且未评价过任何信息项或者评价了很少的信息项时，过滤系统很难给该用户提供准确的推荐服务。②稀疏性问题，由于信息项的数目通常远大于用户所能接受的信息数，并且用户很少愿意对浏览过的信息给予兴趣评价，评价数量一般也很少，这就使用户-信息项矩阵很稀疏，实际参与相似性计算和预测计算的评价级别很少，很难发现相似的用户和提供准确的推荐。③性能问题。基于用户预测算法中计算用户相似性时需要对所有系统用户进行相似性计算，随着系统用户和信息资源的增多，计算量会变大，系统性能会越来越低。

4.用户知识库

用户知识库用来存储用户模型的专门知识，如空间向量、规则、概念实例及其相互关系等。按照用户知识的分类，用户知识库中存储的用户模块分为显性用户知识模型和隐性用户知识模型，下面对这两类模型分别进行介绍［10］。

(1)显性用户知识模型的结构

显性用户知识模型又称为静态用户模型，用来描述用户的基本背景知识，主要包括用户的姓名、年龄、学历、专业、爱好等。这种模型的特点是结构稳定，容易操作和建立，而且在用户对系统的使用过程中很少改变。

显性用户知识模型具有固定的相似结构，一个模型是一个用户类的描述，它不描述用户的所有特征，仅描述一类用户所具有的重要的相同特征，因此它仅提供一个类成员的部分描述。可以用类来定义。一个类代表一种类型的用户，类中的槽用于描述该类用户的特征知识。每一个具体的用户都是类的一个实例。图8-3是对显性用户知识模型类的一般结构的描述。

类名——user(用户)

槽——

ID(用户标识号)

Name(姓名)

Age(年龄)

Degree(学历)

Vocation(职业)

Domain(领域知识)

Experience(系统经验)

Others(其他知识)

图8-3　显性用户知识模型的结构示例

一个用户知识库中可以包含多种类型的显性用户知识模型，每一种类型都描述了一类特定系统用户的公有知识，最常用的类型是专家用户和普通用户。多个用户模型可以通过层次结构和继承关系进行组织。图8-4显示了最简单的显性用户知识模型层次结构。

图8-4中包含三种类型的用户模型:通用用户、新用户和专家用户。其中“通用用户”描述所有系统用户的抽象特征，“新用户”代表系统使用经验不足的用户类型，“专家用户”则代表领域知识或系统经验丰富的用户类型。“新用户”和“专家用户”都是“通用用户”的子类。

图8-4　显性用户知识模型层次结构

显性用户知识模型的层次结构的优势在于:

①在无法获取用户知识或用户知识不全的情况下，可以通过类继承关系推导出其基本的特征属性。例如，当一个新用户开始使用系统时，系统会自动建立一个“新用户”类的模型实例。

②系统可以针对不同的用户类型建立不同的术语系统和检索策略。

在实际应用中，显性用户模型具有一定的局限性，首先，用户可能无法准确地回答系统的提问或描述自身的兴趣;其次，这种静态的用户模型不能适应用户在系统使用过程中知识需求的动态变化，因此在用户知识库中还应该包含反映用户动态知识的动态用户模型。

(2)隐性用户知识模型的结构

隐性用户知识模型，又称为动态用户模型，用于表示用户的兴趣知识，兴趣知识反映了单个用户的特定检索需求，如用户对哪些范围的专业领域感兴趣，或者用户习惯使用哪些专门的术语名称等。之所以将隐性用户知识模型称为动态用户模型是出于两方面的原因，首先是由于用户的兴趣知识属于一种隐性知识，用户很难对其进行直接或明确的说明，因此用户兴趣模型的构建也不可能一次完成，而是要通过不断的用户学习，对用户兴趣的不断深入了解，对模型结构内容的不断修正，才能形成比较符合用户实际的结果;其次是由于用户的兴趣知识可能随着对系统使用的深入而变化，这就要求用户兴趣模型的结构必须能够适应用户的变化并及时做出相应的调整，尽可能保持与用户最新需求的一致。

用于描述隐性用户知识模型的方式有很多种，最常用的是利用加权关键词表。其中，关键词的内容代表着用户感兴趣的领域，而其权重则代表了用户感兴趣的程度。这种方式虽然比较容易实现，但是结构松散，没有反映领域概念间的关系，所以无法深入挖掘用户的兴趣知识，比如用户感兴趣的关键词是“计算机应用”、“CAD”和“交互设计”，而这三个关键词都与“计算机辅助设计”相关，因此有可能“计算机辅助设计”才是用户真正的兴趣所在，这是单维度的关键词描述法所无法表达和发现的隐性知识。正因为如此，目前越来越多的系统开始使用结构化的概念空间描述用户兴趣模型，如前面所述的基于概念的用户模型表示方法。

(3)用户知识库的结构

用户知识库应该同时包含显性用户知识模型和隐性用户知识模型，以满足不同的应用需要。另外，两类模型之间不是彼此独立的，而是具有一定的关联，通过关联实现彼此的互补。图8-5显示了用户知识库的基本结构。

由图8-5可以看出，用户知识库包含三个主要的模块:显性用户知识模块、隐性用户知识模块和映射关系模块。显性用户知识模块包含描述用户静态知识的用户类层次结构。每一个用户类和用户实例都和隐性用户知识模块中相应的隐性用户知识模型链接，表示该类用户或该用户可能具有的兴趣知识。而隐性用户知识模型又通过多个链接指针与概念名称映射列表建立联系，反映出用户的概念名称空间。

图8-5　用户知识库的基本结构

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈