首页 百科知识 客户流失数据挖掘

客户流失数据挖掘

时间:2022-06-18 百科知识 版权反馈
【摘要】:再次,关系营销的手段是互利合作关系。这里的“关系”主要是指企业与客户、供应商、分销商、竞争者、内部员工等之间的关系。同时,要致力于建立数据库或其他方式,密切与消费者的关系。因此,公共关系或者公共事务管理应该成为关系营销过程中的一个有机成分。关系营销不仅将注意力集中在发展、维持与客户的关系,而且扩大了营销的视野,它涉及的关系包含了企业与其所有利益相关者间发生的关系。

第十章 客户关系管理与数据挖掘

学习目标

1.了解关系营销

2.熟悉关系营销中的关系

3.了解客户关系管理产生的背景

4.掌握客户关系管理

5.掌握数据仓库的概念

6.熟悉元数据在数据仓库中的作用

7.熟悉数据仓库的使用

8.掌握数据挖掘的概念

9.熟悉数据挖掘的常用方法

第一节 客户关系管理

一、关系营销的定义

1.关系营销的概念

关系营销是企业为实现其自身目标和增进社会福利而与相关市场建立和维持互利合作关系的过程。关系营销把营销活动看成是一个企业与消费者、供应商、分销商、竞争者、政府机构及其他公众产生互动作用的过程,正确处理企业与这些组织及个人的关系是企业营销的核心,是企业经营成败的关键。它从根本上改变了传统营销将交易视为营销活动关键和终结的狭隘认识。企业应在主动沟通、互惠互利、承诺信任的关系营销原则指导下,利用亲缘关系、地缘关系、业缘关系、文化习惯关系、偶发性关系等关系与客户、分销商及其他组织和个人建立、保持并加强关系,通过互利交换及共同履行诺言,有关各方实现各自的目的。对这个概念可以做如下理解:首先,这个定义提出了关系营销的目的是双重的,包括社会宏观目标与企业微观目标。企业作为社会的一部分,除了其自身的目标外,还应该关注社会总体利益与目的。其次,关系营销的对象是相关市场。相关市场包括企业所有利益相关者,如客户、供应商、员工、媒体、政府部门等。再次,关系营销的手段是互利合作关系。互利是合作的前提,没有互利就很难有进一步的合作。缺乏合作的营销也不能成为关系营销。最后,关系营销是动态的过程,而不是静态的状态。

2.关系营销中的关系

关系营销是以建立、维护、促进、改善、调整“关系”为核心,是对传统营销观念进行革新。这里的“关系”主要是指企业与客户、供应商、分销商、竞争者、内部员工等之间的关系。

(1)与客户的关系。企业要实现盈利目标,必须依赖客户,企业需要通过收集和积累大量的市场信息,预测目标市场购买潜力,采取适当方式与消费者沟通,变潜在客户为现实客户。同时,要致力于建立数据库或其他方式,密切与消费者的关系。对老客户,要更多地提供产品信息,定期举行联谊活动,加深情感信任,争取成为长期客户,其花费的成本肯定比寻找新客户更少。

(2)与供应商、分销商的关系。在信息经济的条件下,竞争不仅是公司之间的竞争,更是网络间的竞争。借助于先进的信息系统,供应链中所有参与者成为信息伙伴,彼此之间实现了信息共享和利益共享。这样形成的供应商—企业—分销商之间的关系,不仅有竞争,更有合作。明智的市场营销者会与供应商和分销商建立长期的、彼此信任的互利关系。最佳状态是交易不需要每次都进行磋商,而是成为一种惯例。现代信息技术的应用为这种惯例的形成创造了条件,不少成功的跨国公司就是这种惯例的受益者。

(3)与竞争者的关系。同行竞争者通常把商场比做战场。事实上,竞争者之间可以建立一种“双赢”的关系,而不一定只有赢输关系。曾有人做过形象的比喻,市场是一块“蛋糕”,吃的人越多,每个人分到的就越少。但换个角度,如果吃“蛋糕”的人合作起来,共同把“蛋糕”做大,则可以使每个人分到更多的“蛋糕”。事实上,竞争者合作可使合作各方获得更多的利益。

(4)与内部员工的关系。员工不仅是企业的雇员,更是企业的伙伴。企业要搞好与内部员工的关系首先应该给员工提供满意的物质利益,其次要为员工提供内部营销服务,要关心员工。

(5)与影响者的关系。各种金融机构、新闻媒体、公共事业团体以及政府机构等,对企业营销活动都会产生重要的影响,企业必须以公共关系为主要手段争取他们的理解和支持。例如,社区是以地缘为纽带连接和聚集的若干社会群体或组织之间的关系,构成企业关系营销中不可忽视的一环。企业需要社区提供完善的基础设施和高效的工作,社区也希望企业为社区建设提供人、财、物的支持。这个影响者的市场由独立的实体、组织和个人构成,其能够积极或消极地影响公司参与竞争的市场营销环境。因此,公共关系或者公共事务管理应该成为关系营销过程中的一个有机成分。

3.关系营销与交易营销的比较

交易营销(Trade Marketing)是指为了达成交易而开展的营销活动,是交付功能、基本产品价值的传递过程。关系营销与传统的交易营销相比,在对待客户上有不同之处,如表10-1所示。

表10-1 关系营销与交易营销的比较

续表

(1)交易营销关注的是一次性交易,关系营销关注的是如何保持客户。

(2)交易营销较少强调客户服务,而关系营销则高度重视客户服务,并通过客户服务来提高客户满意度,培育客户忠诚。

(3)交易营销往往只有少量的承诺,关系营销则有充分的客户承诺。

(4)交易营销认为产品质量应是生产部门所关心的,关系营销则认为所有部门都应关心质量问题。

(5)交易营销不注重与客户的长期联系,关系营销的核心就在于发展与客户长期而稳定的关系。关系营销不仅将注意力集中在发展、维持与客户的关系,而且扩大了营销的视野,它涉及的关系包含了企业与其所有利益相关者间发生的关系。

二、客户关系管理产生的背景

客户关系管理(Customer Relationship Management,CRM)的兴起始于20世纪90年代初。随着客户关系时代的来临和以客户为导向的经营理念的推广,企业开始把了解客户真实需求,维系、稳固、发展与客户的关系作为经营活动的出发点,客户的意识成为企业经营决策的重要影响因素。20世纪90年代兴起的以互联网应用为基础的“新经济”、“网络经济”,打破了传统经济的地域界限与销售模式,极大地增强了企业与客户之间的互动关系,市场的客户驱动程度大大提高,客户与企业的信息交互水平及企业对客户行为和价值的认知程度驱动着经济活动中企业与客户关系的演变。随着交互水平的提高、认知程度的加深,企业与客户间的关系正由单向的价值管理与创造向双向的价值集成与挖掘转变,因而互动式营销的出现成为市场发展的必然。20/80法则认为,客户带给企业的价值贡献大小是有区别的。甄别有价值的客户,并培养与其长期的关系,同时放弃那些缺乏忠诚度、不具价值培养前景的客户,从而使得有限的企业资源能够带来最大的价值回报,这就有赖于对客户信息的充分了解与掌握,对客户关系进行梳理与挖掘。关系营销理念的提出为企业在新的市场环境下维持持续竞争优势提供了指导思想,而其后的数据库营销则为这一目标的实现提供了有力的技术支撑。数据库营销是为了提高营销的针对性和有效性,在了解客户真实需求的基础上满足客户,以维持长期的市场关系。它将数据库技术与目标营销相结合,通过各种信息渠道将收集到的客户信息、竞争对手信息和企业内部信息数字化,并在数据库中进行存储、分类、整理、挖掘、交互,从而为企业营销决策提供有力信息支持与更好的客户服务。数据库营销的出现使得关系营销朝着客户关系管理的方向迈进了一大步,通过信息技术对关系进行管理的思想成为客户关系管理的基本思想之一。关系营销、数据库营销与客户关系管理三者之间的关系如图10-1所示。随着关系营销与数据库营销在理论上的成熟与实践上的深入,人们对关系问题的研究逐渐从营销的范畴向企业整体扩展,通过有效地设计组织流程与信息系统,实现对企业经营过程中的各种信息的有效识别、收集、分析、共享,从而实现对企业整体经营中与客户所产生的各种关系进行有效管理。客户关系管理正是在这一背景下产生的。

图10-1 关系营销、数据库营销、客户关系管理三者间的关系

三、客户关系管理的概念及核心管理思想

1.客户关系管理的概念

以“客户为中心”的理念在国外兴起于20世纪50年代,当时很多企业寄希望于通过改进技术、压缩生产周期、应用内部资源管理来提高增长率和利润率,但事实上效果并不明显。企业开始从强调降低经营成本的供应方发展策略转向了与客户联系更紧密的策略,从客户关系方面挖掘新的产品需求策略,客户关系管理的理论应运而生。随着Internet的迅速发展,整个世界经济进入了一个从未有过的高速增长期,电子商务正在造就全球范围内的新经济时代,这种新经济就是利用信息技术使企业获得新的价值、新的增长、新的商机和新的管理。电子商务浪潮在发展新经济的同时,也对企业的管理理念提出了严峻的挑战,客户资源被视为企业最宝贵的财富。具有近百年历史的美国时代华纳被无论资产还是盈利规模都不如自己的美国在线(AOL)吞并,就是例证。AOL的最大财富就是拥有了1700万客户,为此AOL投入了100亿美元,奋斗了10年。因此,越来越多的企业希望通过更好的管理与客户资源使用来达到竞争制胜的目的。自1999年开始,客户关系管理受到了更广泛的关注,并开始注重通过信息技术管理客户关系,使用CRM系统管理客户关系。通过信息技术的手段或CRM系统可以使企业更全面地观察客户,更好地利用所有的客户信息,使客户资源得以更充分的使用,客户关系管理理论也随之发展到了一个新的阶段。

2.客户关系管理的定义

对客户关系管理的定义尚无统一的描述,下面列出三种具有代表性的定义。

定义1:客户关系管理是企业处理其经营业务及客户关系的一种态度、倾向和价值观。该定义将客户关系管理理解为一种方法和思路,即如何在市场及每个客户的大脑中创建和发展自己的企业。鉴于每一位客户都是一个独立的主体,都有自己的选择,客户关系管理应该区别对待不同的客户,促使其选择本企业的产品或服务。

定义2:客户关系管理是代表增进盈利、收入和客户满意度而设计的,是企业范围的商业战略。该定义强调的是客户关系管理是一种商业战略,它涉及的范围是整个企业(而不是一个部门),它的战略目标是增进盈利、销售收入,提升客户满意度。

定义3:客户关系管理是企业的一项商业策略,它按照客户细分情况有效地组织企业资源,培养以客户为中心的经营行为以及实施以客户为中心的业务流程,并以此为手段来提高企业的获利能力、收入以及客户满意度。该定义强调的是客户关系管理是一种基于企业商业战略的商业策略,实现的是基于客户细分的一对一营销,对企业资源的有效组织和调配是按照客户细分而来的,以“客户为中心”不是口号,具体体现为在企业的经营行为和业务流程上都要围绕客户,通过这样的客户关系管理手段来提高企业的利润和客户满意度。

通过以上三种不同的客户关系管理定义,可以得到一个多层次总结。

(1)客户关系管理是一种经营观念,它要求企业全面地认识客户,最大限度地发展客户与本企业的关系,实现客户价值的最大化。

(2)客户关系管理是一套综合的战略方法,它通过有效地使用客户信息,培养与现实及潜在客户之间的良好关系,为公司创造价值。

(3)客户关系管理是一套基本的商业战略,企业利用完整、稳固的客户关系而不是某个特定的产品或业务单位来传送产品和服务。

客户关系管理的主要目标是通过更好地理解顾客的需求和偏好来增大顾客价值。客户关系管理的核心内容是不断地改善与管理企业销售、营销、客户服务和支持等与客户关系有关的业务流程并提高各个环节的自动化程度,从而缩短销售周期、降低销售成本、扩大销售量、增加收入与盈利、抢占更多市场份额、寻求新的市场机会和销售渠道,最终从根本上提升企业的核心竞争力,使得企业在当前激烈的竞争环境中立于不败之地。对于现代企业来说,客户关系管理不仅是一种改善企业与客户之间关系的管理机制,更是一种现代企业活动的管理机制。它用于企业市场营销、销售、服务,并用于支持与客户有关的各个方面。这种管理机制能使企业在营销、销售、服务与支持各个方面形成一种协调的关系,通过信息共享和优化商业流程来有效地降低企业经营成本。

3.客户关系管理的核心思想

基于上述客户关系管理的定义,结合客户关系管理近年来发展的新特点,给出八条客户关系管理的核心思想。

(1)企业真正经营的是“顾客”。客户关系管理是一种企业新的经营理念,即企业真正经营的是“顾客”而不是过去认为的“产品”。这种经营理念的转变主要是因为企业营销哲学由“生产观念、产品观念”转向“营销观念”。以市场为经营导向的企业,必须树立以“顾客”为经营中心的经营理念,才可能真正成为市场导向型企业。

(2)企业的行为内容是“对顾客需求的关注和满足”。在“经营顾客”这种理念指导下,企业的行为内容是“对顾客需求的关注和满足”。“关注”的层次可以分为响应、预知、创造。“满足”的层次可以分为属性、价值、关系。企业客户关系管理的实施,就是为了在对顾客需求关注方面能从“现实需求的响应到萌芽需求的预知再到未来需求的创造”;在对顾客需求满足方面能从“属性满足到价值满足再到关系满足”。

(3)企业的行为方式为“一对一营销”。在“经营顾客”理念指导下,企业的行为方式由“大众化营销”到“一对一营销”。通过高效双向的客户管理信息系统,企业能更好地理解顾客的需求和偏好,随着客户管理信息系统功能的完善,企业甚至可以依据每个个体的需求来提供定制化的产品和服务。

(4)以客户群为标准组建跨职能服务的组织。在“经营顾客”理念指导下,企业的组织职能必须进行转变。过去企业的组织职能架构通常是以“产品”为中心,如产品开发部门只负责产品的开发,财务部门只负责公司财务控制,营销部门只负责产品的销售。在引入客户关系管理且经营中心转向“顾客”后,内部的组织职能必须转变,不仅营销部门需要关注顾客,而且企业所有的部门都必须树立起“关注顾客、尊重顾客”的意识。在组织结构上,改变原来以职能为标准进行的架构,转为以客户群为标准组建跨职能服务组织。

(5)构建与顾客良好长久的关系。在“经营顾客”理念指导下,企业经营追求的目标发生转移,由过去关注“一次交易的达成”转向“与顾客长久关系的构建”。诸多学者对客户关系管理的定义中,几乎都提到“最大限度地发展顾客与本企业的良好关系,实现顾客价值的最大化”。

(6)客户关系管理需要专门信息系统的支持。在“经营顾客”理念指导下,实施客户关系管理必须有一整套完整的信息系统加以支持,必须有高效的信息管理、传递、共享、双向沟通的信息系统,必须有柔性化的各种制造功能,必须有优秀的客户合作管理功能、数据挖掘分析功能等。

(7)细化顾客关系价值。在“经营顾客”理念指导下,确立顾客贡献差异化营销的思想:不同的顾客具有不同的关系价值,企业必须将最大的精力放在最有价值的顾客身上。虽然那些低价值的顾客在数量上占有绝对比例,但对公司的销售和利润贡献却很小。客户关系管理并不是主张放弃那些价值较低的顾客,而是强调仔细甄别良性顾客关系和恶性顾客关系,并加以区别对待。通过对关系的有效识别,发展与特定顾客之间良性的、长期的、有利可图的关系,坚决剔除不具有培养前景的恶性客户关系。

(8)确立顾客与企业的“双赢”思想。在“经营顾客”理念指导下,客户关系管理的目的是实现顾客价值最大化和企业收益最大化之间的平衡,即确立顾客与企业的“双赢”思想。也就是与客户建立共同获利的关系,而不是千方百计地从客户身上谋取自身的利益。

事实上,顾客价值最大化与企业收益最大化是矛盾统一体。坚持以顾客为中心、为顾客创造价值是任何客户关系管理战略必须具备的理论基石。而企业是以盈利为中心的组织,追求利润最大化是企业存在和发展的宗旨。顾客价值最大化意味着穷尽企业的资源和能力以全面满足所有顾客需求,这样势必增加企业的成本,挫伤企业的盈利能力。不过,为顾客创造的价值越多,越可能增强顾客的满意度,提高顾客忠诚度,从而实现顾客挽留,有利于增加顾客为企业创造的价值,使企业收益最大化。

四、电子商务环境下的客户关系管理

现在CRM这个词主要是指电子化客户关系管理,它一般有两种基本类型:其一是操作型客户关系管理(Operational CRM),它强调采用与客户直接接触、联系、互动的方式来影响客户,维护与客户的关系。主要由行销自动化、销售自动化和客户服务三个方面组成。其二是分析型客户关系管理(Analytical CRM),它强调洞察和理解客户的行为。通过对客户数据、信息进行分析,形成客户知识,从而理解客户的需求,预测客户潜在的需求,为企业市场决策、关系管理提供依据。它具有如下特点:

1.采用IT技术

在建立一种行之有效的客户关系机制的过程中,IT技术扮演了一种很重要的角色。因为对大部分的产业来讲,IT是一种基础的客户服务传递方式,所以新的客户关系的建立与改造,从根本上说也是对公司IT系统的建立与改造。只有建立起良好的IT客户服务系统,或将原有的IT系统进行改造,且改造后的IT系统能把整个业务流程完全连接起来,才能真正形成全新的客户关系管理体系。

电子商务的客户管理可以促进传统的客户关系管理,且在许多方面比传统客户关系管理做得更好。从终端管理系统到网络浏览器,IT技术为当今的客户服务提供了重要方法。良好的CRM系统使我们能对客户的需求快速、灵敏、正确地做出反应。这将大大提高企业客户服务水平。另外,这个系统可帮助企业迅速有效地配置新软件,并在原有系统基础上升级,使企业能够更好地处理客户关系,获得更多的超越本地区的销售市场和服务机会。

企业通过互联网向客户提供24小时全天候不间断的服务,同时,也可以根据不同客户的需要为客户提供个性化的服务,这大大提高了客户服务质量。

2.IT系统与流程的整合

在客户关系管理上,要注重IT系统与商业流程的整合。一般来说,有价值的客户不会只发生一次业务。如在保险行业里,客户可能在养老、人寿、汽车和房产等几个方面都有投保的欲望,但是,保险公司往往只注意到客户的某一种需求,而把其他需求忽视了。再比如在制造行业,当客户打电话求购某种商品时,公司可能只会给他们相关商品的信息,而不会随时附上其曾经买过的商品资料。对公司而言,这意味着失去了一次很好的交叉销售机会,因为客户可能还有兴趣购买他们曾经购买过的商品。以上例子是典型的建立在孤立信息系统之上的公司业务模式。在建立CRM系统时,企业应该将客户的这些需求整合到IT技术中去。例如,可在客户服务的网页上加上一些可选项,提供多路径的客户链接等。

一个优秀的公司应该进行多元化的销售来满足客户的需求。在客户看来,公司就应该是一个整体。如果公司不能满足客户的多方面需求,客户又怎么会接受公司所提供的商品和服务呢?他们甚至还可能对公司的信誉产生怀疑。一个公司失去了客户,就意味着失去了市场,公司的效益自然也会不佳。

3.将客户信息转成客户关系

客户关系是指与客户的交互作用,也就是与客户的沟通。许多企业往往注重收集客户信息而忽略了客户关系。所以,要将收集到的客户信息转化成客户关系。

(1)客户信息(Customer Information)。信息技术提供了更广泛的收集客户信息的途径,如通过POS系统、ATM、网站、客户服务中心等。

(2)客户互动(Customer Interaction)。建立客户呼叫中心或以网络为基础的网上客户服务,利用数据采矿等技术,就可将客户的信息从数据库中提取出来,以增加客户的回复率。这样可以加强与客户的交流,满足客户的需求。

通过将面向客户的前端系统和公司后端IT系统结合,电子商务的客户关系管理系统平衡并分享了企业积累的客户信息,使企业对客户和市场有一个强化的印象。

企业与客户的交流不能满足于获得客户资料,而要利用所获得的客户资料为企业创造效益。所以,企业与客户的交互作用是非常重要的,而它的基础是利用IT信息技术。

五、客户关系管理的主要内容和主要手段

(一)面向客户

1.提供尽可能多的客户服务接入形式

为了让客户能及时地找到企业,了解企业在做什么、能提供什么,就要为客户提供一个便利的联系方式。除了原有的公司在各处的分支机构和销售代表之外,还应该增加音频自动应答、电话联系中心、网站、自动回复表单、自动回复邮件、自助电话系统、免费800电话等新的客户服务接入方式,而且要保证每一种客户服务接入方式都能够提供高质量的服务。

2.洞察更深层次的客户需求

这是建立在对客户现状和过去情况全面把握的基础之上的。可应用网络IT技术对客户进行在线调查,了解尽可能多的客户详情,以便分析市场动向和客户需求。IT技术在这个方面具有得天独厚的优势,它可以提供多种多样的了解客户需求的途径。

3.注重向那些最具潜力的客户提供服务

为了达到这个目的,必须安排最优秀的客户服务代表去解决那些最具潜力的客户提出的问题,做到重点客户重点服务。销售人员应经常进行经验交流,在公司中推广优秀销售人员的经验,公司可以把优秀销售人员的经验作为全体公司员工的客户服务模式加以推广。

4.提供个性化的客户服务界面

当客户需要时,可以利用网站提供尽可能多的个性化信息资讯。例如,如果客户希望买卖股票,那么公司就应该提供相关精选股票的历史资料。

5.提供让客户放心的安全环境

如果客户对企业电子商务的安全没有信心,那么企业就不会获得在线市场。要利用IT技术,提供给客户一个安全交易的网络环境,这是在线商务的保障,也是客户服务的一项重要内容。要使客户感到与企业交易是安全的,只有这样,企业的客户服务才可能成功。

(二)处理客户问题

1.寻找一个简便的客户关系管理解决方案

实际上,公司的信息系统总是很复杂的。一旦公司的商业环境发生变化,如公司进行合并、收购或者政府制定新的法律,都会使信息系统变得复杂。良好的客户服务就是要使公司的信息系统与客户对公司的认知相一致。所以,有必要寻找一种简便的方法来解决公司复杂的信息系统问题,而且这种方法要能满足不断变化的公司信息系统的需要。

2.客户关系管理的整合方案

虽然在客户关系管理方面并没有一种固定可循的解决方案,但任何一种解决方案都会涉及以下几个方面:

(1)集中客户所有的信息。公司拥有的客户信息不可能从同一个系统的数据库中获得,所以就需要把分散的客户信息集中起来,存放在同一个地方,并对这些客户信息进行内在的分析。一个完整的解决方案应该能够把这些分散的个人资料有效地联系起来。

(2)要具有连接公司所有系统的重要商业应用软件。为了理清这些错综复杂的关系,就需要用一种连接软件把公司所有的系统连接起来,并使各个系统能够共享信息。此外,为了适应新技术和新产品,这种连接软件还必须能进行更新。

(3)构建能够随时随地增加应用软件的工具。为了满足客户经常变化的需求,公司各个系统中的软件也应不断地添加和更新,这就要求公司使用一种能够快速更新的软件系统。

(4)自动控制各种业务流程。自动化业务流程不但能够更好地满足客户在快速提供信息方面的要求,而且对企业客户服务代表来说,可以根据客户的资料及时采取灵活的应变措施。

(5)逐步整合新技术和新产品。由于新技术和新产品的不断涌现,公司系统需要不断地进行集成。但是,不能一次性地将其全部集成起来,而应循序渐进地把它们逐个地与公司现有的核心系统进行整合。

(6)安全解决方案的整合。对公司的核心系统来说,一旦与互联网、内联网或者外联网进行连接,就意味着暴露在更多客户的视线范围内,当然也就增加了核心系统受到攻击的危险。所以就要有一个解决安全问题的方案,以保证公司中所有与互联网连接的系统安全。

(7)统一管理公司的各种系统。公司中的各种系统都要求能够正常地运行,万一某客户服务支持系统不能正常运作,公司应该有能力把它单独断开并迅速高效地进行修复。公司的系统维护人员统一地对各种系统进行监控。他们需要一种能够管理各种系统,并能够方便地对系统中所有用户和软件进行监控的系统管理方法。

总之,企业所需要的是一种能够整合所有系统的解决方案。这种方案要有扩展功能,并能够最大限度地满足客户的需要。

(三)CRM规划的思考过程

(1)知识发掘(Knowledge Discovery)。知识发掘是指分析所获得的客户信息,确认特定的市场机会与投资策略。这个过程包括客户确认、客户区隔、客户预测。行销人员要善于利用详细的客户资料,以便做出最佳的决策。

(2)市场规划(Market Planning)。这是指定义特定的客户产品,定义提供产品的途径、提供产品的时间以及其他与产品相关的事宜。在制订策略性的客户沟通计划时,市场规划可以帮助行销人员定义特定的活动种类、客户偏好、行销计划以及客户购买动机等。

(3)客户互动(Customer Interaction)。这是指应用相关的信息技术,通过各种途径和应用软件管理已有的客户和潜在的客户。

(4)分析与修正(Analysis and Refinement)。这是指利用来自客户交互的信息,经分析而获得持续的知识,并用这些知识来改善客户关系管理的方法。

六、呼叫中心的概念、构成、流程及主要类型

(一)呼叫中心概念

呼叫中心(Call Center,CC)在国内也称作“客户服务中心”(Customer Care Center,CCC),是一种基于计算机与电话集成技术(CTI)、利用通信网络和计算机网络的多项功能集成,并与企业连为一体的完整的新型综合信息服务系统。呼叫中心利用现有的各种先进的通信手段,有效地为客户提供高质量、高效率、全方位的服务。它通过提供各种CTI中间设备来支持自动呼叫分配、专用分组交换机,实现计算机电话集成技术与CRM业务应用软件之间的整合,通过电话技术进行与客户之间的互动,对来自多个渠道的工作任务和座席代表的任务进行全面管理。呼叫中心好像是企业在最外层加上一个服务层,实际上它不仅仅为外部用户,也对整个企业内部的管理、服务、调度、增值起到非常重要的统一协调作用。呼叫中心已经在很多方面得到应用。如电话银行,用户可以通过电话进行汇率查询、账户结余查询、转账、代扣公用事业费等。现在的呼叫中心是CRM行业的一个重要分支,它是由若干成员组成的工作组,这些成员既包括人工座席代表,又包括自动语音设备。它们通过网络进行通信,共享网络资源,为客户提供交互式服务。

(二)呼叫中心构成

20世纪90年代初,呼叫中心开始发展并逐渐兴起。近几年来,随着技术的发展,呼叫中心又融入了Internet、基于网际协议的语音(Voice Over IP,VOIP)、E-mail、WAP、视频等多种交互手段,发展成为一个多媒体的、可为移动用户服务的、智能化的呼叫中心。典型的呼叫中心由六部分组成:程控交换机、自动呼叫分配器、交互式语音应答、计算机语音集成服务器、人工座席代表和后台业务处理系统。虽然各公司的呼叫中心不尽相同,但呼叫中心环境下的基本技术差别不大。

(1)程控交换机(Private Branch Exchange,PBX)。程控交换机为呼叫中心提供内外的通道。对外作为与市话局中继线的接口,对内则作为与座席代表话机和自动应答设备(VRU)的接口。但呼叫中心的PBX与传统的PBX不同,其中继线数大于内线数。

(2)自动呼叫分配器(Automatic Call Distribution,ACD)。自动呼叫分配器的作用是将外界来电均匀地分配给各个代表。如果没有空闲的座席代表,就将来电放入等待队列,空闲时再转接过去。如果来电在长时间里得不到处理,ACD可以为客户播放提示信息,包括呼叫者在等待队列中的位置并询问来电者是否愿意继续等待等,以减少客户挂机比例。随着技术的发展,ACD将会提供更多的特色服务,如呼叫溢出等,并与其他解决方法更好地结合起来。

(3)交互式语音应答(Interactive Voice Response,IVR)技术。交互式语音应答技术给呼叫中心带来了强大的生命力。IVR又称自动语音应答(Voice Response Utensil,VRU),它是将计算机技术用于呼叫中心的产物。用户通过双音频电话输入信息,IVR系统向用户播放预先录制好的语音,回答用户的问题。IVR还具有语音信箱、传真收发等功能。应用IVR技术之后,有80%~90%的呼叫不需要座席代表的干预就能完成。在IVR应用中,语音识别技术将会发挥很大的作用,从而减少语言误解和消息失真。

(4)计算机语音集成服务器(Computer Telephony Integration,CTI)。CTI对整个呼叫中心进行全面管理,是呼叫中心的“心脏”。它与PBX相连,接收来自PBX的事件/状态消息,并向PBX发出命令。CTI服务器能够向上提供统一的编程接口,屏蔽PBX与计算机间的复杂通信协议,为不同用户开发应用程序带来了方便。CTI服务器与PBX的连接称为CTI链路。CTI链路在物理上可能是X.25、ISDN(D通道)或TCP/IP连接中的一种,在软件上是一种专用的应用层协议。目前,CTI协议缺少统一的标准,于是CTI服务器的最大任务就是协调不同交换机厂家的这些协议,使其具有统一的模式。有人认为,解决这个问题的途径是同时支持多种不同的CTI链路协议或对这些协议进行编程,但这是不切实际的。可行的方法是开发运行于CTI服务器上的CTI中间件,以完成底层的协议操作。

(5)人工座席代表(Agent)。通常,呼叫中心的工作人员被称为座席(业务代表),由业务代表组成的小组被称为座席组(业务组)。一个呼叫中心可以由几百个,甚至几千个业务代表组成,而小企业和大企业的小部门也可以根据需要,非常经济地建立一个只有几个业务代表的小型呼叫中心。Agent的工作设备包括话机(数字或专用模拟话机)、耳机、话筒及运行CTI应用程序的PC机或计算机终端,对于电话接听、挂断、转移和外拨等工作,座席代表只需通过鼠标和键盘就可轻松完成。人工座席代表是呼叫中心中惟一的非设备成分,能更灵活地进行呼叫处理。呼叫中心的某些服务,如业务咨询、电话号码查询、故障报告和服务投诉等,必须由座席代表完成。

(6)后台业务处理系统。后台业务处理系统负责整个过程中信息的收集、处理、反馈,利用这些信息,可以更好地提供客户服务,提升企业的服务水平。

(三)呼叫中心典型处理流程

(1)呼叫进入中心交换局(Center Office)。

(2)PBX应答呼叫,捕获自动号码证实(ANI)或被叫号码证实(DNIS)信息。

(3)PBX寻找空闲的VRU路由,并把呼叫转至该线路。

(4)PBX通过RS232串行口发送初始呼叫信息给VRU,包括呼叫转至的端口号及ANI和DNIS信息。

(5)VRU播放提示菜单信息给呼叫者,以确定哪类接线员受理比较合适。

(6)VRU检查接线员队列,若无空闲接线员,则播放消息给呼叫者,告诉其在等待队列中的位置,询问是否愿意等待。

(7)接线员空闲时,VRU通过拍叉簧将呼叫转至该接线员,等待PBX发来的拨号音,拨通新的分机号。接线员拿起电话后,VRU自动挂机,处理另一个呼叫。

(8)利用数据库共享或局域网通信工程,VRU向接线员的PC发送ANI信息,呼叫到达时,客户信息会自动显示出来。

(9)当呼叫用户或接线员一方挂机时,PBX检测到断线信号,通过RS232串口发送呼叫记录信息给VRU。VRU根据此信息确定刚处理完呼叫的接线员已恢复空闲,可进行下一次呼叫处理。

(四)呼叫中心类型

呼叫中心可以按照不同的参照标准分成多种类型。

(1)按采用的不同接入技术划分:有基于交换机的ACD呼叫中心和基于计算机的板卡式呼叫中心。

(2)按呼叫类型划分:有呼入型呼叫中心、呼出型呼叫中心和呼入、呼出混合型呼叫中心。

(3)按功能划分:有传统的电话呼叫中心、Web呼叫中心、IP呼叫中心、多媒体呼叫中心、视频呼叫中心、统一消息处理中心等。

(4)按使用性质划分:有自用呼叫中心、外包呼叫中心和ASP型呼叫中心。其中ASP型是指租用其他人的设备和技术,而话务代表则属于本公司的类型。

(5)按分布地点划分:有单址呼叫中心和多址呼叫中心。

(6)按人员的职业特点划分,有正式(Formal)呼叫中心和非正式(Informal)呼叫中心两种。正式的呼叫中心就是我们通常所说的有专门的话务代表处理客户呼叫,为客户提供服务的呼叫中心;而非正式的呼叫中心是指那些由不是专门的话务代表来处理客户的呼叫,如在证券业有大量的证券经纪人,他们利用证券公司的呼叫中心为客户提供交易服务,但他们并不是专门的话务员,而这个证券公司的呼叫中心就属于非正式的呼叫中心。

(7)按呼叫中心技术的发展史划分有两种分法:一是从大体上把呼叫中心分成传统呼叫中心和现代呼叫中心;二是一些设备厂商的分法,就是经常可以见到的第一代、第二代的称谓,现在已经到了第四代。这主要是厂商要强调在新一代的产品中加入了更多的先进技术。

(8)按应用划分:主要有电信呼叫中心、银行呼叫中心、邮政呼叫中心、民航呼叫中心、企业呼叫中心和政府呼叫中心等。在实际中,更多的是根据应用的不同情况和场合,将这些分类有机地结合在一起。如我们可以将一个呼叫中心描述为基于交换机的、具有Web功能的、呼出型多址外包呼叫中心。尽管显得繁杂,但却是对呼叫中心最精确的描述。在呼叫中心产业中,多数企业是按照不同的使用性质进行分类的,所以我们着重介绍自营型呼叫中心(In-house Call Center)、外包型呼叫中心(Outsourcing Call Center)和ASP型呼叫中心三类。

第一,自营型呼叫中心。自营型呼叫中心是指企业自身建立的独立的呼叫中心,其运营指标要从这几个方面来评估:①服务级别(Service Level),即多少呼叫会在一定时间内被接听,是80/20还是90/10或者是70/30。②呼损率(Abandon Rate)。③平均通话时间(Average Speech Time)。④后续工作时间(After Call Work)。⑤转接率(Change Rate)。⑥单个呼叫成本(Cost/Call)。⑦人员流失率(Staff Turnover)。

当然如果呼叫中心还担负着追踪销售线索、维护客户关系,则还要考察销售成功率和客户挽留成功率等指标。以上只是考核呼叫中心运营的基本指标,具体指标还要根据企业的实际情况来制定。

第二,外包型呼叫中心。外包型呼叫中心是指租用其他方的呼叫中心设备、座席、人员和运营管理,完成客户服务、市场营销等诸多活动的类型。外包型呼叫中心的各种业务都可以拆分成外包业务:建设外包、应用外包、系统硬件外包(不含座席代表)、座席外包、运营管理外包、招聘和培训外包等。一些富有经验的外包运营商可以提供全套的一条龙服务。按业务类型的难易程度、时效性、阶段性、企业文化的理解等方面,可将外包分为四种类型:①按座席外包(呼入呼出混合型)。②按呼入量外包(呼入型)。③按项目外包(呼入型、呼出型)。④连带CRM的外包(综合型)。

第三,ASP型呼叫中心。ASP型呼叫中心是将各种应用软件安装在数据中心(IDC)或服务器群上,通过网络将应用软件的功能或基于这些功能的服务,以有偿的方式提供给使用者,并由ASP负责管理、维护和更新这些功能和服务,提供给使用者优质完善的服务。

第二节 数据仓库和数据挖掘

一、数据仓库

(一)数据仓库简介

1.数据仓库的概念

数据仓库是支持管理决策过程的、面向主题的、集成的、时变的、非易失的数据集合。它支持管理部门的决策过程,充当决策数据模型的物理实现,并存放企业战略决策所需信息。通过将异种数据源的数据集合在一起而构造、支持结构化的查询、分析和决策制定。它与组织机构的操作数据分别维护。数据仓库系统允许将各种应用系统集成在一起,为统一的数据分析提供坚实的平台,对信息处理提供支持。

数据仓库也是一种体系结构,具有四个层次:操作层、数据仓库层、部门层和个体层。其中,操作层存储原始数据,即公司等单位每天运营所使用的细节型数据,原始数据可以更新,所使用的主要是原始数据的当前值,原始数据以重复方式运行支持日常的操作。而从操作层的原始数据转换为进入数据仓库的导出(集成)数据,是不可以更新的,通常为历史数据,运行在非重复的启发式系统中,以满足公司管理决策者或决策支持系统的需要。在部门决策层,数据仓库中存储的历史数据将被轻度概化(或概念分层),形成了按某种属性概化的数据子集,或称数据集市。将从数据仓库中抽取的数据集市,应用于各种各样的决策分析,可使各个不同的部门级应用得到满足,建立适合各个部门级的决策分析环境。在个体决策层,通过编写应用软件,抽取数据仓库中轻度或高度概化(综合)的数据子集,是应用数据挖掘的各种方法进行决策、分析和处理的层次。

数据仓库中的数据,来源于不同的异构系统,在进入数据仓库之前往往被综合或集成为一个记录,送入数据仓库。这个过程包含了数据类型的统一、格式的转换等预处理。例如,从操作层中取出每天的事务处理,然后综合成数据仓库的一条记录。这条记录可以根据顾客、账户或其他主题来进行。对某顾客的一个账户每天的所有活动进行合计,并输入到数据仓库中。这个过程的反复进行致使数据仓库不断地增长,所以数据仓库是渐进式建立起来的。

粒度是指数据仓库中的数据被细化或被综合的程度。粒度越大,表示综合程度越高;粒度越小,表示综合程度越低。在数据仓库环境中,粒度是一个重要的设计问题,它影响到数据仓库的数据量以及系统能回答的查询类型。显然,粒度越小,细节程度越高,能回答的查询就越多。然而,因为要存储低粒度级的细节数据,数据量就较多。反之,如果数据仓库不保存低粒度级数据,只有粗粒度级的数据,则需要存储的数据量较少,但不能回答过细的查询。

在数据仓库的四个层次体系结构中,从操作层到最高的个体层,数据的粒度从低到高,即从高细节型数据向低细节型数据转化。

数据分割(分区)问题是数据仓库的另一个重要问题。数据仓库中数据表的数据量一般都比较大,如果只用一个物理数据表来存储这些模式相同的数据,则可能造成数据管理和查询效率低下。为了提高数据管理和查询的效率,对数据进行分割是个很有效的办法,恰当的数据分区能有效提高数据仓库各种数据处理功能的效率。合适的分区能使数据的增长和管理较容易实现。有多种分区标准,通常按照日期、地域、商业领域、组织单位对数据进行分割。

元数据是关于数据的数据,元数据定义下列数据或结构:

(1)数据仓库结构的描述:包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容。

(2)操作元数据:包括移植数据的历史及用于它的转换序列,数据流通和监视的信息,诸如仓库使用统计、错误报告和审计跟踪等。

(3)汇总用的算法数据说明:包括度量和维定义算法,数据所采用的粒度、分割、主题领域、聚集、汇总、预定义的查询与报告等。

(4)由操作型到数据仓库型的映射说明:包括源数据库及其内容、网间连接程序描述、数据分割、数据提取、清理、转换规则、数据刷新和剪裁规则、用户授权和存取等安全控制。

(5)关于系统性能的数据:除刷新、更新和复制周期的定时和调度规则外,还包括改善数据存取和检索性能的索引和配置。

(6)商务元数据:包括商务业务等的术语、定义、数据拥有者信息、收费策略等。

总之,数据仓库包含了不同级别的综合,元数据是其中的一种类型。元数据与数据仓库中的其他数据相比,具有重要的作用。例如,元数据用做目录,可以帮助决策支持系统的使用者对数据仓库的内容进行定位。当数据从操作型向数据仓库型转换时,其作为映射的指南,也可用在当前细节数据与轻度汇总数据之间以及轻度汇总数据与高度汇总数据之间的汇总算法指南。另外,元数据应当永久地存放和进行管理。

2.数据仓库与操作型数据库的区别

通常在操作层使用普通的数据库管理系统,实现对操作型数据的联机事务处理(OLTP)以及实现系统的大部分日常操作,如购买、库存、制造、银行、工资等。这些操作型的数据以细粒度级别存储和使用,它们可以被即时更新、修改、删除或添加,并实现系统的查询、汇总、一般性统计等功能。

而当操作型数据被转换、集成到数据仓库中后,数据由细粒度级别下降到粗粒度级别,随之而来的是数据在更高的概念层得到概化。进入数据仓库的数据是不被经常更新的,它们是面向管理决策人员的,这些数据作为决策支持系统分析的基础。

在数据仓库中可以进行联机分析处理(OLAP),实现系统的多维数据分析、复杂查询、汇总统计、趋势分析以及预测等功能。

数据仓库与操作型数据库的不同致使在设计数据仓库系统时,总是采用这两者分离的方法,分别设计操作型数据库和数据仓库。其中,操作型数据库用于联机事务处理,数据仓库用于联机分析处理或数据挖掘。

3.数据仓库的使用

(1)数据仓库的构建。数据仓库是面向应用的,所采用的数据模型是多维数据模型。该模型采用数据立方体(Data Cube)建模。通常多维数据模型围绕一个中心主题创建,主题用事实表表示,事实表中的数值是度量的数量和连接各个维表的关键字。如图10-2所示,事实表以及与之连接的四个维表构成了数据仓库的星型模式。

图10-2 数据仓库的星型模式

数据仓库的雪花型模式结构如图10-3所示。

图10-3 数据仓库的雪花型模式

(2)数据仓库中数据分析的操作。基于多维数据模型的数据仓库,可在多维数据模型上进行在线数据分析处理操作,这些数据分析包括上卷、下钻、切片和切块以及转轴等处理。

第一,上卷(Roll-up):通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集的操作。例如,在某个销售Sales数据仓库中,一个维的分层定义为全序:街区<城市<省份<国家,那么上卷操作沿着“销售分区”维,由“城市”向上到“国家”的聚集,致使数据在立方体“国家”而不是在“城市”被分组,即所表示的结果是在“国家”级别上得到了“销售数量”汇总,而不是在“城市”级别上的汇总结果。这样,上卷操作可以使聚集的结果更有普遍性。

第二,下钻(Drill-down):通过沿维的概念分层向下或引入新的维来实现。这是一个细化操作,由不太详细的数据到更详细的数据,使结果能够用更细节的数据表示。例如,在某个销售Sales数据仓库中,某个时间维的概念分层是全序:day<month<quarter<year,那么沿着时间维由quarter层到更详细的month层下钻操作的结果,将得到在立方体month上的每月总销售额,而不是按quarter的汇总。

第三,切片(Slice):切片操作在给定的数据立方体的一个维上进行选择,生成一个子立方。例如,在某个销售Sales数据仓库中,对某个时间维的切片操作,将得到一个使用条件time=“quarter1”的销售数据立方,这个立方显示了“第一季度的家电销售量为605件,计算机825台”等信息。

第四,切块(Dice):切块操作是对两个或多个维执行选择,生成一个子立方体。例如,在某个销售Sales数据仓库中,根据条件(location=“上海”or“北京”)and(time=“quarter1”or“quarter2”)and(item=“家电”or“计算机”),对立方体进行按销售分区、季节和销售类型三个维上的选择操作,将得到一个新的满足条件的立方体。

第五,转轴(Pivot或Rotate):是一种改变视角的操作,这个操作不产生新的立方体,而只是对数据立方旋转一定角度后的替代表示。

OLAP还有其他的一些操作,诸如钻过(Drill-across)、钻透(Drill-through)等。OLAP提供了分析建模机制,包括推导比率、变差等以及跨越多个维的计算度量。OLAP能在每一个粒度级与所有维的交叉产生汇总、聚集和分层。OLAP还支持预报、趋势分析和统计分析的函数模型。

(3)在数据仓库基础之上的数据挖掘。在数据仓库的基础之上,可以进行三种类型的应用开发,包括查询处理、分析处理和数据挖掘。随着数据仓库的构建、进化,数据仓库中的数据就越来越具有高品质,越来越能支持从一般的数据查询到数据挖掘的功能实现。

在构建数据仓库之初,数据仓库主要用于产生报告和回答预先定义的查询。这些查询处理可以发现或反映直接存放在数据库中的信息,或通过聚集函数计算一些信息。但它们不能反映隐藏在数据库中的规律。因此,这个初期的信息处理并不等于数据挖掘。

随着数据仓库的不断进化,它可以用于分析汇总的、细节的数据。进而数据仓库可以用于决策,进行多维数据分析和复杂的OLAP分析处理。OLAP可以实现数据仓库中数据的一般描述,并能在用户的指导下进行汇总和比较。这些都使得OLAP实现了部分数据挖掘的功能,但它仍然无法实现自动发现隐藏在大量数据中的隐含模式和有趣知识的功能。

数据仓库在经历长时间充分进化后,可以用于数据挖掘。数据挖掘不限于分析数据仓库中的数据,它可以分析现存的、比数据仓库提供的汇总数据粒度更细的数据。它可以分析事务的、文本的、空间的和多媒体的数据。数据挖掘所涵盖的范围比OLAP要广泛得多,它除了可以执行OLAP操作外,还可以执行关联规则、分类、预测、聚类、时间序列分析等其他数据挖掘任务。

数据仓库为数据挖掘功能的实现提供了良好的基础。在数据挖掘的初期,用户常常并不十分清楚自己想挖掘什么类型的知识,通过将OLAP与多种数据挖掘功能的集成,可以为用户提供有用并有趣的知识。

(二)数据仓库在电子商务中的应用

电子商务实现了从传统贸易到网络贸易的过渡,顾客可以通过电子商务网站,自己浏览、选择所需要的商品。此外电子商务网站也可以借助网络来扩大市场份额,增加利润,了解顾客的群体特征,根据顾客的购买模式制定商品的营销策略。

数据仓库的建立与多维数据库上的联机分析处理能够满足电子商务的决策和管理者的需要。数据仓库系统的功能优势可以用于电子商务的各个业务领域。应用数据仓库中的数据进行电子商务决策,数据仓库中的数据都是经过预处理的、高粒度的汇总数据,这使得在数据仓库之上的应用,可以获得利用操作型数据无法获取的多维查询、分析结果。并且,所得到的结果其层次较高,所以更具有普遍的指导意义。

示例:根据某电子商务网站的订单事实数据表Order,以星型多维数据库模式,构造数据仓库Order,并实现从事实表Order到维的聚集计算。

星型结构的Order表与其关联维表有Time、Customer、Product、Region四个维,它们分别表示订单时间、客户信息、商品信息和订单区域以及订单金额(Total)、订单数量(Order-sum)两个度量值。事实表Order与这四个维表的星型结构如图10-4所示。

图10-4 订单数据仓库星型结构

示例说明如下:

2009年订单事实表Order包含的各维表外键及数据为:Time_key,Oduct_id,Customer_id,Region_code,Total,Order_sum(其中Time_key是时间维表的索引字段,可以是年、月、日、小时等)。

各维表结构如下:

商品维表:

Product_id,Product_class,Product_name

时间维表:

Time_key,Hour,Day,Month,Quarter,Year

地区维表:

Region_code,Region_name

Region_code      含义

1            东北

2            华北

3             华东

4             华南

5             西北

6            西南

客户维表:

Customer_id,Account_num,Name,Region_code,Phone

图10-5 订单在time/product/customer三个维上的立方体

如图10-5所示,在默认的情况下,在顶点(all)立方体,将对在三个维上的全部数据实施汇总操作,得到订单的总金额Total和订单的总数量Order_sum,结果为订单金额Total=100000万元,订单数量Order_sum=2000张。

对Order数据仓库的计算示例如下:

1.要求按季度汇总数据

(1)按Quarter对维表Time进行索引。

(2)得到订单金额在四个季度值Q1、Q2、Q3、Q4上的汇总细化值,分别是Q1=25000万元,Q2=10000万元,Q3=30000万元,Q4=35000万元。结果表明下钻操作的结果可以得到下一个层次的详细数据,在全年的订单总金额中,最多的订单金额发生在第四季度。

(3)对结果做出解释,可以调整电子商务网站的营销策略,或寻找第四季度订单较多的原因,以便于提供决策的依据。

2.要求查询不同地区的客户对商品种类的喜好情况

(1)按Region_code对Customer维表建立索引。此时,将按客户区域汇总数据。

(2)按Product_class对Product维表建立索引;为简单起见,假设Product_class的值为C1和C2两种。

(3)沿顶点立方体下钻,到达Product维表与Customer维表的组合立方体,分别按关键字Region_code、Product_class汇总事实表中的数据,得到C1、C2在6个地区(代号从1~6)的订单汇总数据,分别是C11=10000万元,C12=20000万元,C13=30000万元,C14=35000万元,C15=3000万元,C16=2000万元,C21=50000万元……

(4)解释结果数据:发现对于C1类商品,在华南地区的订单数量最多,而在西南和西北地区较少。管理决策人员应该考虑如何加强针对西南、西北地区C1类商品的营销。

二、数据挖掘

(一)数据挖掘简介

1.数据挖掘的概念

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又潜在有用的信息和知识的过程。在早期的数据挖掘研究中,数据挖掘等同于数据库中的知识发现KDD (Knowledge Discovery in Database)。在1995年第一届知识发现与数据挖掘国际学术会议上,专家将数据库中的大量数据比喻为“矿床”,因此,数据挖掘就是在“矿床”中挖掘“金子”。此后,数据挖掘的概念和术语就得以流传了。

关于数据挖掘的较为精确的定义是在1996年由Fayyad等人提出的:数据挖掘就是从存放在数据库、数据仓库或其他信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。

数据挖掘的一般原理步骤:

(1)建立数据库或数据仓库管理系统,对原始行业或营销数据进行存储、预处理;提供一般的查询、统计功能。

(2)在存储数据的基础上,对数据进行分析处理,寻找数据库中所蕴涵的规则、规律等有用的知识。

(3)对于需要挖掘的特定主题,可以根据用户的要求,选择特定的挖掘算法(如汇总、分类、回归、聚类等)进行挖掘。

(4)将所挖掘到的规则(知识)应用于实际系统中,进行规律或知识的验证。

总之,数据挖掘过程是一个对数据处理、反复迭代的过程。通常包含多个相互联系的步骤:预处理、提出假设、选取算法、提取规则、规则评价和解释、规则知识的应用。

示例:在一个包含有1000条记录的数据库中,存储着网络用户访问商务网站的数据。其中,有30%的客户年龄在20~30岁,根据这个事实可以推出:有30%左右的年轻人喜欢这个网站的产品。因此,该网站在产品开发中要更多地考虑年轻人的需要。

这个示例表明:通过分析、推理过程,可以从一个数据库中得到有用的知识。再通过所得到的规则,结合自己的领域知识,得到不能直接从数据库中得到的一些规则或规律,这就是数据挖掘(或知识发现)。

2.数据挖掘的任务

数据挖掘就是寻找数据库或数据仓库中有用的知识(模式),所谓“模式”是关于数据集合的某种抽象描述。模式分成描述型与预测型两种。描述型只能揭示数据集合中存在的规律或规则,或者是数据之间的相互联系;预测型则可以根据数据集合中的数据,预测一些未知的数据。

由数据挖掘的任务可以发现数据挖掘的研究涉及多门学科领域,主要有数据库、机器学习、统计学、模式识别、人工智能、神经网络、数据可视化等。数据挖掘的功能包括了概念类的描述、关联规则、分类、预测、聚类、趋势分析、偏差分析和类似性分析等。

在数据挖掘的研究中,还需要应用行业的背景知识。要实现数据挖掘的功能,通常是构建一个具有应用背景的数据挖掘系统。这样的系统包括了挖掘控制模块、数据库接口、背景知识库、数据查询模块、数据挖掘模块、模式评价模块、知识验证模块等几个部分。

各模块的含义如下:

(1)挖掘控制模块:初始化系统中的各个构件。

(2)数据库接口:响应查询请求,对数据源进行加工处理。

(3)背景知识库:相应领域知识数据库或数据仓库。

(4)数据查询模块:理解用户的挖掘主题,生成初始查询、统计结果。

(5)数据挖掘模块:完成相应的挖掘算法功能,输出挖掘的规则或可理解的知识。

(6)模式评价模块:根据模式的精度要求,对挖掘的中间或最后结果进行筛选。

(7)知识验证模块:将经验证的挖掘输出结果添加到背景知识库中,用以支持后续的挖掘。

完成数据挖掘任务的流程:

(1)准备待挖掘的数据,将其存于数据库或数据仓库中。

(2)确定要挖掘的主题知识类型,如需要确定是否要挖掘关联规则、分类或预测等。

(3)建立背景知识库,并对背景知识库中的数据进行概念分层,概念分层能够在多个抽象层挖掘数据。背景知识有助于指导、评价知识的发现过程以及所发现的模式。

(4)确定对挖掘知识的兴趣度度量。兴趣度包括支持度(出现规则模式的任务相关记录所占的百分比)和置信度(出现规则的蕴涵强度估计)。如果对所发现的模式的支持度与置信度低于用户指定的值,则这些规则被认为是不感兴趣的。

(5)发现模式的表示和可视化。输出由公式、规则、表格、图表、图、决策树等所表示的结果。

3.数据挖掘的方法

(1)决策树方法。利用信息论中的信息增益寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的不同取值建立树的分支,在每个分支子集中重复建立树的下层结点和分支的过程,即可构造一棵决策树。最有影响的决策树算法是ID3算法,数据库越大,该算法的效果越好,在ID3的基础上又发展了各种改进算法。

(2)关联规则挖掘。关联规则挖掘用于发现同一事件中不同数据项的相关性。典型的购物篮分析(顾客在一次购物中所进行的商品组合或集合)是一个引发关联规则挖掘的例子,它只是关联规则挖掘的一个形式。购物篮分析想要了解的是客户在一次购物中会同时购买哪些商品,以此作为调整营销策略决策的依据。

关联规则挖掘涉及下面几个方面的问题:

第一,规则所处理的数据类型:如果规则考虑所关联的属性是否存在,则它是布尔型关联规则挖掘;如果规则描述的是量化的项或属性之间的关联,则它是量化关联规则挖掘。

第二,规则所涉及的数据维:如果规则中关注的是单一的属性,则是单维关联规则挖掘;如果涉及两个或两个以上的维,则属于多维关联规则挖掘。

第三,规则所涉及的数据分别属于不同的概念抽象层,则是多层关联规则挖掘;否则是单层关联规则挖掘。

第四,关联规则的各种扩充分析:可以挖掘最大模式或频繁项集。

常用的Apriori算法是最有影响的挖掘布尔型关联规则频繁项集的算法,它分为两步,首先找出满足最小支持度阈值的频繁项集;然后由其形成满足最小置信度阈值的强关联规则。在应用中可以将Web挖掘得到的关联规则用于改进电子商务站点的结构,将相关联的商品放在一起,减轻用户过滤信息的负担,增加交叉销售。

关联规则挖掘的对象数据集,经常是超市、商场等交易数据集。每个交易包含一个数据项集,关联挖掘算法作用于交易集,返回各数据项集间存在的关系。

(3)概念树方法。对数据库中记录的属性按概念分层的方式进行抽象,所建立的层次结构称为概念树。应用概念树方法进行挖掘,可以得到更高一层的较为普遍的知识。例如,对于某个笔记本销售数据库中的数据,按地区属性的归类方式进行抽象,得到了在省份(或直辖市)一级的销售结果:上海地区的笔记本销售量远大于青海地区的销售量。在这个示例中,不以县或市作为规则挖掘的层次,而是上升到更高一层的省份(或直辖市)来进行挖掘,使得所挖掘的规则更有一般性。

(4)粗糙集方法。在数据库中,如果将行元素看成对象、列元素看成属性,又将属性分为条件属性与决策属性,则粗糙集方法研究的是条件属性对决策属性的支持情况。

等价关系R定义为不同对象的某个(或几个)属性上取值相同,这些由满足等价关系的对象组成的集合称为该等价关系R的等价类,条件属性上的等价类E与决策属性上的等价类Y之间有下面三种情况:

下近似:表示Y包含E;

上近似:Y与E的交为非空;

无关:Y与E的交为空。

在数据挖掘中,应用粗糙集的这三种关系可以进行规则的挖掘。对于下近似的情况,可以建立确定的规则;对于上近似的情况,可以根据置信度,建立不确定性的规则;对于无关的情况,不存在规则。

(5)神经网络方法。神经网络是一组连接的输入、输出单元,其中每个连接都与一个权值相关。在学习阶段,通过调整神经网络的权,使得能够预测输入样本的正确类标号。神经网络需要很长时间的训练,因而有足够长训练时间的应用较为合适。它需要大量的参数,这些通常靠经验确定。

最流行的神经网络算法是后向传播算法。它通过迭代处理一组训练样本,将每个样本的网络预测与实际知道的类标号进行比较,修改权以使网络预测与实际类之间的均方差最小。这种“修改”沿着网络向后传播,最后经隐藏层(如果有的话)到达输出层。

如果一个神经网络的输入为I1,I2,…,In,输出为O1,O2,…,On,那么经过训练神经网络可以提取到类似下面的规则:

If(I1=0and I2=0and I3=1)then class=1;

If(I2=0and I4=0and I5=0)then class=2。

(6)遗传算法。这是模拟生物进化过程的算法。由三个基本算子组成:

繁殖(选择):从一个旧种群中选择生命力强的个体,产生新的种群。

交叉(重组):选择两个不同个体的部分进行交换,生成一个新的个体。

变异(突变):对某些个体的某些基因进行变异处理(1变0,0变1)。

遗传算法有改良后代的作用。经过若干代的遗传,可以得到问题的解。遗传算法更适合应用于优化计算和分类机器学习等方面。

(7)统计分析方法。由于关系型数据库中的数据在字段之间存在着函数和相关两种关系。函数关系是可以用函数公式表示的确定性关系,借此可以得到一些规则;相关关系不能用函数公式表示,但可以采用回归分析、主成分分析等方法来得到其相关的确定关系和规则。

(二)数据挖掘技术在电子商务中的应用

电子商务利用以Internet为核心的信息技术进行商务活动和企业资源管理,其核心是高效率地管理企业的所有信息,提高内部管理效率,帮助企业准确进行市场定位,从而提高产品销售量,降低成本,获得更大的效益。然而企业如何对积累起来的海量数据进行分析、如何充分利用隐藏在这些数据背后的信息,已经成为电子商务企业越来越关注的问题。

应用数据挖掘技术可以帮助人们去寻找和发现隐藏在数据背后的知识,将其呈现给企业决策层,为产品定位、制定销售和服务策略、实施客户关系营销等提供有价值的支撑信息。

在电子商务中,营销策略的制定与实施是至关重要的,它决定了整个企业的命脉。而营销策略的制定与电子商务的特点、顾客购买行为的分类、库存结构的优化、商品的有效促销方式、良好的客户点击率以及Web网站的结构与布局等有关。

下面以市场营销、客户关系、Web平台三个方面分析数据挖掘技术在电子商务中的具体应用。

1.数据挖掘在市场营销中的应用

在市场营销中有一个有趣的故事:某超市在分析顾客的购买习惯时,惊奇地发现凡购买纸尿布的年轻男士,都会同时购买啤酒!为此对超市的商品重新进行布局,将纸尿布与啤酒放在相近的货架上。这是一个潜藏的、有用的知识。“纸尿布与啤酒”的故事告诉我们数据挖掘技术在商业领域的合理应用可以为企业带来可观的利润。

在市场营销的策略制定以及实施中,企业管理层可以按商品种类、销售数量、网站结构与布局、价格和日期等不同的分类方式了解企业每天的运营情况,对销售增长、库存变化以及通过促销而提高的销售额都可了如指掌。针对市场营销的特点,可以应用的数据挖掘技术有关联规则、分类、聚类分析等技术。

(1)应用关联规则挖掘,识别顾客的购买行为习惯。关联规则也称为关联模式,是美国BIM Almaden Research Center的R.Agrawal等人于1993年提出的,是数据挖掘研究中的一个重要课题。关联规则是指在大量数据中,项集之间有趣的关联或相关联系,关联规则发现的对象主要是交易数据库,它是描述库中数据项同时出现的规则模式。

设I={I1,I2,…,In}是一个数据项集。用D表示交易数据的集合。每条交易T对应于一个数据项(所购买的物品)的集合。关联规则是一种蕴涵关系:X→Y的蕴涵式(称为X蕴涵Y),其中X>I,Y>I,X∩Y=ō;且在Y中不存在X的祖先(上层概念)数据项,交易集D中规则X→Y,解释为购买X的顾客也会购买Y商品,并且该规则由置信度和支持度约束。

支持度(Support):它是对X→Y的重要性(或适用范围)的衡量,集合D中规则X→Y的支持度定义为物品集X,Y同时出现的概率。支持度描述了X和Y这两个物品集的并集在所有的事务D中出现的概率。

置信度(Confidence):它是对关联规则的准确度的衡量,集合D中规则X→Y的置信度定义为在物品集X出现的前提下,Y出现的概率。即置信度等于同时出现X和Y的支持度除以单独出现Y的支持度。

对于顾客购买行为的识别与分级,体现在强关联规则的挖掘中,可以通过用户指定的支持度和置信度来识别所挖掘的规则是否为用户感兴趣的强关联规则。

关联规则的挖掘在决策支持系统、专家系统和商务智能信息系统等各个方面起着重要的作用。通过对顾客购买行为习惯的识别与分析,以期制定合理的营销策略。通过对商品销售品种的活跃性分析和关联性分析,建立最优的商品结构,设置最佳的布局体系,合理利用库存资源,优化库存结构,发挥电子商务网站的各项功能。

(2)聚类分析,提供个性化服务。聚类是将具有相似特征的对象聚成一个簇(Cluster)。在电子商务信息挖掘中,可以进行两种聚类:用户聚类和页面聚类。用户聚类是对用户访问会话和用户访问事务的聚类分析,用户聚类是要建立具有相似浏览模式的用户Cluster。这样的规则对于电子商务中的市场决策和向用户提供个性化服务是非常有帮助的。而页面聚类是要发掘具有相关内容的页面Cluster,这对于Internet搜索引擎和Web提供商都是非常有用的。

聚类分析能够发现对特定商品感兴趣的用户,确定有效的商品促销手段,确定销售策略及广告业务的有效性。通过对顾客购买偏好的分析,确定促销目标客户群,在此基础上设计促销方案,挖掘客户潜在购买力,实现准确的商品促销。

聚类与分类不同,聚类是无指导学习的一个实例。聚类不依赖预先定义的类和带类标号的训练实例。聚类是观察式学习,而不是示例式学习。聚类分析能成为一个独立的数据挖掘工具,而获得数据分布的结果,观察每个簇的特点,可以得到有趣的知识规则。

主要聚类方法的分类:

第一,划分方法:给定一个具有n个对象或记录的数据库,将其划分为k个,每个划分表示一个聚集(簇),并且k≤n。这些簇满足下列要求:①每个簇至少包含一个对象。②每个对象必须属于且只属于一个簇。

第二,层次方法:层次方法对给定的对象集合进行按层次分解。根据层次分解的形成方式,层次聚类方法又可分为凝聚型与分裂型。

第三,基于密度的方法:绝大多数划分是基于对象之间的距离进行的聚类。DBSCAN是一个典型的基于密度的聚类算法。

第四,基于网格的方法:它将对象空间量化为有限数目的单元,形成了一个网格结构,所有的聚类操作都在这个网格结构上进行。

第五,基于模型的方法:基于模型的方法为每个簇假定了一个模型,寻找数据对给定模型的最佳拟合。一个基于模型的算法可能通过构建反映数据点空间分布的密度函数来定位聚类。

划分聚类算法描述:

算法:k-平均。划分的k-平均算法是基于簇中对象的平均值。

输入:簇的数目k和包含n个对象的数据库。

输出:k个簇,使平方误差准则最小。

方法:任选k个对象作为初始的簇中心;Repeat;根据簇中对象的平均值,将每个对象重新分配到最类似的簇中;更新簇的平均值,即计算每个簇中对象的平均值;Until不再发生变化。

划分算法的应用示例:假设有一个顾客年龄的对象集合Age={18,22,25,42,28,43,33,35,56},给定k=3,即按用户要求将这个年龄集合中的数据聚类为3个簇。根据算法演示聚类过程如下:

第一,以初始的3个对象18,22,25为初始簇中心。

第二,将Age集合中的对象,以最近簇中心原则,划分到3个簇中,第1遍划分结果:簇1={18},簇2={22},簇3={25,42,28,43,33,35,56}。

第三,重新计算各簇对象的平均值,分别为18,22,37。再次将Age中的对象,以最近簇中心原则划分到3个簇中,第2遍划分结果:簇1={18},簇2={22,25,28},簇3={42,43,35,33,56}。

第四,重新计算各簇对象的平均值,分别为18,25,42。再次将Age中的对象,以最近簇中心原则划分到3个簇中,第3遍划分结果:簇1={18},簇2={22,25,28,33},簇3={42,43,35,56}。

第五,重新计算各簇对象的平均值,分别为18,27,44。再次将Age中的对象,以最近簇中心原则划分到3个簇中,第4遍划分结果:簇1={18,22},簇2={25,28,33,35},簇3={42,43,56}。

第六,重新计算各簇对象的平均值,分别为20,30,47。再次将Age中的对象,以最近簇中心原则划分到3个簇中,第5遍划分结果:簇1={18,22},簇2={25,28,33,35},簇3={42,43,56}。

第七,重新计算各簇对象的平均值,分别为20,30,47。各聚类簇已经不再变化,算法终止。得到最后的聚类结果:簇1={18,22},簇2={25,28,33,35},簇3={42,43,56}。

该示例表明:如果这是某商务网站顾客的年龄聚集,可以看出与簇2相关联的顾客具有较强的购买力,可以针对他们制定个性化的促销方案。

在电子商务中客户聚类是一个重要的方面。通过分组具有相似浏览行为的客户并分析组中客户的共同特征,可以帮助电子商务的组织者更好地了解自己的客户,及时调整页面及页面内容,使商务活动能够在更大程度上满足客户的要求,向客户提供更适合、更面向客户的服务,使商务活动对客户和销售商来说更具意义。

2.数据挖掘在客户关系管理中的应用

所谓“客户关系管理”是指通过管理客户信息资源,提供客户满意的产品和服务,与客户建立起长期、稳定、相互信任、互惠互利的密切关系的动态过程和经营策略。在电子商务中,为客户关系管理提供了较之传统企业更为有效的支持,使得客户可以通过网站准确地访问企业的信息,为建立良好的客户与企业之间的关系打下了坚实的基础。

通过数据挖掘技术对大量的客户群体进行分类,同类的客户具有相似的属性。可以利用现有的客户信息和客户交易历史信息,分析流失客户的特征。在现有的客户中寻找出流失可能性比较高的客户,然后制定相应的营销策略,争取留住这些客户。

企业可以针对不同类别的客户,经常通过广告、优惠券、各种折扣和让利的方式促销产品,吸引顾客。认真分析促销活动对各类客户的有效性,进一步利用序列模式挖掘以分析顾客的消费或忠诚的变化,据此对价格和商品加以调整,以便留住老客户,吸引新顾客。

针对不同类型的用户,可以采用不同的购买推荐计划。购买推荐计划可利用Web、每周传单或收据做宣传,以便改进服务,帮助顾客选择商品,增加销售额。提供有针对性的产品和服务,以提高客户的满意度。

分类是将一个对象分到事先定义好的类中。在电子商务信息挖掘中,分类可用于帮助建立特定的用户类别,这需要抽取并选择最能描述这组特定用户的特征。分类可以使用监督学习算法,如决策树、分类器、支持向量机等。下面以决策树算法(ID3)为例,对电子商务的客户进行归纳分类。

(1)决策树算法的基本思想。决策树(Decision Tree)是一个类似流程图的树结构,其中每个结点表示在一个属性上的测试,每个分枝代表一个测试,每个树叶结点代表类或类的分布。树的最顶层是根结点。测试结点用矩形表示,树叶结点用椭圆表示。

为了对未知的样本数据进行分类,样本的属性值将在决策树的测试结点上被测试分枝,由根经测试结点到树叶结点的路径,将形成对数据的分类规则。

构造好决策树的关键在于如何选择好的逻辑判断或属性。对于同样一组数据,可以构造很多决策树。一般情况下,树越小则树的分类预测能力越强。要构造尽可能小的决策树,关键在于选择合适的测试属性和度量。

信息增益法(Information Gain)普遍地被用于决策树的测试属性度量。即在所有对分类类别产生影响的属性中,选择具有最高信息增益值(或称具有最大熵)的属性,作为当前结点的测试属性。这种方法能构造尽可能小的决策树,并确保找到一棵简单的树,以获得分类的规则。

信息增益法中信息熵的计算方法:

设S是s个数据样本的集合,假定类别号属性具有m个不同的值,定义m个不同类Ci(i=1,2,…,m)。设si是类Ci中的样本数。对于一个给定的样本分类所需要的期望值计算公式如下:

其中Pi是任意样本属于Ci的概率,并用si/S估算。

设属性A具有v个不同值(a1,a2,…,av)。可以用属性A将S划分为v个子集(S1,S2,…,Sv),其中,Sj是在S中,在属性A上取值为aj的样本子集。如果选择A作测试属性,则根据由A划分的子集的熵(Entropy)或期望值计算公式如下:

这样,在A上分枝将获得的编码信息:

算法基本思想:决策树算法计算每个属性的信息增益,具有最高信息增益的属性将被选作给定集合S的测试属性。创建一个结点,并以该属性标记对属性的每个值创建分枝,并根据此分枝进行分类。

决策树算法步骤:

第一,创建结点N。

第二,If T都在同一个类C then返回N作为叶结点,以类C标记。

第三,If attribute_list为空then返回N作为叶结点,标记为T中最普通的类。

第四,For each attribute_list中的属性,计算信息增益gain。

第五,选择attribute_list中具有最高信息增益gain值的属性作为结点N的测试属性test_attribute。

第六,标记结点N为test_attribute。

第七,For each test_attribute中的已知值ai,由结点N长出一个条件为test_attribute=ai的分枝。

第八,设si是T中test_attribute=ai的样本集合。

第九,If si为空then加上一个树叶结点,标记为T中最普通和最常出现的类。

第十,在该结点上执行Generate_decision_tree继续对它分裂。

决策树算法的应用示例:

有如下顾客购买数据,其中的数据记录与属性如表10-2所示。

表10-2 顾客购买数据

应用步骤:

第一,由表可知,分类属性class:买车,有两个不同值(yes,no),所以对于由该表给定的数据样本来说,有两个不同的分类,设C1对应yes,C2对应no。C1=9,C2=5。

第二,计算对给定样本所需的期望值:I(s1,s2)=I(9,5)=-9/14×log2 (9/14)-5/14×log2(5/14)=0.94

第三,从age开始,计算每个属性的熵。

对于age≤30,s11=2,s21=3,I(s11,s21)=0.97

对于31≤age≤40,s12=4,s22=0,I(s12,s22)=0

对于age>40,s31=3,s32=2,I(s31,s32)=0.97

计算对于age分类的期望值E(age)=5/14×I(s11,s21)+4/14×I(s21,s22)+5/14×I(s31,s32)=0.69

计算基于这种划分的信息增益是:Gain(age)=I(s1,s2)-E(age)=0.25

类似计算Gain(income)=0.029。由于age属性的信息增益最高,所以选age作为测试属性进行分枝。

第四,创建一个结点,用Age标记,并对每个属性值,画出一个树枝,如图10-6所示。

图10-6 age为测试属性的决策树

从决策树所得分类规则如下:

If age≤30and income=high then购买汽车;

If age≤30and income=low or medium then不购买汽车;

If 31<age≤40then购买汽车;

If age≥40and income=high or medium then购买汽车。

上述部分规则可以用以指导电子商务网站,从而有目的地进行汽车营销。决策树可以作为一些商业规则归纳系统的基础。

3.数据挖掘在Web数据平台中的应用

电子商务采用数字化方式进行商业活动,是在电子网络环境中进行商品和服务的贸易活动。随着网络的普及和Internet的发展,各企业均积累了大量的数据。如何从这些数据中发现潜在的规律以帮助制定企业今后的发展战略,是各电子商务平台亟待解决的问题。Web挖掘作为数据挖掘的一个重要分支,为上述问题提供了有效的解决途径。

Web挖掘是指从与Web相关的资源和行为中抽取感兴趣的、有用的模式和隐含知识。一般地,Web挖掘可分为三类:

(1)Web内容挖掘:是从文档内容或其描述中抽取知识的过程。它又可以分为Web页面内容挖掘和搜索结果挖掘。页面内容挖掘是指对Web页面数据进行挖掘,而搜索结果挖掘则是指以某一搜索引擎为基础,对已搜索结果进行挖掘。

页面内容包括的实际数据,如网站上的文本和图片等,主要是指HTML和XML页面的内容,包括本文、图片、语音、图像等。页面内容还包含了用户通过电子商务网站所查询的数据,它是用户的需求内容在服务器上产生的一种典型数据。

搜索结果挖掘,可以得到客户所感兴趣的信息,以便更好地为客户服务,对产品进行有针对性的促销等。

页面内容挖掘通常采用聚类、关联规则等数据挖掘技术。通过分类具有相似浏览行为的客户及客户的共同特征,可以帮助电子商务的组织者更好地了解自己的客户,及时调整页面及页面内容,使商务活动能够在更大程度上满足客户的要求,向客户提供更适合的服务,使商务活动对客户和销售商来说更具意义。

(2)Web结构挖掘:是从WWW的组织结构和链接关系中推导知识。它又可以分为外部结构挖掘、内部结构挖掘和URL挖掘。Web结构挖掘的目的是通过聚类和分析网页的链接,发现网页的结构和有用的模式规则。

通过Web结构挖掘改进站点的设计。站点的结构和内容是吸引用户的关键。通过挖掘用户的行为纪录和反馈情况为站点设计者提供改进的依据,如确定页面链接应如何组织、哪些页面应能够被直接访问等。通过Web结构挖掘,可以找出频繁访问路径,得到电子商务平台的主要页面,将重要的销售信息放在网页上,有利于用户快速找到自己需要的商品。

Web结构挖掘通常采用聚类、路径分析技术等进行。常用的路径分析方法是有向图。Web可以用一个有向图来表示,G=(V,E),V是页面的集合,E是页面之间的超链接集合。页面抽象为图中的顶点,而页面之间的超链接抽象为图中的有向边。顶点V的入边表示对V的引用,出边表示V引用了其他的页面。

(3)Web使用信息挖掘:Web日志挖掘,是通过挖掘Web日志记录,发现用户访问Web页面的模式。它又可分为一般访问模式挖掘和个性化服务模式挖掘。

Web使用信息包括服务器数据、客户登记信息等。服务器信息包括客户访问站点时在Web服务器上留下相应的日志数据,这些日志数据通常以文本文件的形式存储在服务器上。一般包括Sever Logs、Error Logs、Cookie Logs等。客户登记信息是指客户通过Web网页输入的、要提交给服务器的相关用户信息,这些信息通常是关于用户个人的特征信息。分析这些数据可以帮助理解用户的行为,从而改善站点结构或为用户提供个性化的服务。

利用Web使用信息挖掘,对大量消费行为模式进行分析,可精确地评价各种广告手段的效益,并组合设计出最佳的商品宣传组合方案,根据关心某产品的访问者的浏览模式来决定广告的位置,增强广告针对性,提高广告的投资回报率。

Web使用信息挖掘主要采用聚类、时间序列模式数据挖掘等方法。由于在网站服务器日志里,用户的访问是以一段时间为单位记载的。经过数据净化和事件交易确认得到一个间断的时间序列,这些序列所反映的用户行为有助于管理者向客户提供更有针对性的服务,此外还可帮助管理者找到潜在的客户。

(三)数据挖掘技术在电子商务中的应用案例

1.实施CRM战略

客户关系管理是以客户为中心的思想发展而来的管理理论。在客户关系方面,企业所能做的,就是尽可能地多收集顾客的信息,借助各种分析方法,透过无序的、表层的信息挖掘出内在的知识和规律,这就是数据挖掘技术所要研究的。在获得有用信息之后,企业就可以根据这些规律或信息设计数学模型,对未发生行为做出结果预测,为企业的综合经营决策、市场策划提供依据。

下面是实施CRM策略的几个方面:

(1)了解客户信息:企业不仅要想方设法了解顾客的地址、年龄、性别、收入、职业、教育程度等基本信息,对婚姻、配偶、家庭状况、疾病、爱好等的收集也要不遗余力。

(2)发现“黄金客户”:通过客户行为分析,归类出消费额最高、最为稳定的客户群,将其确定为“黄金客户”。针对不同的客户档次,确定相应的营销投入。对于“黄金客户”,往往还需要制定个性化营销策略,以留住高利润客户。

(3)客户关注点:通过对所收集大量客户消费行为信息进行分析,找出客户最关注的方面,从而有针对性地进行营销活动。同样的广告内容,根据客户不同的行为习惯,可以选择电话联系或发送信函等不同方式。同一个企业,会向其客户发送不同的信息,而这些信息往往就是顾客感兴趣的。

(4)客户忠诚度:根据客户持久性、牢固性及稳定性分析。对于高忠诚度客户,要注意保持商务网站的良好印象;对于低忠诚度客户,要么放弃,要么就下工夫把他们培养成忠诚客户。

案例1:基于智能体技术的服装零售个性化系统。该系统由客户模式工具集、产品模式工具集、零售商模式工具集、推荐生成机构、议价对话机构、反馈处理机构、推荐分析模式工具集、议价经验模式工具集、数据挖掘模式工具集九个部分组成。其中,数据挖掘模式工作集将提供适合服装销售的知识库和分析工具,其具有以下功能:①提供一系列的统计分析工具,在反馈机构中处理所获取的数据。②运用数据商业挖掘的数学模型,总结出关联规则及营销策略提供给零售商参考。③对系统的工作状态进行分析,必要时给出预警和提示。

该系统中的三个机构功能简介如下:

推荐生成机构:利用产品模式工具集、客户模式工具集、零售商模式工具集和推荐分析模式工具集,搜索相关的数据库,并通过智能体向消费者进行各种方式的推荐展示。机构本身就是一种智能体的媒介,可以用来连接消费者与后台数据库和工具集。

议价对话机构:能够提供人性化的个人对话模式,通过与消费者协商达到统一的价格认同。通过它,可以利用产品模式工具集、客户模式工具集、零售商模式工具集和议价经验模式工具集搜索相关数据库组织议价的进程。

反馈处理机构:能够收集在线消费者的网络消费行为数据,并且能够通过数据挖掘进行客户的个体化分析,可以动态地更新相关数据库。它通过利用产品模式工具集、客户模式工具集、零售商模式工具集和数据挖掘模式工具集,来提高整个信息交互系统的工作效率并改善个人客户的交互服务。

该系统的原型构建可以为在线消费者提供有效的交互方式,改善网络服装选购环境,获得新的在线购物体验。此外,系统也可以为服装网络零售商提供更为真实、更有价值的市场信息。在该系统研究的基础上,还需要对计算机展示服装的生动性,语义推荐的精确性和智能体算法的快速性等方面的问题进行进一步的研究工作。

案例2:客户满意度评价系统。它由客户信息子系统、综合评判子系统及决策计划子系统三个部分组成。

客户信息子系统:作为企业客户满意度衡量系统的组成部分,用于采集、处理、保存和传递客户的满意信息、为满意度测量与评价提供基础数据和背景数据,用于管理企业客户关系信息。

综合评判子系统:是客户满意度衡量系统中的重点。有许多技术可以用于分析综合、解释和推断,如统计分析技术、绘图和制表可以使数据变得清晰直观,更能说明问题。

决策计划子系统:当通过客户满意度评价子系统确认了基本问题以后,就应该经由一个过程将这些问题排入各职能部门的议事日程。企业应该具备一些经过深思熟虑的决策过程,通过它们可以向各职能部门人员明确提出问题,推荐解决办法,提出其结果的推测,做出风险估计,排出实现目标的时间及行动日程表,这些工作都在决策计划子系统中得到解决。

客户满意度衡量系统是一个闭环系统。它能感受到什么对客户很重要,并将这个信息与提供给客户的产品或服务进行比较,指出哪里需要改变,监测那些改变的部分,并且评价它们在调节企业与客户的整体关系上的效果。

2.制定商品营销策略

案例:面向电子商务的Web挖掘系统模型。该模型包括数据采集层、数据处理层、数据存储层、模式发现层、模式分析利用层和客户层六个层次。

模式分析利用层由个性化网站及商业智能组成,这也代表了Web挖掘在电子商务中的两大应用方向。

个性化网站由Web服务器、推荐引擎和推荐集三部分组成,其服务对象是网站的访问者,它的目的是将网页的内容从原先的以“网站”为中心转变成以“用户”为中心,尽可能地自动调整以迎合每个用户的浏览兴趣与购买模式,从而方便用户,增加采购量。

商业智能常用的模式分析技术有可视化技术、联机分析处理、数据挖掘查询语言。商业智能的服务对象是商家的决策层,数据挖掘的结果可以帮助他们了解客户,调整战略,改进促销手段,从而达到赢得竞争的目的。

该项目组与美国某电子商务公司合作,实现了面向电子商务的Web挖掘应用系统,为该公司解决了一系列问题,如“我们有多少客户”,“销售量是多少”,“这些客户的特征情况”,“他们的购买模式是什么”,“哪些商品和另外的商品是一起销售的”等。在这些问题中,前两者属于数据库的统计问题,而后三者则属于数据挖掘的范畴。通过数据挖掘提供这些问题的答案,这些结果的应用也为该公司带来了巨大的商机。

3.改进系统各项性能

电子商务网站如何减少用户访问延时、提高网络服务质量,改进系统的各项性能,这些已成为国内外的研究热点。通过采用Web预取技术,可以克服Web缓存在利用WWW访问空间局部性方面的内在缺陷,使缓存机制由时间局部性向空间局部性扩展。预取技术在提高电子商务网站的访问中,已经越来越显示出它的重要性。但在预取中仍有以下问题有待进一步探讨和研究。

(1)实时、高效的在线自适应预取模型。首先,必须降低预测模型的时间和空间复杂度。其次,提高对预取时机的预测准确率,而这方面的研究还很少。最后,从网络业务模型的角度研究预取控制。

(2)将客户端、代理服务器端和服务器端的预取作为一个整体进行研究。大多数的预取算法都是将客户端、代理服务器端和服务器端的预取分开进行研究。这样的研究方式并不能解决诸如设置预取的时机、预取的数量以及不同预取之间应该如何协作等问题。为了解决这些问题,必须将客户端、代理服务器端和服务器端的预取作为一个整体来研究。

(3)动态流行度分布模型。某个对象的流行度在它的生命期内是变化的,用户对新出现对象的兴趣比较高,随着时间流逝,这种兴趣度逐渐变弱。如果没有考虑Web对象的生命周期,并不适合于模拟真实的网站环境,为了提高预取的准确率,必须研究对象在其生命期内的动态流行度分布模型。

(4)正确获得用户会话集。相关研究主要集中在日志文件的挖掘及预测上,将其中一部分的日志用于训练,将另一部分用于预测,并且将日志文件按照同一个IP地址划分成不同的会话集。由于有很多用户共用一个IP和用户的随机访问,所以会话集并不能真正地代表某个用户的访问序列,而是存在着很多的噪声。此外,日志文件并不能真正反映用户的请求,在客户端满足的某些请求并不能反映服务器上。

(5)基于访问路径和基于语义的预取模式相结合。基于URL访问路径的预取模型通过构造访问概率图来预测将来的访问,这种方法对于路径访问规律比较明显的用户效果很好,而基于语义的方法是根据用户已经访问的网页的关键字进行预取,这种方法能够预测用户从来没访问过的网页。将基于访问路径和基于语义的预取模型相结合,能在很大程度上提高预取的性能。

4.增强商业信用评估

增强商业信用评估,构建和谐社会体制,发达的社会信用水平是发展电子商务的重要基础,通过对企业数据统计和历史记录之间的差别、结果与期望值的偏离以及反常实例进行充分的数据挖掘,可有效地防范投资和经营风险。通过数据挖掘技术对企业经营进行跟踪,开展企业的资产评估、利润收益分析和发展潜力预测,构建完善的安全保障体系,实施网上全程监控,强化网上交易和在线支付的安全管理。利用数据挖掘的信用评估模型挖掘交易历史数据,发现客户的交易数据特征,建立客户信誉度级别,有效地防范和化解信用风险,提高企业信用甄别与风险管理的水平和能力。

电子商务是现代信息技术发展的必然结果,也是未来商业运作模式的必然选择。在全球经济一体化的形势下,应该加强网络基础设施建设,积极推动企业的信息化进程,健全电子商务的安全立法和完善物流配送体系,为电子商务的发展营造良好的环境。同时,加强多媒体数据挖掘、文本数据挖掘和网络数据挖掘等研究,解决数据质量、数据安全与保密以及数据挖掘与其他商业软件的集成等问题。利用数据仓库和数据挖掘等现代信息技术,充分发挥企业的独特优势,促进管理创新和技术创新,使企业在电子商务的潮流中立于不败之地。

本章重要术语

数据仓库(DW)

联机分析处理(OLAP)

数据挖掘(Data Mining)

关联规则(Apriori)算法

联机事务处理(OLTP)

数据立方体(Data Cube)

决策树(ID3)算法

习题

1.什么是数据仓库?它与普通的数据库有什么区别?

2.数据仓库采用什么数据模型?

3.什么是数据挖掘?简述数据挖掘的任务流程。

4.简述常用的几种数据挖掘方法,“纸尿布和啤酒”的故事告诉我们的是哪一种数据挖掘方法?

5.在关联规则的挖掘中,如何确定所得到的规则是用户感兴趣的强关联规则?简述规则的支持度与置信度的定义。

6.聚类与分类有何区别?

7.什么是Web挖掘?简述Web挖掘的三种类型。

8.什么是关系营销?简述关系营销中的关系。

9.试述客户关系管理的核心思想。

10.什么是呼叫中心?其基本构成如何?

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈