首页 百科知识 流程挖掘的内容

流程挖掘的内容

时间:2022-06-27 百科知识 版权反馈
【摘要】:根据流程挖掘目的的不同,流程挖掘的内容可以分为流程模型重建、组织视图挖掘、流程监控等。Petri网是流程建模的一种方法,可以高效地表示流程活动之间的关系,还能描述流程的动态行为。同时,α算法不适合挖掘具有循环等结构的流程模型。

根据流程挖掘目的的不同,流程挖掘的内容可以分为流程模型重建、组织视图挖掘、流程监控等。

1.流程模型重建

一些学者早期对流程模型重建进行了研究,目前流程挖掘的主要成果也主要集中在流程模型重建,提出许多不同的方法,例如前面提到的基于有向图的挖掘方法和基于Petri网的α算法

Agrawal较早地提出了基于有向图的流程挖掘算法,强调满足完整性、正确性和简单等指标[5]。完整性表示流程日志中出现的所有活动以及活动之间的依赖关系都可以由流程模型产生。正确性表示流程模型不能出现日志中所没有的活动以及活动之间的依赖关系,正确性在验证挖掘到的流程模型时非常重要,因为有些流程模型虽然满足完整性但允许日志之外更多的行为,这种流程模型称为泛化模型。流程简单与否直接影响流程模型的可读性和流程质量,复杂的流程模型使人们理解有难度,且管理的难度增加。

基于有向图的流程挖掘算法能够较有效地挖掘流程模型,但算法将每个活动作为一个原子事件,而没有考虑每个活动从开始事件到结束事件之间的时间间隔,导致活动之间的并行关系难以识别。针对上述问题,Aalst采用了Petri网提出了α算法[6]。Petri网是流程建模的一种方法,可以高效地表示流程活动之间的关系,还能描述流程的动态行为。α算法的核心思想是将流程活动之间的时序关系分为顺序关系、因果关系、并行关系和或选关系。α算法具有过程简单,计算时间短等优点,但处理噪声能力不足,对日志数据质量要求较高。同时,α算法不适合挖掘具有循环等结构的流程模型。

表2.4所示是流程日志的简单整理,按照活动发生的开始时间顺序排列活动。此处包括10个流程实例。利用α算法挖掘得到的流程模型如图2.1所示。

表2.4 简化的流程日志

除了基于有向图的流程挖掘和α算法外,还有β算法、基于聚类的挖掘方法、基于遗传算法的挖掘方法、基于频率-依赖关系的挖掘方法和增量式挖掘方法等也是流程模型挖掘重要的方法[7]。有兴趣的读者可以参考文献[4]等相关资料深入研究。

利用流程挖掘技术得到符合当前实际情况的流程模型,并把此流程模型和原有的流程模型进行比较。同时,流程挖掘是一个不断迭代的过程,构成了流程不断优化闭环,如图2.20所示。

【例2.1】 HP公司的费用审批流程分析[8]

这里选择HP公司费用审批流程运行5个月产生的50 000个流程实例日志数据为例。首先对数据预处理后,导入到星型结构的流程数据仓库。其中的流程运行数据包括流程发起和完成时间、当前状态、发起人、活动开始、结束时间和使用的资源等。然后进行在线分析处理和流程挖掘分析,如图2.21所示。

图2.21 HP公司的费用审批流程分析

在图2.21中,费用审批流程在流程(工作流)引擎运行后,会产生很多费用审批流程实例的日志,这些数据经过一致性检查,并纠正错误等预处理后装载到流程数据仓库。然后就可以进行在线分析处理,通过仪表盘、报表等可视化形式显示流程的性能指标,发现流程的问题,并在必要时进行提醒。还可以通过驾驶舱进行业务流程质量分析、监测和管理。例如,可以发现下面行为之间的关联:当订单值超过15 000美元时,费用审批流程的处理时间会变长,这种情况下2/3的订单处理会超过10天,还可以进一步分析什么原因导致了拖延。此外,使用SAS Enterprise Miner的决策树方法,帮助用户识别某些流程行为产生的原因,生成预测模型,预测运行中的费用审批流程发生不同行为的概率。例如,对费用审批流程实例进行分类分析,可以得到下面的规则:数值大于18 000美元且由John审批的订单处理时间会超过15天;当审批环节大于2小于等于6,并且启动日为星期五的时候,整个审批流程需要经历时长超过8天的可能性也比较高。

2.组织视图挖掘

到目前为止,流程挖掘的研究热点仍然集中在控制流视图的分析。组织视图是流程模型的重要内容,流程的高效运行需要活动主体(参与者)之间的相互配合。活动主体对流程的绩效有着重要的影响。只有少数学者对流程的角色、执行者的协调关系进行探讨,如何实现流程活动主体之间的高效协作是流程管理的重要问题。

目前,学术界对组织视图挖掘的研究主要集中在社会网络分析、活动资源分配、角色识别等方面。通过组织视图挖掘,业务人员可以了解流程执行者的负荷、分工以及协调关系,确定合理的组织结构,分析组织结构的优化潜力。例如,Aalst教授将流程挖掘技术应用到荷兰某省负责道路和水利建设的公共事务局管理流程,分析施工单位、环境局和居民等多个组织之间的关系特点[9]

在流程运行过程中,每个角色一般对应多个执行者,一个执行者也可充当多个角色。流程执行者的组合方案对流程执行的效率有着重要的影响。流程挖掘方法对流程运行的历史数据进行分析可以为流程执行者的分配提供建议。例如,Linh Thao Ly等利用决策树从流程日志中挖掘出每个岗位的分配规则,并以此知识为指导,为流程活动的执行者分配提供依据[10]

角色识别属于角色工程领域的研究内容。角色识别可以通过分析执行者的活动以及执行者之间的交互情况,确定执行者承担的角色,规划合理的人员分工(staff assignment)方案。例如,Jürgen Schlegelmilch等分析执行者使用某些应用的权限组合,确定执行者承担的角色[11]

在分析执行者或组织之间的关系时一般可以从以下方面考虑:分析执行者之间的工作交接情况,统计执行者之间的活动交接次数,根据交接次数进行组织分析;也可以分析执行者一起工作的次数,统计执行者共同完成流程实例的次数[12]

组织视图的分析还可以通过分析活动执行者对资源、时间和费用的消耗情况,获得执行者的执行能力以及执行者之间的协调关系,为运行中流程活动推荐合适的执行者。

表2.5所示是图2.1的技术支持流程生成的10个流程实例,对应表2.3。表中按顺序列出了每个活动的执行者(参与者)之间的关系,如图2.22所示。其中,椭圆内的名字表示执行者,有向箭头表示工作交接关系,箭头上数值表示执行者之间的工作交接次数。例如,Mary 1次将工作交给了Alice,2次将工作交给了Tom,3次将工作交给了John。此外,Mary还从John手上接过1次工作。从图2.22可以看出,Alice,Mary,John和Tom之间的工作交接关系极为紧密。

表2.5 流程实例日志

图2.22 执行者工作交接关系示意

活动执行者工作交接关系较为复杂,一般需要对工作交接关系进行处理。其中,最常用的方法是根据工作交接关系,对活动执行者进行聚类分析。然后根据执行者分组进行相关的组织分析,赋予执行者相应的角色。

一般而言,具有相同角色或执行类似工作的执行者,或者属于同一部门的执行者之间的关系较为紧密。这里称这些执行者为同类执行者。如果流程日志量足够大,同类执行者内部的工作交接就会较多,在工作交接关系图中同类执行者之间可能会形成一个工作交接环路。也就是说,如果在工作交接关系图中,某几个执行者之间构成一个工作交接环路,那么这几个执行者就可能属于同类执行者。

在图2.22所示的执行者工作交接关系中,Alice,Mary,John构成了一个环路,事实上Alice,Mary,John属于同类执行者。类似地,David和Simon,Jack和Henry也构成了一个工作交接环路,David和Simon,Jack和Henry也属于同类执行者。将同类执行者进行合并,如图2.23所示。

图2.23 执行者工作交接关系合并示意

由图2.23容易看出,Tom主要执行由Alice,Mary,John等执行的活动集合与由David,Simon等执行的活动集合之间的活动。类似地,Peter与David,Simon关系较为紧密,而与Nicho关系较弱,因此可以将Peter进一步归到David,Simon一组,如图2.24所示。

图2.24 执行者工作交接关系二次合并示意

在图2.24中,执行者之间的关系更加明显,Nicho充当两组执行人员之间的联系环节。根据图2.1的流程模型,Alice,Mary和John为呼叫中心团队的成员,David,Simon和Peter为支撑团队的成员,Jack和Henry为开发团队的成员。

除了工作交接关系图之外,执行者工作交接表也可以表示执行者之间的关系。执行者工作交接表的纵向为工作交接的提交方,而横向为工作交接的接受方。这里假定位于对角线上方的数值表示工作交接的正方向,而位于对角线下方的数值表示工作交接的逆方向。例如,对应表2.5的执行者工作交接关系如表2.6所示。

表2.6 执行者工作交接关系

对执行者活动交接情况进行分析,可以为流程执行者的分配提供有用的参考信息,使执行者得到充分利用,提高了活动执行效率和资源利用率,降低了执行时间。例如,对于图2.25,考虑活动D,E,F的执行者安排,可以分别交给David或Simon,Simon或David,Peter执行。如果David和Simon均有其他活动安排,则由Peter执行活动D较为合适。

此外,对活动和执行者之间的对应关系进行分析,可以得到流程活动的执行角色,这也是角色识别的一种方法。对于表2.5所示的流程日志,将活动和执行者分组之间建立对应的关系,如图2.26所示。其中,箭头表示执行者负责活动,箭头上的数字为活动被执行者执行的次数。

图2.25 活动和执行者的对应关系

图2.26 活动和执行者分组的关系

从图2.26可以看出,Alice,Mary和John主要负责活动A,B 和C,而且根据前面的分析可知,他们可以承当同一个角色。由此,可推断出活动A,B和C应为同一类型的活动。而Tom负责活动C,这说明Tom与Alice等属于同一个部门的执行者。类似地,David,Simon和Peter等负责了活动D,E和F,则可以推断出活动D,E和F为同一种类型的活动,而Nicho负责活动E和活动F,则Nicho应是同David等同一部门,且负责部门之间的联系。由于Jack和Henry主要负责活动G和H,因此活动G,H是同一种类型的活动。

以上分析结论跟实际流程模型是一致的:A,B,C为呼叫中心负责的活动;D,E,F为支撑团队负责的活动;活动G,H由开发部门负责。

通过分析流程日志,不仅可以获得流程的组织关系,还可以对执行中的流程实例动态推荐活动的执行者。执行者之间的协调关系可以通过执行者组合的执行效率、资源利用率等指标来度量,优先选择协调效率高的执行者组合成流程的工作团队。

3.流程监控

流程挖掘可以得到有用的流程知识。对流程的运行进行监控是流程管理的重要手段,及时从流程日志数据中获得流程的关键绩效指标,可以帮助管理者了解流程的运行状况,优化流程的运行。

在流程管理中,发现问题有时比解决问题更重要。流程监控的目的之一便是通过对流程执行状况进行实时监控,了解流程的性能。通过分析流程的性能,发现流程结构和参数的瓶颈。此外,对运行中的流程性能进行分析,可以预测流程执行的未来状况。根据流程当前的执行状况,对流程进行调整,以优化流程后续执行。例如,可以增加执行者的数量或更换执行效率更高的执行者,以保证按时完成后续流程的运行。

流程监控还可以发现非正常完成的流程实例。在流程挖掘中,通过对流程日志的活动进行关联分析,得到流程的频繁模式。频繁模式是流程中经常出现的活动序列,它可以帮助管理者及时了解流程的变化。例如,当流程实例的活动序列与某个频繁模式子序列的前i个活动相同,但与第i+1个活动不同时,则流程实例可能出现异常行为。流程的频繁模式挖掘方法已得到一些学者的关注。Agrawal等挖掘流程实例中不小于一定阈值的极大序列作为序列模式[12,13]。Aalst教授讨论了α算法在审计安全中的应用,通过分析审计流程日志,建立相应的流程模型,然后将挖掘得到的流程模型和其他模型对比,发现了一些非正常行为[13]。Yang等也给出了一种基于流程挖掘的医疗保险反欺诈方法[14]

除计算机仿真分析、多维分析和流程挖掘等流程智能技术外,流程验证等技术也可以用于智能化的流程管理。流程验证是指通过模拟检测等手段对流程的可行性和质量等进行验证,在流程执行前检测出存在的问题和不足,减少流程正式运行时发生错误的概率。例如,Spin是一种流程模型模拟检测工具,能够检测流程中存在的错误,确保流程的正确性[15]。文献[14]还利用Spin工具,对某企业的负面新闻审批流程进行了验证,找出了流程中存在的反例路径。

有关数据仓库、在线分析处理以及数据挖掘的基本理论,请读者参阅作者编写的《商务智能(第三版)》[16]。具体的技术细节本书不再累述。

参考文献

[1]Diogo R F,Daniel G.Discovering process models from unlabelled event logs.Proceedings of the 7th International Conference on BPM,Ulm,Germany,2009:143-158

[2]Inmon W H.Building the data warehouse.New York:John Wiley& Sons,2005

[3]Jonathan E C,Alexander L W.Discovering models of software processes from event-based data.ACM Transactions on Software Engineering and Methodology,1998,7(3):215-249

[4]Van der Aalst W M P.Process mining:discovery,conformance and enhancement of business processes.Berlin:Springer Verlag Heidelberg,2011

[5]Rakesh A,Dimitrios G,Frank L.Mining process models from workflow logs.Proceedings of the 6th International Conference on Extending Database Technology:Advances in Database Technology.Valencia,Spain,1998:469-483

[6]Van der Aalst W M P,Weijters A J M M.Process mining:a research agenda.Computers in Industry,2004,53(3):231-244

[7]Lijie W,Jianmin W,Van der Aalst W M P,et al.A novel approach for process mining based on event types.Journal of Intelligent Information Systems,2009,32(2):163-190

[8]Daniela G,Fabio C,Malu C,et al.Business process intelligence. Computers in Industry,2004,53(3):321-343

[9]Van der Aalst W M P,Reijers H A,Weijters A J M M,et al.Business process mining:an industrial application.Information Systems,2007,32 (5):713-732

[10]Linh T L,Stefanie R,Peter D,et al.Mining staff assignment rules from event-based data.Proceedings of the International Workshops on BPM,Nancy,France,2006:177-190

[11]Jürgen S,Ulrike S.Role mining with ORCA.Proceedings of the 10th ACM symposium on Access control models and technologies,New York:ACM,2005:168-176

[12]Van der Aalst W M P,Song M.Mining social networks:uncovering interaction patterns in business processes.Proceedings of the 2nd International Conference on BPM,Potsdam,Germany,2004:244-260

[13]Van der Aalst W M P,de Medeiros A K A.Process mining and security detecting anomalous process executions and checking process conformance.Electronic Notes in Theoretical Computer Science,The Netherlands:Elsevier Science Publishers,2005:3-21

[14]Wan-Shiou Y,San-Yih H.A process-mining framework for the detection of healthcare fraud and abuse.Expert Systems with Applications,2006,31(1):56-68

[15]丁明,鱼滨,陈峰,等.基于线性时序逻辑的业务流程验证.西北大学学报,2012,42(2):226—230

[16]赵卫东.商务智能.第三版.北京:清华大学出版社,2013

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈