過程挖掘(Process Mining Manifesto):從日誌中挖掘知識

iteye_4389發表於2013-02-26

近年來,事件日誌資料越來越多,也越來越容易獲取。作為一個年輕的跨領域的交叉研究方向,過程挖掘發展迅速。什麼是過程挖掘,過程挖掘演算法如何在各類學術和商業系統中得以實現,以及過程挖掘面臨哪些技術挑戰。本文將進行深入探討。

  • IEEE過程挖掘工作組

過程挖掘(process mining),指從現代資訊系統中常見的事件日誌中獲取過程知識,發現、監測和改進實際系統行為模式(用過程模型來表達)。其原理如圖1所示。

圖1 過程挖掘:從事件日誌中抽取資訊,從而發現、監測和改進過程
過程挖掘在資料探勘和業務過程管理之間搭建了一個重要的橋樑,推動了新型商務智慧(business intelligence,BI)技術發展。比如,業務活動監測(business activity
monitoring,BAM)用來實時監測業務過程執行情況;複雜事件處理(complexevent processing,CEP)用於業務監測、引導和優化;公司業績管理(c o r p o r a t eperformance management,CPM)度量過程或者組織效能。其他技術還有持續過程改進(continuous process improvement,CPI)、業務過程智慧(business processintelligence,BPI)、全面質量管理(totalquality management,TQM)和六西格瑪管理(6-Sigma)等。這些技術都將過程“放在顯微鏡下”觀測,以尋找改進的可能性。因此,過程挖掘是CPM、BPI、TQM、6-Sigma等管理理念的使能技術。
過程挖掘現已成為業務過程管理(BPM)研究中的熱門課題之一,有一群很活躍的研究者致力於過程挖掘工作。工業界對過程挖掘也表現出濃厚的興趣,越來越多的軟體商將過程挖掘功能新增到他們的軟體產品中,包括:ARIS
PPM(Software AG)、Comprehend(Open Connect)、Discovery Analyst(StereoLOGIC)、Flow(Fourspark)、Futura Reflect(Futura Process Intelligence)、Interstage Automated Process Discovery(
Fujitsu)、OKT Process Mining suite(Exeura)、ProcessAnalyzer(QPR)、ProM(TU/e)和Reflect|one(Pallas Athena)等。

面向日益增長的對日誌資料進行過程分析的需求,2009年IEEE計算智慧學會(Computational IntelligenceSociety)下的資料探勘技術委員會(DataMining Technical Committee)設立了IEEE過程挖掘工作組(IEEE Process Mining Task Force)[1]。

目前IEEE過程挖掘工作組包括三類成員:(1)軟體製造商,包括HP、IBM、Infosys、SoftwareAG、Pallas Athena、Fujitsu Laboratories等;(2)諮詢公司/終端使用者,包括Gartner、Process-Gold、Business Process Trends、Deloitte等;(3)研究機構,包括如TU/e、University of Calabria、Penn State University、Queensland University ofTechnology、University of Haifa、K.U. Leuven、清華大學、University of Innsbruck等。

IEEE過程挖掘工作組的使命:(1)向使用者、開發者、諮詢顧問、業務經理和研究人員展現過程挖掘的最新成果;(2)促進過程挖掘技術和工具的使用,推動開發新的應用軟體;(3)致力於日誌資料記錄的標準化;(4)組織過程挖掘培訓、學術會議、專題研討班;(5)發表學術文章、出版教程書籍、釋出專刊和視訊。

為了推動過程挖掘作為業務過程設計、改進和控制的新型工具的進一步發展,2011年IEEE過程挖掘工作組釋出了《過程挖掘宣言》[2]。該宣言闡述了過程挖據技術發展現狀、應用指南和未來挑戰,得到了學術界、工業界和終端使用者的廣泛關注,目前已被翻譯成漢語、荷蘭語、法語、德語、希臘語、義大利語、日語、韓語、葡萄牙語、西班牙語、土耳其語等11 國語言。

  • 發展現狀

資訊系統的廣泛應用使得事件記錄(日誌資料)變得無處不在,包括從ATM機中取款、醫生校準X射線機、公民申請駕照、納稅申報的提交、遊客獲取電子客票等。簡單收集日誌資料並不能解決人們所關心的管理問題,比如洞察異常、識別瓶頸、預測問題、違規判定、對策推薦和優化處理等。為了解決上述問題,過程挖掘應運而生,其本質在於支援以一種有意義的方式利用日誌資料。

過程挖掘的起點是日誌資料。過程挖掘技術假定系統能夠連續地記錄事件,每個事件代表一個活動(對應過程模型的某個任務),同時每個事件都和一個特定的案例(即一個過程例項)相關。事件日誌還包括其它資訊,如資源(即人或裝置)的執行或初始化活動、事件的時間戳或者在事件涉及的資料元素(如訂貨數量等)。


圖2 三種典型的過程挖掘場景:過程發現、符合性檢查和模型增強

過程挖掘典型應用場景(如圖2所示)包括:過程模型發現(即從日誌資料中挖掘出過程模型)、合規性檢查(即通過對比模型和日誌來監測執行偏差)、過程模型演化/增強、社交網路/組織挖掘、模擬模型的自動生成、模型修復、案例預測,以及基於歷史的推薦等。

認識資料探勘技術要避免三方面誤區:

過程挖掘僅侷限於控制流發現 控制流發現當然是過程挖掘中最令人興奮的應用,然而,過程挖掘並不侷限於控制流發現,還可以發現相關的組織模型、案例模型(即業務資料模型)和時間約束等資訊。
過程挖掘只是資料探勘的一種簡單應用 傳統資料探勘技術(如關聯規則和決策樹等)並不是以過程為中心,過程挖掘以支援併發語義的過程模型來表徵挖掘結果,傳統資料探勘技術並不能有效解決這一問題。
過程挖掘僅侷限於離線分析 過程挖掘通常是從歷史事件資料中提取過程知識,但是過程挖掘技術也可以應用於正在執行的案例中。例如,可以藉助於發現的過程模型來預測正在執行的使用者訂單的完成時間。

  • 主要挑戰

過程挖掘仍然是一門新興研究方向,一方面,日誌資料規模以驚人的速度增長,軟體日誌(softwarelog)已成為人們公認的大資料之一[3],另一方面,過程和資訊需要進行對齊,以滿足與符合性、效率和使用者服務相關的需求。《過程挖掘宣言》總結了過程挖掘領域面臨的主要挑戰如下:

發現、合併和清洗日誌資料 獲取可用的日誌資料需要克服以下困難:(1)資料可能分佈在多個資料來源上,這類資訊需要關聯與合併;(2)事件資料有時“以物件為中心”,而非“以過程為中心”,例如,RFID標籤記錄的事件會指向所綁定的產品、集裝箱或容器;(3)事件資料可能是不完備的,有些事件的時間資訊可能丟失;(4)一個事件日誌可能包含異常行為,也稱為噪音或不一致;(5)日誌會包括不同粒度與級別的事件,比如,時間戳精度範圍從精細的毫秒級別(28-9-2011:h11m28s32ms342)到粗糙的日期資訊級別(28-9-2011);(6)某些事件發生在特定環境中,如天氣、負載、一週的某一天等等。

處理多類日誌資料 不同事件日誌的特徵有著很大差異。有些事件日誌規模特別大,以至於難以處理,而有的事件日誌規模特別小,以至於沒有足夠的可用資料來得出可信的結論。由於事件日誌只包含樣例行為,它們不應該被假定為完備的。過程挖掘技術需要通過“開放世界假設”來處理不完備性,所謂“開放世界假設”指的是:某些事情沒有發生並不意味著它不能發生。這給處理包含許多變化的小規模事件日誌帶來了挑戰。
構建廣泛接受的基準 當前過程挖掘技術與產品還沒有形成統一的評價標準。一方面需要真實資料集;另一方面也需要人工資料集。對真實資料集的需求是不言而喻的,而人工資料集,如不完備事件日誌、有噪音的事件日誌,則有助於開發新型過程挖掘技術。
處理概念漂移 概念漂移是指,業務過程模型隨著時間推移而改變,即過程演化。例如,在業務初期,兩個活動是併發關係,隨著業務的推進,日誌中這些活動變成了順序關係。在實際應用中,只有少數過程模型處於相對穩定狀態,因此理解概念漂移對於過程管理來說非常重要。為了應對概念漂移需要創新性研究工作。
改進過程模型的表示方式 過程挖掘技術需用一種建模語言(如BPNM或Petri網)描述結果模型。選擇一種建模語言,即意味著限制了過程挖掘的探究空間:不能被建模語言表示的過程不能被發現。建模語言是否允許併發,對發現模型的視覺化和演算法考慮的模型類別都會產生影響。過程挖掘領域需要一種更嚴謹和精確的表示方式。權衡擬合度、簡潔度、精確度和泛化度等。

質量標準 事件日誌通常是不完備的,即只記錄了一些樣本行為。過程模型有四個互相競爭的質量維度:擬合度、簡潔度、精確度、泛化度。權衡擬合度、簡潔度、精確度和泛化度仍是一項挑戰性工作。

跨組織過程挖掘 傳統上,過程挖掘應用於單一的組織內部。但是,隨著服務技術、供應鏈整合和雲端計算的普及,會遇到包含多組織的事件日誌的應用分析場景。原則上,對於跨組織的過程挖掘來說,存在以下兩種情況:一,我們可考慮不同組織協同工作,處理過程例項的協作環境;第二,不同組織環境中執行相同的過程,需要分享業務經驗與知識。跨組織過程挖掘技術應該考慮隱私和安全問題,組織間也許因為競爭或缺乏信任的原因而不想分享資訊。因此,開發隱私保護的過程挖掘技術是很有必要。
提供線上運營支援 過程挖掘起步於對歷史資料的分析,今天多數資料來源都是(接近)實時更新的,我們有時會期望即時完成事件資料的分析。過程挖掘已不侷限為離線分析,開始提供線上運營支援。歷史資料可以用來構建預測模型,這些模型被用來指導正在執行的過程例項。例如,有時需要預測一個案例的剩餘處理時間,有時需要構建一個任務推薦系統,以減少開銷、縮短時間。線上過程挖掘技術,對計算能力和資料質量都提出了新的挑戰。
融合過程挖掘與其它型別的分析技術 運營管理,特別是運籌學,是一個依賴於建模技術的管理科學分支。它使用了各種數學模型,從線性規劃和專案規劃到排隊模型、馬爾科夫鏈和模擬模型。資料探勘被定義為“通過對資料集(通常是大資料集)所做的分析,來尋找未知關係,以及用一種容易被資料所有者理解且有用的新型方式總結概括資料”。過程挖掘技術,應該與分類(如決策樹學習)、迴歸分析、聚類(例如,k均值聚類)和模式發現(如關聯規則
學習)等已經開發的技術融合使用。

方便終端使用者使用 過程挖掘的目標之一是構造“實時過程模型”,即正在使用的過程模型,而不是已經歸檔的過程模型。新產生的事件資料可被用於發現湧現的行為,事件資料和過程模型之間的關聯允許將當前的狀態和最近的活動投影到最新的模型上。這樣,終端使用者需要經常與基於過程挖掘的結果進行互動,因此需要直觀、友好的使用者介面。
方便終端使用者理解 即使產生了過程挖掘結果,並不意味著結果就真正可用。有時,使用者由於不理解輸出的內容,而被誤導到不正確的結論。為了避免這樣的問題,挖掘結果應該用一種合適的表示方式展示出來。同時,應明確給出挖掘結果的可信度。現存的過程挖掘技術一般不會對擬合度過低或者過高的結果給出警告,即使有時很明顯由於資料量過小而無法得到任何可信的結論。


相關文章