後設資料並不止存在於資料領域,近年來,後設資料管理的範圍在不斷擴大,從簡單的庫表,到整個資料平臺,再到服務管理,不斷突破傳統後設資料管理的範疇。InfoQ採訪了普元軟體產品部副總、大資料產品線總經理王軒,瞭解如下問題:“後設資料”和“大資料”之間的異同之處在哪裡?大資料環境下的後設資料管理有什麼特點?後設資料後設資料驅動的微服務架構有何特點?企業大資料治理難點在哪裡?
InfoQ:請問大資料環境下的後設資料管理有什麼特點?
王軒:大資料環境下的後設資料管理與以往不同,這種不同主要反映在後設資料的錄入方式上,在傳統BI時代,很多企業主要以人工的方式對後設資料進行收集和整理,但大資料環境中的資料型別和資料結構都變得更加複雜,後設資料管理的範圍變得更廣,人工錄入的方式已經不再適用,主要原因有以下幾點:
大資料環境下的工具眾多,無論是商業產品還是開源產品都變得更加複雜;
大資料治理中的資料採集與資料處理鏈條會變得更長,二者之間更難形成關聯;
大資料環境下的資料來源各式各樣,其中除了企業內部的資料,更多的資料來自於第三方機構;
如此複雜的企業大資料環境,對企業使用的後設資料管理工具提供了更高的要求,大資料環境下的後設資料管理工具,不應該再一味地追求使用者併發數,而是應該以全面自動化的後設資料採集作為系統功能的核心,以此來代替傳統效率比較低的人工錄入方式,對大資料環境中的各種後設資料進行自動化採集,這也是評判一個企業後設資料管理是否成熟的重要標誌。
InfoQ:請問“後設資料”和“大資料”之間的異同之處在哪裡?後設資料具有什麼樣的特性?
王軒:“大資料”中包含眾多的後設資料,可以說後設資料是大資料應用的基礎和前提。 後設資料是資訊的維度,可以說,掌握了後設資料就掌握了資訊的維度,它描述了資訊概念以及他們之間的連線。其中資訊概念表示某個業務所有維度的集合,連線則是描述後設資料之間關係的方式。
後設資料管理的概念是隨著資料倉儲的建設逐漸完善起來的,所以現在人們普遍認為後設資料只存在於資料領域,其實這種對後設資料的認識是不全面的,近年來,後設資料管理的範圍在不斷擴大,從簡單的庫表,到整個資料平臺,再到服務管理,甚至到驅動微服務,一直在不斷突破傳統後設資料管理的範疇,從而形成了廣義後設資料的概念,我們可以發現,其實後設資料廣泛存在於企業架構的方方面面,而不僅僅是侷限於資料領域裡。
InfoQ:在金融、電信、製造、政府、電力等行業,需求和資料都不一樣,在進行後設資料服務治理時,如何減少差異化?有沒有統一的模型?
王軒:每個行業對資料治理的需求是相同的,但是治理的路徑各有不同,在進行資料治理時,要根據各行業不同的狀況,採用不同的資料治理方案,但是大體的理念和思想是一致的。
第一,無論對哪個行業來說,資料治理都是對資料全過程,全方位的管控,是對資料採集、加工、儲存、共享、應用等一系列完整流程的治理;
第二,任何行業的資料治理都不應該只是侷限在理論和架構層面,整個治理過程都要靠工具和平臺來支撐,推動資料治理的落地。
InfoQ:普元在大資料治理上有多年的經驗,是否有形成一套通用的大資料治理的平臺架構?
王軒:是的,我們先後完成了多家大型企業的大資料治理專案,以後大資料治理也是我們主要的發展方向,我們認為,大資料治理應該以後設資料為核心,配合大資料標準、大資料交換整合、主資料管理、大資料質量、大資料資產化、大資料共享等共同完成整個企業層面的大資料治理。
InfoQ:與傳統軟體中的微服務相比,後設資料治理中的微服務有哪些特點?這種微服務架構如何解決哪些難點和痛點?
王軒:在微服務架構中微服務的粒度小,數量多,微服務的設計與微服務之間的連線需要一套規範,同時需要一套可以對話的統一“語言”,而後設資料就可以看成是這種“語言”,用後設資料來驅動微服務架構,能夠規範整個微服務體系的設計。
傳統的微服務架構中經常遇到以下幾個難點:
一、微服務邊界互動難;二、微服務開發和使用不夠規範;三、微服務脈絡分析難;四、微服務全生命週期難以管理。
後設資料驅動的微服務架構可以很好地解決這些問題。
第一,此種微服務架構可以在事前定義好微服務邊界,通過後設資料協助微服務的之間的互動,解決微服務邊界互動難的問題;
第二,在後設資料驅動的微服務架構下,可以用後設資料來定義微服務中的標準規範,對微服務的資料標準和服務標準進行統一定義,以此來規範微服務的開發和使用;
第三,某個微服務的改變通常會影響到多個服務的聯動調整,基於後設資料驅動的微服務架構在脈絡分析上有著明顯的優勢,通過後設資料可以分析出整個微服務呼叫關係圖譜,解決傳統微服務架構下的脈絡分析難點;
第四,通過標準後設資料,可以在微服務規劃階段規範微服務,在設計階段提供連線其他微服務的後設資料資訊,在開發階段協助開發測試,在上線後分析微服務的使用情況,並協助維護微服務的變更,最後微服務下架時,將微服務的後設資料存檔,確保對目前體系不產生影響,從而對微服務的全生命週期進行科學有效的管理。
未來後設資料驅動的微服務架構的應用還會有很多,還需要進一步思考和研究。
InfoQ:在您多年的研究大資料治理經驗裡,您認為大資料治理最難的地方是什麼?
王軒:從我們的大資料治理專案經驗來看,我覺得大資料治理最大的困難在於如何有效地落地執行。
我認為大資料治理落地難的原因主要在兩個方面,一是現在大部分企業的大資料治理組織架構存在問題,二是除了組織架構之外,企業大資料治理更需要一套完整的平臺工具來支撐。
第一,在組織架構上,企業的大資料治理還是應該由業務部門來主導,IT部門來執行,並且引入相應的考核體系,以此來推動大資料治理一系列規範的執行和落地;
第二,在平臺工具上,大資料治理是對資料採集、質量控制、資料共享一整條線的治理,在大資料治理過程中,不能再把重點放在對人的管理上,而應該把重點放在平臺和工具上,一套完整的平臺工具和自動化手段,能幫助企業更容易地進行大資料治理。
InfoQ:目前普元的大資料團隊的主要情況是什麼樣的?您們的團隊文化是什麼樣的?您在團隊管理上有什麼樣的心得體會?作為“船長”您如何選擇您的“船員”?
王軒:普元的大資料團隊是一個以產品研發為主的團隊,也是很專注的團隊,我們一直專注在大資料治理領域,有多個相關產品,同時也在大資料治理市場上有不錯的佔有率。整個團隊有多名10年以上的資料治理專家,對後設資料,資料交換,資料標準,資料質量等都很擅長。
我們的團隊是目標感和執行力很強的團隊,我覺得一個好的團隊,首先,需要有一致的目標,大家在一致的目標下,發揮自己所長。其次,需要很強的執行力,在面對困難局面的時候能夠堅持,並解決問題。最後,有濃厚的學習的氛圍,能夠主動學習,主動分享。
團隊管理,我認為是如何發揮每一個人長處的過程,我的團隊有各種各樣的人,每個人都有不同,我需要做的事情很簡單,就是把大家放到能發揮長處的事情上去,在這樣的事情中,幫助大家持續學習,最大化長處,儘量減少短處,讓團隊中每個人能夠都能成長。
最後我覺得我並不是船長,而是船員,我們沒有大輪船,可能更像是龍舟,每個人都在船上互相配合一起讓船劃得更快一點,走的更遠一點。我選擇的船員是能認同方向和我們一起用漿划船的人。
InfoQ:感謝王軒老師接受我們的採訪。
人物簡介:王軒,普元資訊軟體產品部副總、大資料產品線總經理,2010年加入普元,全面主持普元大資料產品的研發、擴充及團隊管理工作。十年大型企業資訊化架構設計與建設經驗,曾任中國人民銀行核心平臺架構師。主持參與了國家開發銀行大資料專案、中國人民銀行軟體開發平臺、國家電網雲端計算平臺等大型專案建設。