基於大資料模型的數字孿生建模方法

danny_2018發表於2022-10-17

導讀:隨著大資料、雲端計算等技術的高速發展,促進了人工智慧技術的革命性進步,為數字孿生的建模提供了新的手段,指出了新的方向。採用大資料建模的方法,透過黑盒建模的方式,構建輸入和響應之間的關聯關係模型,由於資料的輸入和響應是實際的資料,因此模型可以更準確地逼近物理世界,可以實現更準確的建模。需要指出,大資料模型並不是對物理模型的替代,而是對物理模型的良好補充。

作者:陳吉紅,楊建中,週會成 | 來源:智造苑,改編自:《新一代智慧化數控系統》

「 1. 大資料建模的關鍵技術 」

大資料建模主要的關鍵技術包括工業大資料預處理技術、工業大資料視覺化分析技術、工業大資料標記技術、特徵工程技術和人工智慧技術。

1)工業大資料預處理技術

本節的工業大資料的預處理技術區別於資料蒐集時的資料清洗技術,資料清洗技術面向的是大資料中存在的錯誤資料、冗餘資料和異常點,而本文所述的工業大資料技術則是在資料清洗以後進行的資料預處理工作,其目標是從高質量的資料中,提取出與目標問題相關的分量,其主要手段為濾波。

濾波的主要方法有滑動平均濾波、IIR和FIR濾波器濾波、基於小波分析的濾波和基於EMD的濾波方法。

滑動平均的濾波方法的本質是透過平均實現低通濾波,將波形加以平滑,減少訊號中的高頻振盪成分,其優點是對相位保持的較好,而缺點則是沒有針對具體的頻帶進行濾波。

IIR和FIR濾波器則是設計脈衝響應函式的頻響特性,進行特定頻段的濾波,可以實現頻段的精準分離,包括低通濾波器、高通濾波器、帶通濾波器和帶阻濾波器,其缺點是會影響原始訊號的相位,這對原始訊號相位有要求的分析需要謹慎使用。

基於小波分析的濾波和基於EMD的濾波方法,都是透過對訊號的分解,再剔除出訊號不相關的成分,剩下的訊號成分即為目標資料,這種濾波方式更加具有針對性,但是代價是計算量較大。

上述方法各有利弊,可以結合具體的應用進行合理的選擇。

2)工業大資料視覺化分析技術

據研究表明,人類獲得的關於外在世界的資訊80%以上是透過視覺通道獲得的,因此伴隨著大資料時代的來臨,對現在大量、複雜和多維的資料資訊進行視覺化呈現具有重要的意義。

資料視覺化技術誕生於20世紀80年代,其定義可以被概括為:運用計算機圖形學和影像處理技術。以圖表、地圖、標籤雲、動畫或任何使內容更容易理解的圖形方式來呈現資料,使透過資料表達的內容更容易被理解。圖1所示為某車間工業大資料的視覺化介面。

圖1 車間工業大資料視覺化

所謂資料視覺化是對大型資料庫或資料倉儲中的資料的視覺化,它是視覺化技術在非空間資料領域的應用,使人們不再侷限於透過關係資料表來觀察和分析資料資訊,還能以更直觀的方式看到資料及其結構關係。資料視覺化技術的基本思想是將資料庫中每一個資料項作為單個圖元元素表示,大量的資料集構成資料影像,同時將資料的各個屬性值以多維資料的形式表示,可以從不同的維度觀察資料,從而對資料進行更深入的觀察和分析。

(1)資料空間:是由n維屬性和m個元素組成的資料集所構成的多維資訊空間;

(2)資料開發:是指利用一定的演算法和工具對資料進行定量的推演和計算;

(3)資料分析:指對多維資料進行切片、切塊、旋轉等動作剖析資料,從而能多角度多側面觀察資料;

(4)資料視覺化:是指將大型資料集中的資料以圖形影像形式表示,並利用資料分析和開發工具發現其中未知資訊的處理過程。

新技術和新平臺的出現,使視覺化技術可以實現使用者與視覺化資料之間的互動,從採集分析資料到呈現資料視覺化也做到一體化實現。目前資料視覺化已經提出了許多方法,這些方法根據其視覺化的原理不同可以劃分為基於幾何的技術、面向象素技術、基於圖示的技術、基於層次的技術、基於影像的技術和分散式技術等等。

近年來,人們在資料探勘的理論和方法上做了大量的研究工作,並以此為基礎開發出不同種類的資料探勘工具。但是,這些工具在處理大型的多維資料集方面仍然沒有取得令人滿意的挖掘效果。於是,人們開始在資料探勘中藉助視覺化技術,使用豐富的視覺化方式將多維資料直觀地表示出來,進而利用人類特有的認知能力來指導挖掘過程。

因此,工業大資料視覺化分析領域中產生了一個新的方向:視覺化資料探勘。利用視覺化技術建立使用者與資料探勘系統互動的良好溝通通道,使使用者能夠使用自己豐富的行業知識來規整、約束挖掘過程,改善挖掘結果。從而打破傳統挖掘演算法的黑盒子模式,使使用者對挖掘系統的信賴程度大大提高。在視覺化資料探勘技術中,視覺化的直接互動能力是挖掘過程成敗的關鍵,對視覺化技術在資料探勘中應用形式和使用方法的研究是資料探勘視覺化急需解決的問題。

3)工業大數標記技術

在人工智慧時代,人工智慧演算法中,相對於無監督學習演算法,有監督的學習演算法更為常用和有效,究其原因在於,有監督學習的演算法的訓練階段是有標記的資料,使得演算法融入了知識,進而使演算法具有更好的精度和穩定性,因此,從演算法的選擇角度來講,使用有標記的資料進行有監督的學習顯然是更好的選擇。此外,隨著深度網路的不斷髮展,模型的引數動輒成千上萬,為了防止模型的過擬合,必須輸入更多的帶有標記的樣本,這就對樣本的標記提出了更大的挑戰,這甚至衍生出人工智慧時代的藍領工人——資料標記員,一方面是體力的考驗,另一方面,在某些專業領域,還具有極強的專業性,因此大資料時代的資料標記成為了一項既重要又難以實施的技術。

為了克服人工標記帶來的問題,需要採用自動標記的方式進行資料的標記。指令域大資料是將系統的輸入資料標記在系統的響應之上的資料形式,天然地具有資料標記的屬性,是人工智慧親和演算法。但是標記的型別往往還涉及到具體的事件,指令域大資料的輸入有時候囊括不了此種事件,因此仍然需要其他的標記方法進行補充。

其他自動標記方法,一般建立在現有的少量已經標記的資料基礎之上,例如SMOTE演算法和GAN網路。SMOTE演算法透過對特徵向量在特徵空間進行插值處理,透過取樣的方式形成新的樣本。而GAN網路,則是透過生成和對抗網路進行拉鋸式的博弈,形成新的具有標記的樣本。SMOTE演算法適用於一維資料,而GAN網路則在二維資料的生成中具有較好的效果。

4)特徵工程技術

特徵工程技術是用目標問題所在的特定領域知識或者自動化的方法來得到能夠使機器學習演算法達到最佳效能的特徵的技術。透過將原始資料轉化為特徵,可以獲取更好的訓練資料使預測模型更好的處理實際問題,提升預測模型的準確率。它對於傳統的淺層學習器(如支援向量機、邏輯迴歸等)而言是不可或缺的技術,因為資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。對於深層學習器(如卷積神經網路),由於存在特徵自學習的隱藏層,可以自動學習原始資料中的敏感特徵,對特徵工程依賴較少。但是,隱藏層的特徵自學習在深層學習的應用範圍是有限的,特徵工程在深度學習依然有著不可替代的作用。特徵工程其主要對原始資料進行特徵提取、特徵選擇和特徵降維3個方面的工作。

特徵提取主要是從訊號處理的層面,對原始資料從時域、頻域和時頻域的角度進行特徵提取,其目的是將原始資料轉換為一組具有明顯物理意義(比如 Gabor、幾何特徵、紋理特徵)或者統計意義的特徵。時域上一般可以提取最大值、最小值、峰峰值、平均值、方差、RMS、偏度、斜度、裕度等特徵,還可以進行相關性分析得到相關係數。頻域上一般可以提取頻率中值、頻譜能量等特徵、核心頻率等特徵。時頻域上一般可以得到特定成分的能量值等等。這些特徵從更稀疏的角度描述了緻密的原始資料,某種程度上已經進行了極大的資料量削減。

特徵選擇主要是從提取到的眾多特徵中提取出與目標問題敏感的特徵,其目的是為了去除無關特徵降低學習任務的難度,讓模型變得簡單降低計算複雜度和所需時間。在提取的眾多特徵中,有較多的特徵與目標問題關聯性小,在實際的應用中這些特徵會加重模型訓練負擔有時候甚至會干擾模型準確度。所以進行特徵的篩選在特徵工程中是具有重要意義。常見的特徵選擇方法分為以下三種:

(1)過濾式(filter):特徵選擇是一種不考慮後續機器學習演算法只設計了一個相關統計量來度量特徵的重要性作為選擇指標的方法。

(2)包裹式(wrapper):特徵選擇是使用隨機策略將各個特徵都分別作為輸入量輸入到所使用的機器學習模型中,並最終以機器學習模型的誤差作為特徵的評價標準進行選擇的方法。

(3)嵌入式(embedding):特徵選擇類似深度學習的隱藏層的特徵自學習是將特徵選擇與學習器訓練過程融為一體,兩者在同一個最佳化過程中完成的。即學習器訓練過程中自動進行了特徵選擇。

特徵降維主要是將原始高維空間的特徵投影到低維度的空間,進行特徵的重組,達到減少資料維度的目的。因為透過特徵選擇以後,還是存在特徵矩陣維度大這一問題,會導致計算量增大、訓練時間過長等對於模型不好的影響。並且由特徵矩陣維度大會導致在對於某些變數的函式進行準確估計時所需訓練樣本數量呈幾何級增加。降維常用方法有以下兩種:

(1)主成分分析法(PCA):透過構建原始特徵的線性組合,形成組合內部最小關聯的新組合,達到降低特徵內部關聯,降低維數的目的。

(2)線性判別分析法(LDA):將帶上標籤的資料(點),透過投影的方法,投影到維度更低的空間中,使得投影后的點,會形成按類別區分,一簇一簇的情況,相同類別的點,將會在投影后的空間中更接近。其目的不僅僅是降維,還可以使得投影后的樣本儘可能按照原始類別分開。相比較PCA主要是從特徵的協方差角度,去找到比較好的投影方式。LDA更多的是考慮了標註,即投影后不同類別之間資料點的距離更大,同一類別的資料點更緊湊。

5)人工智慧技術

人工智慧技術解決的是知識學習和決策問題,是大資料建模中最關鍵的核心技術。廣義來講,深度學習、遷移學習都屬於機器學習(ML)的大類。但是,目前往往從狹義的角度解釋機器學習,特指淺層學習器,而深度學習(DL)和遷移學習則屬於深層學習器。因此,人工智慧技術主要包括淺層學習(即機器學習,含增強學習)、深層學習(包括深度學習)和遷移學習。

(1)機器學習:是賦予計算機學習能力,使之可以歸納知識、總結經驗、推理預測,並最終可以像人一樣從資料中積累“經驗”的技術。將機器學習演算法應用於數字孿生建模中便實現了大資料建模。因此大資料建模可以理解為利用工業大資料來實現虛擬空間對物理空間的實時反映與預測,即以感測器收集的海量資料為基礎,利用機器學習演算法積累“經驗”最終達到構建虛擬孿生空間的目的。如圖2所示,機器學習有4種主要型別:監督學習、非監督學習、強化學習,所有這些都有其特定的優點和缺點。

圖2 機器學習方法分類

(2)深度學習:從廣義來講,深度學習是機器學習領域中一個新的研究方向,強調透過增加學習的層數以提高演算法的精確性,它被引入機器學習使其更接近於最初的目標——人工智慧(AI)。深度學習是學習樣本資料的內在規律和表示層次,這些學習過程中獲得的資訊對諸如文字、影像和聲音等資料的解釋有很大的幫助。深度學習有兩個主要特點:第一,含多隱藏層的神經網路具有優異的特徵學習能力,學習得到的特徵對資料有更本質的刻畫,從而有利於分類;第二,深度神經網路在訓練上的難度,可以透過“逐層初始化”預學習來有效克服。如圖3所示,典型的深度神經網路有卷積神經網路(CNN)、深度置信網路、迴圈神經網路。

圖3 深度學習演算法的分類

(3)遷移學習:指一種學習或學習的經驗對另一種學習的影響,以深度卷積神經網路為基礎,透過修改一個已經經過完整訓練的深度卷積神經網路模型的最後幾層連線層,再使用針對特定問題而建立的小資料集進行訓練,以使其能夠適用於一個新問題。其放寬了傳統機器學習中的兩個基本假設,目的是遷移已有的知識來解決目標領域中僅有少量甚至沒有有標籤樣本資料的學習問題。圖4給出了傳統機器學習和遷移學習過程的差異。

圖4 遷移學習與機器學習的差異

「 2.大資料建模的未來發展趨勢 」

從技術發展的角度來講,大資料建模一方面將會呈現特徵工程與特徵學習演算法相結合的趨勢,提升大資料建模的準確性;另一方面將會越來越多地探索無監督學習的演算法效能提升和應用,解決資料標記的問題同時,賦予機器真正的類人學習行為。

從技術應用的角度來講,由於物理建模在進行復雜系統建模是存在的不準確的問題,將會越來越多地將新一代人工智慧的演算法與數控機床相結合,以開闢新的技術路線,提升預測的穩定性與準確性,使得機床具有更好知識學習、積累與應用的能力。

因此,大資料建模一方面本身的內涵和外延將會得到極大的擴充套件和深化,另一方面,其將會在數控機床領域得到全面、廣泛而深入的應用。

來自 “ PLM之神 ”, 原文作者:陳吉紅;原文連結:https://mp.weixin.qq.com/s/l-WrbW8_N31pwWxKyhytgw,如有侵權,請聯絡管理員刪除。

相關文章