用生成模型為自己生成密碼，無懼暴力破解

dicksonjyl560101發表於2019-09-20

原文網址 : http://blog.itpub.net/29829936/viewspace-2657674/

模型密碼

全文共 4126字，預計學習時長 8分鐘

圖片來源：Dan Meyers, Unsplash

機器學習和深度學習模型在工業各個領域都得到了廣泛運用，網路安全領域也不例外。最新相關的例子就是PassGAN，這個深度學習模型可以生成密碼，因而提高了暴力破解（Brute-Force Attacks）的效率。

本文會引用這個概念，並以此為例，解釋生成模型和判別模型的區別；同時也會突出強調深度學習相對其他傳統概率模型在處理高維度資料時的優越性。

判別模型 vs 生成模型

由生成模型和判別模型構成的機器學習／深度學習等眾多模型有著眾所周知的分類法，每個模型都有各自的特徵。但剛入門的資料科學家極易產生混淆。事實上這完全可以理解，畢竟運用情況不同，名稱會產生誤導。直覺上讀者可能會覺得判別模型無非就是區分各種型別的資料或生成新的資料，當然，這無可厚非。但並不意味著生成模型就不能當作分類器來使用，正如其名字所暗示的那樣。

兩者最根本的區別在於模型是如何學習的。簡單來講，生成模型會學習資料生成的方式，然後對未曾見過資料進行分類，而判別模型只會學習每個類之間的差異（邊界）。

舉個更具體的例子，想象一下：我們收集了很多有關人或動物的塗鴉。現在想建立一個模型，可以將塗鴉當作資料輸入再作為反饋輸出，不論它看起來更像人還是動物。

有趣的是，生成模型會先學習怎麼畫人或者動物的塗鴉，在遇到沒見過的塗鴉時，它會先畫一個人和一個動物，再與輸入影象進行比對。

與此同時，判別模型會學習每個資料類別之間的細微差距，比如說，動物的尾巴、人類的姿勢、形狀等等。遇到新模型，在沒有學習繪畫的條件下判別模型會根據這些資訊對兩個類別進行區分，很簡單對吧？

雖然程式設計師們一般傾向於使用判別模型因為它簡單，生成模型也有自身優勢，同樣開始越來越流行。特別是在資料缺失或者探測異常值的時候，生成模型就非常好用。畢竟我們的目的是生成新資料，而這一點判別模型是做不到的。事實上，生成模型能夠生成真實內容也是前不久才實現的。（見下圖）

生成模型生成的面部影象：David Foster. “生成式深度學習”

可能性

我們儘可能避免使用數學術語，但要想把生成模型和判別模型解釋清楚，就免不了會涉及一些數學概念。

假設手頭有Y標記的觀測指標X。從概率學角度來看，判別分類器會根據P(Y|X)的條件概率建模。也就是說，已知觀測指標X，出現Y類資料的概率是多少？別把P(A, B)的條件概率和聯合概率混淆了，聯合概率是指A和B同時發生的概率。另一方面，生成模型會直接根據P(X)發生的概率建模，簡單來說，首先獲取觀測指標X的概率是多少？要注意在此模型中，不一定非得用標籤，但如果想執行分類，可以使用標籤來對P(X|Y)進行定義。

簡化後的生成模型

為了在實戰中理解生成模型，我們來想象一個極簡單的場景：只存在於二維空間的生成模型。這個模型的靈感來源是大衛∙福斯特（David Foster）所著的《生成式深度學習》（Generative Deep Learning），強烈推薦閱讀！

請思考以下在二維空間中由Pdata所產生的一些黑點：：

生成模型的任務是要生成一個看起來像是由Pdata生成的新的點X=(x, y)。所以我們構建一個名為Pmodel的Pdata估值，其可能的情況就是橙色區域內生成的點很可能是連續隨機分佈模型，而區域外不會再生成新的點，如下圖所示。

回到剛才裡對生成模型的介紹，我們剛建立了一個能辨識建立資料點的模型！雖然非常簡單，但你剛開發了一個生成模型！

現在我們深入一些，觀察模型在遇到真實的Pdata分佈時表現如何。注意，Pdata的初始版本表示內陸地區樹的分佈概率（如下地圖所示）。大致上黑點也就是土地中會長樹的區域，概率幾乎一樣，但不可能長在水裡。

值得注意的是，雖然Pmodel是Pdata高度簡化的版本，但它仍保留了原始分佈的主要機制。通過從Pmodel 中A, B, C三個點進行取樣，能明顯看出我們的模型仍需改善。Pdata不能直接生成C點，而A B兩點很難與真實點區分開，這就是生成模型所應達到的效果。生成與已有資料不同的新資料，哪怕它們看起來像是由同一個規則生成的。

概率論vs深度學習方法

這一部分，我們將通過例項探索深度學習為何對生成模型的快速發展作出了巨大貢獻。但首先有必要提及一些概率論方法，這樣就有比較的標準了。

最大似然估計

最大似然估計是一種統計方法，可用於計算引數，比如模型生成資料是最大值的概率。乍一聽可能有些雲裡霧裡的，我們可以結合上文的例子來理解。

假設上文的橙色區域是概率密度函式，簡單來說就是任意樣本空間（圖上的x, y軸）的一個點，作為輸出資料這個函式應該給出0到1的任意值。一般來說，用概率密度函式計算出所有點的總和應該都為1。回到剛才的例子，黑點會統一分佈在橙色區域內，概率是一個常量，而出現在該區域外的概率為0。其數學表示式如下：

繼續，已知θ是4個引數{θ1, θ2, θ3, θ4}的集合，用似然函式L(θ| x) 解答此問：

已知點x的引數，求實際值的概率。

讀者可能會思考，這些引數是幹什麼用的？實際上，這些引數來源於統計學一個很有名的領域——引數建模。換言之，就是用有限引數的集合來表示概率的分佈。在本例中可以通過4個引數來對概率分佈區域進行建模，左上角的點(θ1, θ2)，和右下角的點(θ3, θ4)。還有一個更真實的例子就是高斯分佈，它有兩個引數：平均值μ, 和標準方差σ。

更準確地講，似然函式表示式如下：