Wavlm

深大第一帅er發表於2024-10-30

asr:自動語音識別
transformer關鍵特點包括:

  1. 自注意力機制:使模型能夠同時考慮輸入序列中的所有位置,而不是像迴圈神經網路(RNN)或卷積神經網路(CNN)那樣逐步處理。
  2. 多頭注意力:擴充套件自注意力機制,允許模型並行處理不同的資訊子空間,以更好地捕捉不同型別的關係。
  3. 堆疊層:通常由多個相同的編碼器和解碼器層堆疊而成,有助於模型學習複雜的特徵表示和語義。
  4. 位置編碼:由於Transformer沒有內建的序列位置資訊,它需要額外的位置編碼來表達輸入序列中單詞的位置順序。

Transformer模型的結構可以分為幾個主要部分:編碼器(Encoder)和解碼器(Decoder)。下面我將詳細分析這些組成部分。
編碼器(Encoder)編碼器由多個相同的層(通常是6個)組成,每層包括兩個主要的子層:
• 自注意力(Self-Attention)層:
• 這個層允許模型在序列的不同位置之間動態分配注意力,從而捕捉長距離依賴關係。
• 它包含三個操作:查詢(Q)、鍵(K)和值(V)的矩陣乘法,然後進行縮放點積操作,最後是注意力權重的計算和值的加權求和。
• 前饋網路(Feed-Forward Network,FFN)層:
• 這是一個簡單的全連線層,通常由兩個線性變換組成,中間有一個ReLU啟用函式。
• FFN層對每個位置的表示進行獨立處理,不涉及序列中其他位置的資訊。每個子層後面都跟著一個殘差連線和層歸一化(Layer Normalization)。殘差連線有助於解決深層網路中的梯度消失問題,而層歸一化則有助於加速訓練並提高模型的穩定性。
解碼器(Decoder)解碼器同樣由多個相同的層組成,每層包括三個主要的子層:
• 遮蔽自注意力(Masked Self-Attention)層:
• 與編碼器中的自注意力層類似,但加入了遮蔽機制以防止位置資訊洩露,即在序列的當前位置只能看到之前的元素,不能看到未來的元素。
• 這確保瞭解碼器在生成序列時的自迴歸特性。
• 編碼器-解碼器注意力(Encoder-Decoder Attention)層:
• 這個層允許解碼器的每個位置關注編碼器的輸出,從而將輸入序列的資訊傳遞到輸出序列。
• 它同樣使用查詢和鍵的矩陣乘法,然後進行縮放點積操作,最後計算注意力權重和加權求和。
• 前饋網路(FFN)層:
• 與編碼器中的FFN層相同,包含兩個線性變換和ReLU啟用函式。每個子層後面同樣跟著一個殘差連線和層歸一化。
位置編碼由於Transformer模型本身不包含任何關於序列順序的資訊,因此需要額外的位置編碼來提供這種資訊。位置編碼通常是固定的,可以是正弦和餘弦函式的組合,也可以是可學習的引數。
總結Transformer模型透過自注意力機制和前饋網路層,以及殘差連線和層歸一化,實現了對序列資料的高效處理。編碼器和解碼器的結構設計使得模型能夠捕捉長距離依賴關係,並且能夠處理複雜的序列到序列任務。這種結構的靈活性和強大的表示能力是Transformer在各種自然語言處理任務中取得成功的關鍵。

ssl:self_supervised learning

huBERT(Hidden Units Bidirectional Encoder Representations from Transformers):隱藏單元雙向編碼器

SOTA效能,即State-of-the-Art(當前最高水平)

MFCC(Mel Frequency Cepstral Coefficients),即梅爾頻率倒譜系數

Wav2Vec(Waveform-to-Vector)模型的核心在於其無監督的預訓練方式。它使用了一個簡單的多層卷積神經網路進行預訓練,並提出了一種噪聲對比學習二分類任務(noise contrastive binary classification task),從而使得Wav2Vec可以在大量未標註的資料上進行訓練。
GELU啟用層,全稱為Gaussian Error Linear Unit(高斯誤差線性單元)啟用層

EEND-EDA可能指的是在端到端(End-to-End,EEND)神經網路模型中用於電子設計自動化(Electronic Design Automation,EDA)

生成學習是一種基於模型的方法,它試圖從訓練資料中學習出資料的生成過程或分佈。在生成學習中,模型通常被定義為一個機率模型,用於描述資料的生成方式。
判別學習是一種直接學習輸入到輸出對映的方法,它關注於如何根據輸入特徵來預測輸出類別或值。
多工學習是一種同時學習多個相關任務的方法,它利用任務之間的相關性來提高模型的泛化能力。
核心思想:多工學習透過共享知識或引數來同時最佳化多個任務。在訓練過程中,模型會嘗試捕捉不同任務之間的共同特徵或規律,從而能夠同時提高多個任務的效能。

CPC,全稱為Contrastive Predictive Coding(對比預測編碼)
LM融合 是一種將多個預訓練語言模型(LLM)合併為一個模型的技術。這種技術的核心思想是將不同模型的引數在引數粒度上進行合併,從而建立一個新的融合模型。LM融合的關鍵優勢在於能夠在較低的計算成本下獲取類似甚至更優異的效果,相比從頭開始訓練一個新模型。