MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」

機器之心發表於2020-08-26
說起計算機音樂的發展史,還要追溯到 1951 年,英國電腦科學家艾倫 · 圖靈是第一位錄製計算機生成音樂的人。近年來,深度神經網路的出現促使了利用大規模音樂資料進行訓練來生成音樂的相關工作。

然而,音樂往往伴隨著演奏者與樂器的互動,並透過細微的手勢與樂器相互作用以產生獨特的音樂。這就會出現一個有趣的問題:給定音樂家演奏樂器的無聲影片片段,我們是否可以開發一種模型,能夠根據音樂家的身體動作自動生成一段逼真的音樂?

這種功能將會為各種應用奠定基礎,例如自動為影片新增聲音效果,以避免繁瑣的人工操作,或在虛擬現實中創造聽覺沉浸式體驗。但具體來說,如何實現呢?

研究概述

MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」

  • 論文地址:https://arxiv.org/pdf/2007.10984.pdf

  • 專案地址:http://foley-music.csail.mit.edu/

為了解決這個問題,由MIT-IBM 沃森人工智慧實驗室主任研究員淦創博士領導的研究小組提出了一種名為 “Foley Music” 的模型,可以從無聲影片中生成富有表現力的音樂。該模型將影片作為輸入,檢測影片中的人體骨架,識別其與樂器之間的互動作用,預測相應的 MIDI 檔案。論文已入選計算機視覺頂會 ECCV 2020。

首先,研究者確定了生成音樂的兩個關鍵要素。對於視覺感知,採用身體和手指關鍵點作為視覺表徵,從而可以顯式地對身體部位和手部動作進行建模;對於音訊表徵,研究者提出使用 MIDI,可對每個音符事件的時間和強度資訊進行編碼,使用標準音訊合成器,亦可輕鬆將 MIDI 轉換為逼真的音樂波形。由此將音樂生成問題視為 Motion-MIDI 的轉換問題,如圖 1 所示。同時研究者還提出了 Graph-Transformer 模組來學習將它們關聯起來的對映函式。

MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」

圖 1:任務定義。

為了評估生成音樂的質量,研究者進行了定性研究實驗,透過正確性、噪聲量、同步性和綜合性指標進行衡量。實驗結果證明,該方法的效能明顯優於其他現有方法。更重要的是,由於 MIDI 是完全可解釋和透明的,能夠靈活地進行音樂編輯。研究者表示,該工作將為透過人體關鍵點和 MIDI 來探索影片和音樂之間的聯絡開闢未來的研究方向。

Graph-Transformer 模型

研究者分別選擇了人體姿態和 MIDI 作為視覺和音訊表徵,並提出了一種 Graph-Transformer 模型,根據身體姿態特徵預測 MIDI 事件,整體框架如圖 2 所示。

視覺表徵

該模型使用人體姿態特徵來捕獲身體運動線索。首先,從影片的每幀中檢測身體和手指關鍵點,然後將其 2D 座標根據時間堆疊為結構化視覺表徵。在實際應用中,使用開源 OpenPose 工具箱提取身體關鍵點的 2D 座標,並使用預訓練手部檢測模型和 OpenPose hand API 來預測手指關鍵點的座標。總共獲得了 25 個身體關鍵點,以及 21 個手部關鍵點。

音訊表徵

選擇正確的音訊表徵對於成功生成富有表現力的音樂非常重要。研究者選擇 MIDI 作為音訊表徵,主要由 note-on 和 note-off 事件組成,每個事件也定義了音高和強度。研究者使用音樂處理軟體從影片的音軌中自動檢測 MIDI。對於 6 秒鐘的影片片段,通常包含大約 500 個 MIDI 事件。這些 MIDI 事件可以很容易地匯入到標準合成器中生成音樂波形。

MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」

圖 2:整體架構。

視覺編碼器

在從影片中提取的 2D 關鍵點座標基礎上,研究者採用 GCN 對身體和手部不同關鍵點之間的時空關係進行顯式建模。與 ST-GCN 類似,首先,將人體骨架序列表示為無向時空圖MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」,其中節點對應於人體關鍵點,邊反映了人體關鍵點的自然連通性。

每個節點的輸入是檢測到的人體關鍵點的 2D 座標。為了對時空資訊進行建模,研究者首先採用空間 GCN 對每幀上的姿態特徵進行獨立編碼,然後對得到的張量採用時間卷積來聚合時間資訊。編碼後的姿態特徵 P 定義為:

MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」


其中,MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」是輸入特徵;V 和C_n分別是關鍵點數和每個節點的特徵維度;是鄰接矩陣,根據身體和手指的關節連線定義;W_S 和 W_T 分別是空間 GCN 和時間卷積的權重矩陣。研究者透過 GCN 更新節點特徵。最後對節點特徵進行聚合得到編碼姿態特徵MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」,其中, T_v 和 C_v 分別是時間維度和特徵通道數。

MIDI 解碼器

由於音樂訊號表示為 MIDI 事件序列,因此研究者將根據人體運動生成音樂視為序列預測問題。為此,研究者使用 Transformer 模型的解碼器部分,該部分已展示出在序列預測中捕獲長期結構的強大能力。

研究者將此模型應用於運動 MIDI 轉換問題。具體而言,給定視覺表徵MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」,Transformer 解碼器負責預測 MIDI 事件序列MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」,其中 T_m 和 L 表示影片片段中包含的 MIDI 事件的總數以及詞彙量。在每個時間步長,解碼器都會將之前在 MIDI 事件上生成的特徵編碼和視覺姿態特徵作為輸入,並預測下一個 MIDI 事件。

Transformer 中的核心機制是自注意力模組。該模組首先將向量序列轉換為 Query,Key 和 Value,之後輸出 Value 的加權和,其中權重透過 Key 和 Query 點積獲得

MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」


與僅使用位置正弦波來表示時序資訊的 Transformer 模型不同,研究者採用相對位置使注意力明確地知道序列中兩個 token 之間的距離。這對於建模音樂至關重要,因為音樂具有豐富的和絃聲音,並且相對差異與音長和音高息息相關。為了解決這個問題,研究者為每個 Query 和 Key 之間可能的成對距離學習一個有序相對位置嵌入R,如下所示:

MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」


對於 MIDI 解碼器,研究者首先使用具有相對位置嵌入的掩模自注意力模組來對輸入的 MIDI 事件進行編碼,其中 Query,Key 和 Value 均來自相同的特徵編碼。之後將掩模自注意力模組的輸出MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」和姿態特徵MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」傳遞到多頭注意力模組中,其計算公式如下:

MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」


其輸出透過兩層全連線層和 softmax 後得到下一個 token 在詞彙表中的機率分佈

實驗結果

資料集

研究者在 URMP,AtinPiano 和 MUSIC 這三個樂器演奏影片資料集上進行了實驗,其中包含手風琴、貝斯、巴松管、大提琴、吉他、鋼琴、大號、尤克里裡和小提琴共九種不同類別樂器的大約 1000 個演奏影片。

對比基準

研究者將本文模型與 SampleRNN,WaveNet 和 GAN-based Model 這三種現有方法進行了比較。公平起見,為所有基準提供的姿態特徵是相同的。

定性評估

在 AMT 上透過四個評價指標定性比較生成音樂的感知質量。(1)正確性:生成音樂與影片內容相關;(2)噪音量:生成音樂包含噪音最小;(3)同步性:生成音樂在時間上與影片匹配;(4)綜合性:總體質量最佳。

研究者向 AMT 工作人員展示了四個影片,這些影片具有相同的影片內容,但具有不同的聲音,分別由本文方法和三個基準方法合成。AMT 工作人員需要分別根據以上指標從中選擇出最佳的影片。

表 1 展示了不同樂器類別的綜合性指標結果,該方法在所有樂器類別上均優於基準方法。

MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」

表 1 綜合性指標結果

圖 3 分析了正確性,噪音量和同步性指標結果。可以觀察到,在所有評價指標上,該方法也始終優於並遠超基準方法。

MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」

圖 3 正確性,噪音量和同步性指標結果

這些結果證明了本文所提出方法的有效性,即 MIDI 有助於改善聲音質量,語義對齊以及時間同步。

視覺化結果

圖 4 左側展示了這一方法預測的 MIDI 和 GT 之間的對比。可以觀察到,該方法所預測的 MIDI 與 GT 非常相似。圖 4 右側展示了不同方法生成的聲譜圖結果。可以發現該方法比其他基準方法生成了更多的結構化諧波分量。

MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」

圖 4:視覺化結果。

音樂編輯

基於 MIDI 的可解釋性和靈活性,可以透過 MIDI 檔案輕鬆地進行音樂編輯,生成不同風格音樂,如圖 5 所示。這對於以前使用波形或頻譜圖作為音訊表示形式的系統而言難以實現。

MIT、IBM聯合打造AI配音師:檢測動作自動新增音效,影片「無聲」勝「有聲」

圖 5:不同風格音樂。

相關文章