平安首創AVM自動變奏模型,探秘全球首部AI交響變奏曲硬核技術

機器之心發表於2019-10-11

機器之心原創

作者:思、一鳴

在新中國成立 70 週年之際,平安人工智慧研究院的學者們構建了首個交響樂創作模型,推出了全球首部 AI 交響變奏曲《我和我的祖國》。這首交響曲作為新中國成立 70 週年的獻禮之作,於 10 月 11 日由深圳交響樂團進行全球首次公演。

平安首創AVM自動變奏模型,探秘全球首部AI交響變奏曲硬核技術

AI 交響變奏曲演奏現場



《我和我的祖國》原本就是家喻戶曉的經典曲目,在保留原曲風格的基礎上進行二次創作,使其具有鮮明的時代特色、賦予其新時期新的內涵,無疑對人工智慧是一個挑戰。機器之心就此採訪了AI交響變奏曲《我和我的祖國》曲目團隊技術負責人,揭秘這首國慶獻禮樂曲背後的硬核技術。
據瞭解,AI 交響變奏曲《我和我的祖國》運用了平安首創且行業中尚未發表的具有獨創性的 AVM 自動變奏模型,它會利用深度學習技術對音樂作品實現多維度的特徵學習與提取,並結合強化學習技術讓機器學會變奏手法。總體上,結合規則系統的作曲經驗,以及深度模型的學習能力,AI 能找出最能表示主題情感的音樂片段。

聲聲聞來皆辛苦,AI 譜曲不尋常

能夠譜寫出波瀾壯闊的交響變奏曲,需要的不僅僅是模型與資料的交匯。在 AI 生成《我和我的祖國》交響變奏曲的過程,團隊遇到了很多不同的挑戰,隨之而來的則是諸多技術領域的創新和突破。據悉,這是全球領域首次嘗試藉助 AI 譜寫交響變奏曲。儘管在這一階段,很多問題都需要用專家規則判斷和約束,但透過 AI 與專家知識的結合,使得「AI+音樂」能在教育、配樂等更廣泛的實現不同形式的探索和嘗試。

兩個世界第一

利用 AVM 架構模型生成的 AI 交響曲,實現了兩個世界第一:全世界第一個能夠進行多旋律交響曲譜曲的 AI 以及全世界第一個可變譜曲風格的 AI。儘管過去很多研究都進行了 AI 譜曲的工作,但生成的樂曲都是單旋律的,其中沒有和聲、對位,也沒有區分聲道等音樂中的必備要素。這樣的生成結果僅僅只是音符的組合,和實際生活中我們聽到的真實歌曲還差了很遠。

背後原因在於,目前大部分演算法模型並沒有完整地輸入樂曲的全部資訊,而僅僅只是單個音符的序列。研究院在生成樂曲的過程中,採用了多種類別標籤的音樂資料,使 AI 同時學習到了曲子的節奏、和聲、對位、調式等八種類別的音樂資訊,並根據這些資訊進行譜曲工作。

此外,過去的多個 AI 生成的結果都帶有同樣的弊病:僅能實現一種曲風。以谷歌在巴赫誕辰日的產品為例,AI 僅能根據人們輸入的旋律進行巴赫風格的模仿,無法換成其他風格。

而據平安研究院介紹,他們的人工智慧演算法使用了 VAE 模組,其目的就是為了讓模型能夠根據使用者提出的語義資訊要求,調整模型的超引數,使得最終生成的樂曲符合使用者的需求。這樣一來,AI 實現了真正意義上的「按需譜曲」,而不是帶著以模仿為核心功能的傳聲筒。

譜曲到演奏的「最後一公里」由人類專家完成

要保證生成的曲子在實際演出達到預期效果,這是有相當大難度的。

首先,如何將語義資訊利用 AI 融入曲子中呢?利用神經網路強大的擬合能力,平安人工智慧研究院選擇了數萬個旋律片段,並根據其表達的情感打上情感標籤,然後在模型中使用 transformer 進行訓練。這樣一來,隱層向量可以學習到特定模式的旋律所對應的語義標籤資訊,對譜曲中設定好的語義要求進行旋律上的關聯。

另一個問題則是 AI 譜曲和真實演奏之間出現的斷層問題。我們知道,很多時候序列的生成時不太好控制和約束,難免會出現異常的音符旋律組合。這樣會導致 AI 生成的結果無法在實際中進行演奏。例如,一些音符的組合對於人類而言難以演奏(比如指法無法切換),或者生成的旋律不符合樂理規律等。

對於這樣的問題,研究者引入了專家知識,使用規則和人類專家干預進行調整和約束。例如,用樂理規則自動化地對錯誤的序列進行調整,並引入專家進行評價,讓人類作曲家進行調整和改進,使得樂隊可以演奏最終的譜好的曲子。

AI+音樂:應用場景廣闊

為什麼要做 AI 和音樂結合的應用?在平安看來,AI 在音樂場景中有很多應用,有廣闊的市場空間待挖掘。

用 AI 輔助歌曲生成,在樂理和文化研究、音樂教育和娛樂消費市場有大量的應用場景。首先,透過 AI 生成特定風格的音樂,有助於研究樂理理論、研究特定地域、文化中的樂曲風格。同時,使用 AI 生成音樂,可以輔助教師教授音樂知識。在娛樂領域,很多短影片和場景有音樂生成的需求,有了 AI,可以針對影片中的語境,或使用者對使用場景的需求進行定製,快速生產音樂產品。

平安也已開始嘗試將 AI 作曲與營銷活動場景相融合,剛剛收官的「平安 920:以 AI 之名」大型綜合金融營銷活動中,透過個性化的人人作曲遊戲,吸引消費者注意力,降低獲客門檻,提升主業價值。未來,「AI+音樂」還將結合平安的金融、醫療、智慧城市等生態,探索音樂治療、音樂生活、音樂教育等多領域的結合情景,可預期,在 AI 音樂的商業價值層面將無可限量。

未來,平安人工智慧研究院希望能夠進一步探索 AI+音樂的各種應用,讓 AI 不僅能夠譜曲,還能夠作詞,並在生成譜子的時候更為智慧,更符合真實的演奏環境。AI 交響變奏曲技術負責人表示:「AI 在音樂場景中的應用依然處於『嬰兒時期』,我們願意挑戰尖端領域的研究。」


多架構融合譜寫變奏交響曲
採訪中,平安人工智慧研究院相關負責人首先介紹了這一大型獻禮專案的創作流程。首先,研究院對國慶獻禮進行了討論,確定使用《我和我的祖國》作為基礎曲目,結合《在希望的田野上》等經典曲目,進行整體的創作工作。在此基礎上,負責創作的研究者需要為歌曲確定大致的故事脈絡走向,為交響樂整體確定故事主題,幫助 AI 約束樂曲變奏過程中的語義資訊。
平安首創AVM自動變奏模型,探秘全球首部AI交響變奏曲硬核技術
如上所示為首部 AI 交響變奏曲主要生成技術,在海量樂曲資料和體系化的標註下,Transformer 等深度模型能學習到該如何生成變奏段落。但生成的好壞並不能直接判斷,因此就需要音樂評價模型與專家規則系統來確定什麼是好的變奏曲。下面,讓我們具體看看 AVM 模型整體的譜曲過程。

AI 作曲主導,專家評價修改

從演算法角度來說,交響變奏曲的譜曲過程類似於對序列資料進行處理和重新生成的過程。輸入資料是一段音符序列,而輸出則是和輸入類似,但進行了修改,和原曲有一定差異的新音符序列。在生成過程中,模型還需要能夠根據創作方提出的需求,不斷調整模型的引數,使其能夠根據要求在生成的序列中融入特定情感語義資訊。在完成作品後,樂曲會交由專業人士進行修改和調整,確保符合交響樂的創作規則,具備傳承經典性。

儘管譜寫樂曲時,模型需要對序列資料進行處理,因此會用到 Seq2Seq 模型。但是,機器之心從平安人工智慧研究院瞭解到,與一般的 Seq2Seq 模型不同,譜寫變奏交響樂要求變奏段落以基本段落為基礎,並表達不同的情感或語義。這就需要 Seq2Seq 模型同時具有遷移風格的能力。

為了使模型能夠達到設計要求,研究院使用了大量的樂曲和帶標註的旋律資料訓練模型,然後用訓練好的模型對《我和我的祖國》等基礎曲目進行處理。總共生成了 4 個版本的曲目,交由音樂家進行評價、調優,並最終交由專業的演出樂隊進行演奏。

在模型的學習過程中,模型會對音樂作品進行多維度的特徵學習,它會融合不同的音樂元素,從而衍生出各段落的音樂主題與對位形式,這就是一種自動變奏技術。評價模型其實後面還會對生成的變奏曲進行評估,從而選擇最佳的音樂片段。

自動變奏模型

平安 AI 團隊表示,他們對變奏的不同需求使用了不同模型。首先,平安 AI 團隊基於 Transformer 架構構建了一種基本變奏模型,然後基於 VAE 架構開發出風格遷移模型,這其中還包括對位演算法及節奏量化演算法等等。

如下圖所示,團隊會在生成變奏曲之前預訓練 Transformer 編解碼器,將長序列音樂主題進行降維表徵,讓他學會主題的音樂特徵。如果將預訓練 Transformer 的編碼器與解碼器分離來看,編碼器能將輸入資訊編碼為一個隱向量。這一隱向量包含了音樂主題的特徵資訊;而解碼器則能將隱向量解碼為不同的變奏曲。

訓練過程中,Transformer 編碼器構建的隱向量會被強化學習的 Agent 作為狀態表徵,用於表示不同的音樂風格與主題特性。Agent 利用 DQN 構建 Q 值函式,用於生成主題低維表徵作為 action,這些低維表徵之後可以透過 Transformer 解碼器生成完整的變奏曲。當前階段,模型需要透過專家變奏規則庫與獎勵函式來評價生成變奏曲的好壞,並將好壞程度轉換為對模型的獎勵反饋給 Agent。Agent 會在獎勵的驅使下生成符合預期的變奏曲。

平安首創AVM自動變奏模型,探秘全球首部AI交響變奏曲硬核技術
在生成階段,Transformer 解碼器生成的變奏曲會直接經過配器和後期處理,從而創造出真實環境下交響樂的音響效果,這個時候專家就可以對生成的樂曲進行判斷,如果達到要求就可以直接輸出曲譜。

上面只是簡要的整體流程,其中 Transformer、DQN、專家變奏規則庫等模組都起到了非常重要的作用。但是對於生成特定風格的變奏段落,預訓練的 Transformer 和能加入風格特徵的 VAE(變分自編碼器)顯得非常重要。

Transformer+VAE:AVM 的兩大模組

Transformer 在 NLP 中是非常優秀的生成模型,不論是機器翻譯還是知識問答,它能夠利用自注意力機制都能很好地完成這些任務。而變分自編碼器(VAE)在影像生成領域也大展身手,它最優秀的特點是能學習到資料中某些隱藏的特性。比如說,VAE 學習到的隱向量中,某個元素能夠表達資料「歡快」的程度,而另一個元素則能夠表達「民族風」的傾向程度。

如果能夠利用好兩個模型的優勢,在預訓練過程中讓它們學會各自的本領,那麼模型在譜曲的過程中就能把需要表達的音樂元素融合在一起。

如下所示,左右兩圖分別為使用 Transformer 和 VAE 構建的自動變奏模型。其中,Transformer 可以很好地編碼樂譜這種序列資料,如果我們將基本段落作為源序列,再將標註的變奏段落作為目標序列,那麼模型就會自動學會怎樣將基本段落變換為變奏段落。

平安首創AVM自動變奏模型,探秘全球首部AI交響變奏曲硬核技術


那麼,這兩個模型該如何合作才能構建更合理的變奏段落呢?平安 AI 團隊表示,Transformer 是一種基本變奏模型,它學習到的是基本段落與變奏段落之間的差別,但是,無法按照使用者的需求,將變奏曲中需要表達的各種特性手動地加進去。例如我們希望變奏曲變得更「歡快」一些,同時又帶有一些「民族風」特色。

但是 VAE 則正好能學習到這些特徵。透過調整 VAE 的隱向量,我們可以為變奏段落賦予同的風格。平安 AI 團隊表示,因為整個交響曲反映了從鴉片戰爭到現在中華民族復興的奮鬥主題,因此不同的音樂元素還需要融合,它們需要透過 VAE 加到標準變奏曲中。

AI 編曲的資料之本

對於機器學習模型,資料是最重要的,要學會生成一般的變奏段落,就要求有海量的基本段落和變奏段落;要學會各種曲調風格特徵,就要求有各種音樂標籤,從而確定不同的旋律到底代表什麼語義標籤。平安 AI 團隊表示,訓練資料使用了超過 70 萬首樂曲,包括各類題材的古典音樂作品、紅色歌曲,以及民歌等作品。研究者用此資料集進行結構化訓練,讓機器學習及理解音樂重要特徵。

除了樂曲的積累,平安 AI 團隊表示,他們還積累了全方位的音樂資料,包括歌詞、各種專家規則、多種樂器的音源、人類的聲音源等聲音相關的資料。只有累積了多領域、全方位的音樂資料,才能將它們組合在一起構建更優秀的模型。

多樣化的音樂特徵標註

有了海量的音樂資料後,這些樂曲應該經過什麼樣的標註才能滿足訓練機器學習模型的要求?

在專案中,平安 AI 團隊主要從兩個層面對結構化的樂曲進行標註。第一,團隊需要確定訓練用的樂曲表達了什麼樣的主題、描述了什麼樣的內容、呈現了什麼樣的情緒,並按照確定好的主題內容對對應的旋律進行標註。有了這些標註,才能向模型灌輸帶有語義標籤的音樂資料,創造出描述故事脈絡和特定主體情緒的變奏曲,這一層面的標註由音樂家和自動化的程式配合完成。

第二,團隊需要對音樂作品進行定量分析,根據分析結果進行資料標註。音樂作品本身的結構化資訊主要表現為發展手法、和聲、曲式、對位、配器、調性、調式、拍號等八個維度。資料標註遵從音樂理論知識,由音樂理論專家團隊標註完成。

現在,瞭解資料的主要結構後,就能更清晰地理解模型結構了。首先將音樂曲譜轉變成特定編碼格式的詞序列,再將上述標註資料作為條件約束嵌入其中。在生成階段,可以對這些維度進行操控,比如變調、約束和聲序進等。

最後,資料與機器學習的配合是非常強大的,像變奏曲這種需要大量原創性的工作,這項研究工作也表明 ML 擁有強大的能力。雖然目前自動變奏模型還有很多改進方向與可能性,但平安的 AI 變奏交響曲確實證明了 ML 在藝術領域的潛力。

相關文章