《我和我的祖國》原本就是家喻戶曉的經典曲目,在保留原曲風格的基礎上進行二次創作,使其具有鮮明的時代特色、賦予其新時期新的內涵,無疑對人工智慧是一個挑戰。機器之心就此採訪了AI交響變奏曲《我和我的祖國》曲目團隊技術負責人,揭秘這首國慶獻禮樂曲背後的硬核技術。據瞭解,AI 交響變奏曲《我和我的祖國》運用了平安首創且行業中尚未發表的具有獨創性的 AVM 自動變奏模型,它會利用深度學習技術對音樂作品實現多維度的特徵學習與提取,並結合強化學習技術讓機器學會變奏手法。總體上,結合規則系統的作曲經驗,以及深度模型的學習能力,AI 能找出最能表示主題情感的音樂片段。 聲聲聞來皆辛苦,AI 譜曲不尋常 能夠譜寫出波瀾壯闊的交響變奏曲,需要的不僅僅是模型與資料的交匯。在 AI 生成《我和我的祖國》交響變奏曲的過程,團隊遇到了很多不同的挑戰,隨之而來的則是諸多技術領域的創新和突破。據悉,這是全球領域首次嘗試藉助 AI 譜寫交響變奏曲。儘管在這一階段,很多問題都需要用專家規則判斷和約束,但透過 AI 與專家知識的結合,使得「AI+音樂」能在教育、配樂等更廣泛的實現不同形式的探索和嘗試。 兩個世界第一 利用 AVM 架構模型生成的 AI 交響曲,實現了兩個世界第一:全世界第一個能夠進行多旋律交響曲譜曲的 AI 以及全世界第一個可變譜曲風格的 AI。儘管過去很多研究都進行了 AI 譜曲的工作,但生成的樂曲都是單旋律的,其中沒有和聲、對位,也沒有區分聲道等音樂中的必備要素。這樣的生成結果僅僅只是音符的組合,和實際生活中我們聽到的真實歌曲還差了很遠。 背後原因在於,目前大部分演算法模型並沒有完整地輸入樂曲的全部資訊,而僅僅只是單個音符的序列。研究院在生成樂曲的過程中,採用了多種類別標籤的音樂資料,使 AI 同時學習到了曲子的節奏、和聲、對位、調式等八種類別的音樂資訊,並根據這些資訊進行譜曲工作。 此外,過去的多個 AI 生成的結果都帶有同樣的弊病:僅能實現一種曲風。以谷歌在巴赫誕辰日的產品為例,AI 僅能根據人們輸入的旋律進行巴赫風格的模仿,無法換成其他風格。 而據平安研究院介紹,他們的人工智慧演算法使用了 VAE 模組,其目的就是為了讓模型能夠根據使用者提出的語義資訊要求,調整模型的超引數,使得最終生成的樂曲符合使用者的需求。這樣一來,AI 實現了真正意義上的「按需譜曲」,而不是帶著以模仿為核心功能的傳聲筒。 譜曲到演奏的「最後一公里」由人類專家完成 要保證生成的曲子在實際演出達到預期效果,這是有相當大難度的。 首先,如何將語義資訊利用 AI 融入曲子中呢?利用神經網路強大的擬合能力,平安人工智慧研究院選擇了數萬個旋律片段,並根據其表達的情感打上情感標籤,然後在模型中使用 transformer 進行訓練。這樣一來,隱層向量可以學習到特定模式的旋律所對應的語義標籤資訊,對譜曲中設定好的語義要求進行旋律上的關聯。 另一個問題則是 AI 譜曲和真實演奏之間出現的斷層問題。我們知道,很多時候序列的生成時不太好控制和約束,難免會出現異常的音符旋律組合。這樣會導致 AI 生成的結果無法在實際中進行演奏。例如,一些音符的組合對於人類而言難以演奏(比如指法無法切換),或者生成的旋律不符合樂理規律等。 對於這樣的問題,研究者引入了專家知識,使用規則和人類專家干預進行調整和約束。例如,用樂理規則自動化地對錯誤的序列進行調整,並引入專家進行評價,讓人類作曲家進行調整和改進,使得樂隊可以演奏最終的譜好的曲子。 AI+音樂:應用場景廣闊 為什麼要做 AI 和音樂結合的應用?在平安看來,AI 在音樂場景中有很多應用,有廣闊的市場空間待挖掘。 用 AI 輔助歌曲生成,在樂理和文化研究、音樂教育和娛樂消費市場有大量的應用場景。首先,透過 AI 生成特定風格的音樂,有助於研究樂理理論、研究特定地域、文化中的樂曲風格。同時,使用 AI 生成音樂,可以輔助教師教授音樂知識。在娛樂領域,很多短影片和場景有音樂生成的需求,有了 AI,可以針對影片中的語境,或使用者對使用場景的需求進行定製,快速生產音樂產品。 平安也已開始嘗試將 AI 作曲與營銷活動場景相融合,剛剛收官的「平安 920:以 AI 之名」大型綜合金融營銷活動中,透過個性化的人人作曲遊戲,吸引消費者注意力,降低獲客門檻,提升主業價值。未來,「AI+音樂」還將結合平安的金融、醫療、智慧城市等生態,探索音樂治療、音樂生活、音樂教育等多領域的結合情景,可預期,在 AI 音樂的商業價值層面將無可限量。 未來,平安人工智慧研究院希望能夠進一步探索 AI+音樂的各種應用,讓 AI 不僅能夠譜曲,還能夠作詞,並在生成譜子的時候更為智慧,更符合真實的演奏環境。AI 交響變奏曲技術負責人表示:「AI 在音樂場景中的應用依然處於『嬰兒時期』,我們願意挑戰尖端領域的研究。」
那麼,這兩個模型該如何合作才能構建更合理的變奏段落呢?平安 AI 團隊表示,Transformer 是一種基本變奏模型,它學習到的是基本段落與變奏段落之間的差別,但是,無法按照使用者的需求,將變奏曲中需要表達的各種特性手動地加進去。例如我們希望變奏曲變得更「歡快」一些,同時又帶有一些「民族風」特色。 但是 VAE 則正好能學習到這些特徵。透過調整 VAE 的隱向量,我們可以為變奏段落賦予同的風格。平安 AI 團隊表示,因為整個交響曲反映了從鴉片戰爭到現在中華民族復興的奮鬥主題,因此不同的音樂元素還需要融合,它們需要透過 VAE 加到標準變奏曲中。 AI 編曲的資料之本 對於機器學習模型,資料是最重要的,要學會生成一般的變奏段落,就要求有海量的基本段落和變奏段落;要學會各種曲調風格特徵,就要求有各種音樂標籤,從而確定不同的旋律到底代表什麼語義標籤。平安 AI 團隊表示,訓練資料使用了超過 70 萬首樂曲,包括各類題材的古典音樂作品、紅色歌曲,以及民歌等作品。研究者用此資料集進行結構化訓練,讓機器學習及理解音樂重要特徵。 除了樂曲的積累,平安 AI 團隊表示,他們還積累了全方位的音樂資料,包括歌詞、各種專家規則、多種樂器的音源、人類的聲音源等聲音相關的資料。只有累積了多領域、全方位的音樂資料,才能將它們組合在一起構建更優秀的模型。 多樣化的音樂特徵標註 有了海量的音樂資料後,這些樂曲應該經過什麼樣的標註才能滿足訓練機器學習模型的要求? 在專案中,平安 AI 團隊主要從兩個層面對結構化的樂曲進行標註。第一,團隊需要確定訓練用的樂曲表達了什麼樣的主題、描述了什麼樣的內容、呈現了什麼樣的情緒,並按照確定好的主題內容對對應的旋律進行標註。有了這些標註,才能向模型灌輸帶有語義標籤的音樂資料,創造出描述故事脈絡和特定主體情緒的變奏曲,這一層面的標註由音樂家和自動化的程式配合完成。 第二,團隊需要對音樂作品進行定量分析,根據分析結果進行資料標註。音樂作品本身的結構化資訊主要表現為發展手法、和聲、曲式、對位、配器、調性、調式、拍號等八個維度。資料標註遵從音樂理論知識,由音樂理論專家團隊標註完成。 現在,瞭解資料的主要結構後,就能更清晰地理解模型結構了。首先將音樂曲譜轉變成特定編碼格式的詞序列,再將上述標註資料作為條件約束嵌入其中。在生成階段,可以對這些維度進行操控,比如變調、約束和聲序進等。 最後,資料與機器學習的配合是非常強大的,像變奏曲這種需要大量原創性的工作,這項研究工作也表明 ML 擁有強大的能力。雖然目前自動變奏模型還有很多改進方向與可能性,但平安的 AI 變奏交響曲確實證明了 ML 在藝術領域的潛力。