行了! 學會「看電影」的AI, 你能讓編劇別再拋給我們雷劇、爛劇、不知所云劇嗎?

微胖發表於2017-12-17

編譯 | 王宇欣 高靜宜 

來源 | McKinsey & Company

科幻電影《Sunspring》首次亮相於 2016 年的倫敦科幻電影節上。

這部電影描述了一個人類普遍失業的反烏托邦世界,吸引了大批粉絲的關注。一位觀眾是這麼評價電影的:有趣但卻又很奇怪。

不過,這部電影最出彩的地方其實在於它的創作方式:這是一部完全由人工智慧編劇的電影。

看到這裡,你可能會發出驚歎,也許會猜想,沒準機器將會代替人類成為講故事的人,就像滿街跑的自動駕駛汽車那樣。

不過,如果我們再仔細看看《Sunspring》這部短片的話,你可能就會產生一些疑問。例如,影片中的一個角色莫名其妙地咳出了一個眼球。也有評論家指出,影片的對話聽起來就像「一系列隨機並且毫無關聯的語句」。

事實上,儘管技術在不斷進步,也仍然需要人類編劇在鍵盤前兢兢業業地撰寫劇本。既然如此,讓我們暢想一個不那麼極端的情景:也許機器可以和人類一起工作,共同提升劇本的可讀性?

那麼,如何在豐富的視訊媒介中開展這種合作形式呢?

與往常一樣,編劇會創造一個兼具巧妙轉折與現實對話的劇本,而人工智慧則會提供一些見解,這些見解可以確定故事情節對觀眾的情感吸力,從而幫助編劇進一步提升作品的質量。舉個例子,人工智慧可以識別並確定哪種背景音樂或是視覺畫面可以讓觀眾內心充滿希望。與此同時,這種突破性的技術可能會給編劇帶來壓力,促使他們在觀眾對電影永無止境的需求下茁壯成長。

近日,麻省理工大學媒體實驗室針對人與機器在構建視訊故事方面的合作潛力展開了研究和調查。團隊想知道,機器是否可以辨別出視訊故事中共通的情感,例如那些典型的角色命運的跌宕起伏,包括在艱難時期的奮鬥、戰勝困難、失寵亦或是戰勝邪惡勢力。如果可以,那麼講故事的人可以使用這些資訊來預測觀眾的反應嗎?這些問題是任何從事視訊內容生產的人都要深刻考量的,上至電影工作室的執行人員,下至 YouTube 上的主播,均是如此。

 情感軌跡:故事的骨幹

在進行研究之前,先看一看什麼是情感軌跡。

無論是森達克、斯皮爾伯格,還是普魯斯特和皮克斯,這些傑出的故事講述者都會極富技巧地激發、引導觀眾的情感。通過對觀眾情感脈動的解讀,他們對自己的故事進行調整,並在關鍵時刻挑起觀眾喜悅、悲傷或者憤怒等情緒。

不過,即便是最好的故事講述者有時也會出產不理想的結果,比如一些莎士比亞的戲劇就讓觀眾毫無興趣或者無法與觀眾建立情感連線。(《辛白林》這部劇就沒有太多的粉絲。)

那麼,是什麼造成了這種結果呢?

從理論上看,一個故事的情感軌跡走勢能夠在很大程度上解釋它廣受讚譽或是被打入冷宮的原因。

情感軌跡的說法並不新鮮,每一個講故事的大師都對這個概念很熟悉,其中有些人也會試圖找出一些通用的模式。事實上,可以參考 Kurt Vonnegut 對「軌跡」的解釋。Kurt Vonnegut 認為,最受歡迎的情感軌跡是《灰姑娘》中的模式。

在故事開始的時候,主角身處困境,接下來命運變得起伏。在灰姑娘的例子中,先是出現救星,然後出現一系列麻煩。不過,無論中間發生過什麼事情,灰姑娘式的故事都會有美滿的結局——王子和公主從此過上了幸福的生活。

有證據表明,一個故事的情感軌跡可以影響觀眾的參與度,例如,有些觀眾會在社交媒體上對該影片進行評論或者向朋友誇讚這部影片。

在賓夕法尼亞大學的一項研究中,研究人員檢視了紐約時報的文章,試圖找到哪種型別文章的出版傳播範圍最廣。他們發現,讀者通常會分享能夠引發強烈情感反應的故事,特別是那些鼓勵積極情感的故事。根據邏輯推理,電影觀眾的響應方式也會是如此。

讓機器作為電觀眾:麻省理工團隊的實驗

一些研究人員已經使用機器來識別故事中的情感軌跡。佛蒙特大學開發出了一種方法,用計算機掃描文字視訊指令碼或者書籍的內容從而構建出情感軌跡。

麻省理工大學的團隊則決定更進一步,研究人員開發了一種機器學習模型,該模型依賴於深度神經網路,用於「觀看」電影、電視劇或是線上特寫的片段,並在幾秒內評估其內容所包含的積極或是消極的情感。

這些模型考慮了視訊的所有方面,不僅僅是情節、任務和對話,還包括了細微的觸動,比如汽車追逐場景中對人臉的特寫或者音樂片段的著重描述。當全方位考量每一幀內容時,故事的情感軌跡就出現了。

在這個過程中,機器可以檢視未標記的視訊,並基於視訊所有的音訊和視覺元素為故事建立情感弧。這是前所未聞的。

想想著名 3D 電影《飛屋環遊記》的開場片段。這部電影聚焦在一個脾氣暴躁的老年人 Carl Fredricksen 身上,他的妻子 Ellie 去世後,他決定用數千個氣球帶自己的房子飛往南美。為了讓這部電影的大部分時間都體現在 Carl 的冒險上,編劇們需要想出一個快速交代複雜背景故事的方法,也就是電影的開場片段的訴求。這個片段基本是沉默的,而當 Carl 的生活場景展現在螢幕上時,情感軌跡就出現了。

你可以在下圖 1 中看到電影的鏡頭組合,X 軸是時間,以分鐘為單位,Y 軸是視覺帶來的心理效價,或者理解為影像在特定時間引起觀看者產生積極或者消極情緒的程度。這個程度由機器打分,分數越高,產生的積極情緒越多。為了方便分析,團隊也用機器對電影的音訊和視訊建立了相似的影像。不過,重點仍是在視覺影像上,這也是團隊後來分析情感投入的重點方向。

行了! 學會「看電影」的AI, 你能讓編劇別再拋給我們雷劇、爛劇、不知所云劇嗎?

 圖 1

視覺的心理效價由 0 到 1 這個尺度進行衡量,但是並非每個電影都有跨越整個區間的影像,重點在於相對心理效價,指的是某一場景與影片其他場景比較究竟呈現了多大積極或消極效應,以及情感軌跡的整體形態。

與電影類似,《飛屋環遊記》開場片段也包含了一系列的情緒變化,並不存在一個明顯的向上或者向下的軌跡。比如,其中的最高峰出現在 Carl 還是一個快樂孩童的時候,但是隨後不久,也就是 Ellie 在半夜嚇了他一跳時,出現了一個巨大的下滑。機器的負面反應則體現出了 Carl 的恐慌。稍後也出現了一些波峰,例如新婚燕爾的 Carl 夫婦準備要個孩子時,或者年老的 Carl 夫婦互相擁抱時。接近尾聲 Carl 在 Ellie 去世後獨自回家的片段中,效價則直線下降。

麻省理工大學團隊的機器學習模型已經檢視了數千個視訊,併為每個視訊構建了情感軌跡。為了衡量這些軌跡的準確性,團隊要求志願者用不同的情感標籤對電影的片段進行標註。此外,志願者必須要確定是哪些視訊元素(比如對話、音樂或者影像)引起了自己的反應,然後團隊會使用這些反饋回來的意見改進模型。

尋找通性:相似的情感軌跡

從視訊分析中篩選出資料後,團隊開發出了一種將故事分成不同型別軌跡的方法,換句話說,就是具有相同情感軌跡的視訊。這種方法將一種名為 K-medoids 的聚類技術與動態時間偏差相結合,所謂動態時間偏差是檢測兩個速度不同的視訊序列相似性的過程。

團隊嘗試在兩個獨立的資料集中尋找情感軌跡的型別,其中一個含有 500 多部好萊塢電影,另一個則包括將近 1500 個 Vimeo 上的短片。

視覺心理效價的初步分析表明,大多數故事都能被分成數目較小的組別,這與馮內格特和其他一些故事講述者猜想的一樣。下圖 2 顯示了 Vimeo 資料集中視訊被分成的 5 個不同的情感軌跡型別。例如,對於用黃線標識的型別來說,視訊的早期就會出現負面情緒的激增,在隨後的片段中則會有持續的積極情緒出現。(所有的電影在最初和臨近結尾時的打分都較低,這受到機器打分系統的影響。)

行了! 學會「看電影」的AI, 你能讓編劇別再拋給我們雷劇、爛劇、不知所云劇嗎?

圖 2

讓計算機成為帶有魔法的水晶球:預測觀眾的參與度

掌握故事的情感軌跡非常有趣,但是瞭解如何使用這些結論更為重要。

一個故事的情感軌跡或者故事所屬的軌跡種類是否會影響觀眾對視訊的反應?具有某一確定型別情感軌跡的故事是否可以刺激產生更多的觀眾參與度?

團隊試圖通過分析 Vimeo 短片資料集的視覺資料來回答這些問題,並針對可能影響每一個故事線上反應(比如視訊長度或者上傳日期)的各種後設資料,使用了迴歸模型來考慮軌跡特徵。之所以選擇在分析討論中著重關注視覺軌跡是因為比起音訊來說,這些視覺軌跡與視訊內容的連線更加緊密,並且可以把軌跡組合起來提出一些分析上的挑戰。

團隊的目標是預測視訊在 Twitter 和其他社交媒體上收到的評論數量。在大多數情況下,大量的評論意味著廣泛的觀眾參與度,儘管其中可能包含一些負面的內容。例如《鴛鴦綁匪》和《伊斯達》這類電影在網上炸開了鍋,也會產生大量的線上評論,儘管都不是什麼好話。

在針對 Vimeo 的分析中,利用視覺軌跡確實可以預測觀眾的參與度,並且一些特定型別的電影確實會產生更多的觀影評論。團隊進行了很多次分析,每一次都會使用不同的型別以確保不會忽視任何趨勢。

可以看到,其中一個呈現興衰模式的型別很突出,在圖 2 中以紅線標識。人物在取得了早期的成功和幸福之後,效價呈現穩步的下降趨勢。在所有的故事型別中,這個型別有著最消極的結局。這些故事有著消極結局,但是會給觀眾留下了深刻的印象。

對 Vimeo 視訊的一些其他分析也顯示出了類似的結果。在圖 3 中,有兩種故事型別可以比其他型別吸引更多的評論。臨近結尾的弧線大幅上漲表明,這些故事都以積極的情緒爆發作為影片的高潮。主要區別在於左側圖中的故事在大結局之前涉及了更多從負面到正面的情緒擺動。與那些以消極情緒結尾的影片相比,來自這兩型別的故事有可能收到更多的評論。這個結果也許與賓夕法尼亞大學的發現相反,正面的情緒造就了最大的觀眾參與度。

行了! 學會「看電影」的AI, 你能讓編劇別再拋給我們雷劇、爛劇、不知所云劇嗎?

圖3

團隊閱讀了所有 Vimeo 短片的評論,並對其所表達的情緒型別劃分了等級進行了評分,然後執行程式測量這些評論的長短。這一分析證實,剛剛描述的三種故事型別更可能產生更長、感情更激烈的評論。這些評論並不是那種簡單的「不錯」,而是類似「超級棒.... 特別強大.... 像大鐵球一樣直擊你的內心」這種評論。同樣驚人的是,這些評論並不會關注特定的視覺影像,而是關注視訊整體的情感感染力,或是故事隨時間變化的演進方式。

這些建議並不是要給編劇們一個模板或是框架,就像要求喬治奧威爾為了振奮人心而在 1984 年強行製造一個快樂結尾那樣。但是,它們可以激勵編劇客觀地看待他們的內容,編輯視訊從而提升觀眾的參與度,例如,在關鍵點播放新的音樂或者不同的影像,以及對情節、對話和角色進行調整。隨著編劇們認識到人工智慧的價值以及這些工具普及度的提升,人們創作視訊故事的方式會發生巨大的變化。

與此同時,導演也可以把捕捉到的動作整合到自己的作品中,作家可以與機器合作,用人工智慧技術來打磨情節、提升故事的感染力。行了! 學會「看電影」的AI, 你能讓編劇別再拋給我們雷劇、爛劇、不知所云劇嗎?

相關文章