敘事科技(Narrative Science)是一家訓練電腦寫新聞的公司,如果讓它來“寫”這篇文章,很可能既不會提到它棲身立命的芝加哥《論壇報》總部,也不會提及以培養新聞人員為宗旨的西北大學傳播學院。畢竟電腦不是人,它不懂人類的反諷。
敘事科技擁有30名員工,位於芝加哥魯普商業區邊緣的一個大房間內。每隔30秒,“電腦寫手”就會擠出以一個哲學問題署名的故事。這樣的新聞作品可以是“十大聯盟”籃球賽下半場的即時播報,或者是企業的收入報告預覽,又或是對Twitter上賽馬比賽的風趣總結。這樣的文章同時出現在福布斯新聞網和其它網路媒體。它的使用者多為體育迷、投資散戶或快餐連鎖經銷商,它聘請敘事科技為他們更新即時資訊,並且這資訊還看不出是機器人寫的。比如:
儘管坐擁七個安打與八分,Friona仍在第五局主場以10-8不敵Boy Rach。在對陣與Boy Rach戰成2-2平局的Hunter Sundre時,Hunter Sundre輕鬆領先。Sundre在第三局打出單打而第四局三擊……Friona不斷搶斷,總共橫掃八壘。
好吧,這並不能媲美專業球評人。但是少年棒球隊成員的家人會發現,這篇甚至在兩隊賽後還沒握完手就出現在網際網路上的報導與網站上其他新聞一樣受歡迎。在寫這篇新聞時,敘事科技使用了精確到每一投的比賽資料,家長們登陸一款名為Game Changer的蘋果應用即可看到該新聞。去年這個軟體生產了將近40萬條關於少年棒球隊的新聞,今年該數字預計可達到150萬。
克里斯蒂安·哈蒙德(Kristian Hammond)是敘事科技的CTO兼合夥創始人,他所工作的小辦公室與程式設計師和工程師近在咫尺。
這些新聞不過只是第一步,對於哈蒙德來說,整個新聞界最終都將由“電腦寫手”一統江湖。
去年在一個“記者與技術”小型會議上,有人請哈蒙德預測未來15年“電腦寫手”新聞的比率,他回應道:多於90%。哈蒙德請記者們不用擔心以後會被一臺MacBook搶飯碗,他堅稱這場“機器人新聞海嘯”並不會“捲走”剩餘的記者。相反,在許多目前記者仍未涉足的事件發展中,電腦蘊含的海量資料可以提供極其便宜並且絕對可讀的新聞,這將大幅擴張新聞寫作的疆界。
這並不是說“電腦寫手”新聞會因受限於目前的業務而停滯不前。哈蒙德最近否認了關於未來二十年內電腦會贏得普利策獎這一說法。“二十年?”他說,“五年即可。”
哈蒙德在猶他州長大,父親是州立大學的考古學家,他一度以為自己會成為律師。可八十年代末在耶魯求學時,他為著名人工智慧研究者兼電腦科學部主席羅傑·斯恰克(Roger Schank)所傾倒,轉投技術領域。獲得計算機工程博士學位後,哈蒙德受聘於芝加哥大學,領導一個全新的人工智慧實驗室。九十年代中期,他在芝加哥大學建立了一個可通過追蹤使用者讀寫而給他們推薦相關檔案的系統,並以此辦了個小公司。不久他賣掉了公司,來到西北大學成為了該大學智慧資訊實驗室的共同領導者。2009年,哈蒙德與他的同事拉里·比爾巴莫(Larry Birnbaum)所教的班上同時有程式設計師與記者。他們鼓勵學生建立一個可以把資料轉換成小故事的系統。其中一名學生是《論壇報》負責報導高中體育的特約記者,他和另兩位新聞學生與一位計算機專業的學生一道開發了該程式的原型Stats Monkeys。這個程式蒐集比分與每場資料,從而得出高校棒球比賽的可靠資訊。
學期結束時,學生們ESPN、Hearst和《論壇報》的高管展示他們的專案。其中Stats Monkey特別引人注目。Medill傳媒學院院長約翰·拉維尼(John Lavine)回憶道:“他們將得分與每場資料放入程式,大概12秒後,它畫出了大聯盟40年簡史,給出了一個比賽記錄,定位了最佳圖片,還寫了一個標題。”
斯圖爾特·弗蘭克(Stuart Frankel)是DoubleClick前高管,他也是當時參觀該專案的客人。“當這些學生展示時,屋裡的氣氛為之一變,”他說,“但這仍十分有限,這仍是一個僅僅寫棒球比賽新聞的程式。”它可以用任何資料來創造任何新聞嗎?它可以創造出好到讓人們付錢閱讀的新聞嗎?弗蘭克向哈蒙德與比爾巴莫追問道,答案樂觀得足以讓他相信,這實在是一個讓人興奮的巨大商機。三個創始人於2010年創立公司,弗蘭克出任CEO。
公司的第一位客戶是十大體育聯盟電視網(Big Ten college sports conference)。公司程式將為數以千計的聯盟體育比賽撰寫同步新聞,每十五分鐘更新橄欖球比賽進度。敘事科技同時負責女子壘球比賽,這使它成為該運動全國最多產的記錄者。
但是該合同開始沒多久,一個小問題發生了:新聞只關注勝利者。當聯盟的球隊被其他對手橫掃時,“全軍覆沒”的結果會成為奇恥大辱。聯盟希望敘事科技讓“十大聯盟”的隊伍即使輸掉比賽也能被讚揚。一個人類記者聞此或許會氣得臉色發白,但是敘事科技的工程師們認為這只不過是修改幾個軟體引數的問題。與之類似,當公司開始報導少年棒球聯盟比賽時,它很快明白家長們並不希望看到孩子犯錯的資訊。所以這些新聞故意忽視丟球,只關注成功一刻。
敘事科技公司的寫作引擎需要幾個步驟。首先,必須積累大量高質量的資料。這是財經和體育成為新聞主題的原因:這兩個行業都涉及資料的波動——每股收益、股價變化、投手責任得分率(ERA)和棒球打分(RBI)。統計極客總是能創立新資料,豐富新聞報導。比如說,棒球球迷建立了模型,在比賽進行過程中計算球隊在各種情況下的勝算機率。在此過程中,如果擊球得分改變了勝算機率,比如說從40%上升到60%,這種演算法就能進行程式設計,強調這個關鍵得分點是比賽中最有戲劇化的時刻。然後,這種演算法必須讓資料符合人們對新聞主題的廣泛理解。(比如說,他們必須知道,擊跑次數最多的球隊將成為棒球比賽的冠軍)。所以,敘事科技公司的工程師為每個新聞主題設計了一套規則,無論是公司收益還是體育賽事。但是,如何才能把分析資料變成文章呢?這家公司招聘了寫手團隊,這些訓練有素的記者負責建立寫作模板。他們與工程師合作,讓電腦從各種不同的角度來識別資料。哪支球隊贏得了比賽?究竟是逆轉勝出還是輕鬆取勝?比賽過程中是否有球員表現絕佳?這種演算法還考慮到新聞背景和其他資料庫的資訊:這支球隊是否結束了連敗的戰績?
然後是文章結構。大多數新聞報導,尤其是體育或財經等新聞主題,通常會有可以預見的固定模式,所以對於寫手來說,建立文章模板相對比較容易。為了遣詞造句,這種演算法會使用寫手提供的詞彙表(比如說棒球比賽,寫手主要依賴20世紀初期知名體育專欄作家林·拉德納的詞彙。他總是說猛擊本壘打、跑過壘包、踏上本壘)。這家公司把完成後的作品成為“敘事文”。
這種演算法偶爾會出現失誤,比如每場棒球比賽的替補投手只能擊球一次,但是報導中稱他在六場比賽中擊球兩次。不過這種錯誤非常罕見。人們不會對資料斷章取義。哈蒙德說,即使資料庫提供了錯誤的資訊,敘事科技公司的演算法也會糾正錯誤。他解釋說,“如果一家公司的季度利潤環比增長了600%,那麼演算法就會提醒,某個環節出了錯。人們可能會問,是否出過荒唐可笑的錯誤,我們從來沒有過。”
計算機編寫的報導都符合這家公司的核心精神,他對此印象深刻,但是並不感到驚訝。儘管記者撰寫的稿件會出現重大的錯誤,但是劉易斯·德沃爾金說,他從來沒有聽到人們對自動新聞報導的投訴。他說,“一次投訴都沒有”。(福布斯新聞網的文章包括敘事科技公司通過專有的人工智慧平臺,把資料轉化成新聞報導和深度觀察)。
敘事科技公司的團隊還為客戶量身打造文章的基調。金融分析公司Data Explorer的首席財務官喬納森·莫里斯(Jonathan Morris)表示,“你可以得到任何風格的文章,無論是氣喘吁吁的金融記者在交易大廳的現場報導,還是冷靜古板的賣方研究員引領你縱覽金融市場。”Data Explorer使用敘事科技公司的技術設立了證券新聞專線(莫里斯為文章確立了一位受過良好教育、態度直率的財經記者的基調)其他客戶青睞部落格的活潑文風。 敘事科技公司產品副總裁拉里·亞當斯(Larry Adams)說,“撰寫語氣玩世不恭的文章,並不比撰寫簡單直率的美聯社報導更困難。我們可以用邁克·羅伊克(Mike Royko)的文風來報導股市動態。”
在敘事科技公司掌握了體育報導和財經新聞的訣竅後,這家公司意識到,可以把這種方法擴充套件到新聞界以外的領域。事實上,只要你需要翻譯和解釋大量的資料,都可以從這種服務中收益。人們的要求接踵而至,他們深受電子表格和圖表困擾。結果證明,他們願意付錢,把這些雜亂無章的資訊轉化成切中要害的重點段落。
事有湊巧,敘事科技公司具有適應這種需求的優越條件。當時這家公司剛剛起步,每次攻克一個新的主題,寫手都必須費盡心力地培訓這套系統。但是沒過多久他們開發了一個平臺,讓這套演算法更加容易地瞭解新業務領域。比如說,有位寫手決定建立一臺寫作機器,撰寫文章來介紹某座城市的最佳餐廳。使用餐廳評論的資料庫,她能夠迅速教軟體如何識別相關內容(調查檔次高、良好的服務、美味的食物、滿意顧客的評論),同時提供部分相關用語。在幾個小時的時間內,她就能讓機器人源源不斷地提供文筆活潑風趣的文章,比如“亞特蘭大最佳義大利餐廳”或者“密爾沃基的美味壽司”。
在自動編寫新聞方面,敘事科技公司的主要競爭對手是Stat Sheet公司,這家位於北卡羅來納州的公司用類似的方法擴大業務。Stat Sheet公司無法與敘事科技公司誕生的梅迪爾新聞學院競爭,因此把該公司定位於活躍的通俗小報。這家公司也在體育新聞領域起家,撰寫棒球大聯盟和大型聯賽的報導,同時建立了閒話生成器,稱為StatSmack。在意識到把資料轉化成報導的機遇遠遠大於體育新聞後,這家公司把名稱改為Automated Insights,公司創始人羅比·艾倫說,“我曾經認為,我們的業務範圍受到限制限制,我們的報導只針對某些資料豐富的行業,現在我認為,這個行業最終存在無限機遇。”
現在文章主題變得越來越多樣化,敘事科技公司曾經受僱於一家快餐公司,為該公司的特許經營商撰寫月度報告,分析銷售數字,比較本地競爭對手,提出特定選單進行促銷。此外,由於把資料轉化成文章的成本較低,這家公司甚至可以為單一讀者撰寫文章。敘事科技公司正致力於編寫《魔獸世界》的401K財報和會議概要,玩家可以在閱讀機器人撰寫的報告後對此有所瞭解。DoubleClick公司前執行長大衛·羅森布拉特(David Rosenblatt)現在是敘事科技的董事,他表示,“網際網路產生了更多前所未有的資料。這家公司能夠把資料轉化成文章。這是敘事科技存在的理由。新聞報導是這家公司的賣點——主要業務可能是管理報告。”
然而,新聞現在依然是這家公司的核心業務。像初出茅廬的新聞記者一樣,敘事科技公司有著光榮的夢想——挖掘和釋出重大新聞。為了做到這一點,這家公司將投資先進的機器學習和資料處理技術。敘事科技公司將更深入地理解自然語言,獲得電子表格無法披露的資訊和內容,並且已經取得了一些進展。哈蒙德表示,“在財經領域,我們讀了頭條新聞後,能夠辨別某家公司股票評級是上升還是下調,高管是遭到解僱還是受到聘請,某家公司正在考慮併購計劃,我們知道這些事件和股價的關係。”哈蒙德希望,這家公司撰寫的大學體育新聞中,能夠包括球員受傷或法律訴訟這樣的非數字資訊。
然而,即使敘事科技公司永遠無法達到普利策新聞獎的水平,學不會瓊·迪迪昂(Joan Didion)冰冷犀利的文風,這家公司依然會利用這個事實,我們的生活和社會正在越來越多地轉化成資料。比如說,在過去幾年裡,美國大聯盟棒球賽已經耗資數百萬美元,安裝高清晰攝像機和高強度感測器的精密系統,分析棒球賽場上的每個舉動:投手的投擲速度和軌跡,外野手在特定時刻站立的位置,游擊手跑動接球的距離。有時候,這場比賽的真實報導可能就在於這些資料。也許球隊經理沒有意識到,在對手製勝一擊前,投手的動作已經顯示出筋疲力盡的跡象。也許游擊手原本可以阻止六支安打。這些細節即使是經驗豐富的棒球記者也不會注意。但是演算法不會忽視。
哈蒙德認為,隨著敘事科技公司的發展,這家公司的新聞報導將上升到更高階的食物鏈——從普通新聞到分析評論,再到細節詳盡的長篇報導。也許在某一天,人類和電腦將攜手合作,發揮各自的優勢。電腦的優勢在於完美的記憶和獲取資料的能力,可以作為人類作家的現場採訪記者。反過來說,人類記者可以採訪新聞物件,捕捉零碎的細節——然後把這些內容發到電腦上,完成新聞的寫作。隨著電腦獲得更多的成就,能夠處理越來越多的資料,電腦撰寫文章的限制將逐漸消失。這可能需要一段時間,但是最終電腦將撰寫這樣的文章,根本不需要我本人來動手。哈蒙德說,“人類擁有不可思議的豐富思維和複雜頭腦,但是電腦只是機器。在未來20年內,將不存在敘事科技無法報導的新聞領域。”
然而,哈蒙德打算讓記者放心,他並不想在對方失意的時候解僱他們。哈蒙德講了個故事,他帶著妻子去參加宴會,她是芝加哥著名的第二城喜劇俱樂部的營銷總監。哈蒙德與一位聲名顯赫的戲劇評論家聊了起來,對方問到他的生意,哈蒙德解釋了他的業務後,這位評論家變得非常激動。他說道,新聞記者的日子已經夠艱難了,你還要用機器人去代替他們?
哈蒙德回憶說,“我當時盯著他質問道,你在棒球小聯盟比賽中見過記者的身影嗎?這一點對我們至關重要。沒有人因為我們的工作丟掉飯碗。”
至少目前還沒有。