資料是科學,也是藝術。資料使用合適與否,對於建立新聞調查邏輯、推導結論、傳達準確可感的內容十分重要,也直接影響受眾的觀感和認知。深度君選取資深記者和專家的新聞資料使用經驗,告訴你視覺化地圖、資料新聞、普通新聞以及完整流程中裡存在的資料陷阱、怎麼選用資料才能又保險又合適。
1.視覺化地圖資料要領:完善樣本和邏輯,增強說服力
早戀雖美好卻易逝——果真如此嗎?社交網站Facebook的資料科學小組分析了本網使用者資訊,想知道學校對擇偶的影響。他們的作品“From Classmates to Soulmates”得出結論:已婚人群中,有15%是和中學校友結為伴侶;而已婚的大學畢業生中,約28%是和大學校友喜結連理。
上圖是與中學校友結婚的比率,紅點表示高比率,藍點則相反。城市地區往往藍點較多,鄉村等偏僻地區則紅點較多。
這個資料分析看似簡單,卻有許多問題:如果兩人雖是校友,卻並非在學校遇到,便不能證明是學校牽線搭橋;如果兩人不僅上同一個中學,也上了同一個大學,哪一段相處促成了戀愛,也無法統計。另外,如何選擇樣本、避免系統誤差,也是個問題。
針對以上問題,Facebook的分析員採取瞭如下預設條件:
1) 如果兩人上同一所學校的時間差在4年以內,就算作學校促成了這段姻緣;學校的“做媒成功率”是s/n,s是Facebook上某校畢業生與其配偶同校的人數,n是該校已婚畢業生的配偶也提供了學校資訊的人數;
2) 如果兩人同上過不止一所學校,只計算最早同校的那一所;
3) 只計算年齡在24歲以上、已婚並提供完整資訊的使用者資料;
4) 只選擇(在Facebook上登記的)有1000個以上已婚校友的學校;
5) 女性使用者和男性使用者資料分開統計,因此兩邊資料是不對等的,分析時也分開觀察。
資料分析的量度也很重要。Facebook分析員選擇瞭如下三個因素作為變數,探究學校的“做媒成功率”與這些因素的關係:
1) 學校大小;
2) 學校的宗教傾向:以-1代表完全非宗教,1代表完全宗教化;
3) 學校的政治傾向:以-2代表非常自由,2代表非常保守。
在這些前提下,一些有趣的發現包括:
1) “做媒成功率”較高的學校大部分是宗教化的學校;
2) 女性嫁給同校男生比率最高的學校是印第安納州的羅斯-豪曼理工學院(Rose-Hulman Institute of Technology),比例達70.4%;
3) 男性娶同校女生比率最高的學校是愛荷華州的一所高中,虔誠浸會聖經學院和神學院(Faith Baptist Bible College and Theological Seminary),比例達66.8%;
4) 男生比例高的學校,“做媒成功率”高;女生比例高的學校則相反。
這個案例中,資料不是通過針對性問卷獲取,因此總有不足,Facebook調查小組也列舉出一些缺陷,比如無法確定兩人是在學校裡才開始戀愛(也可能是之前或之後),所以上述統計是十分初步的;又比如兩人雖然上同一個學校,卻以不同拼寫標示學校名稱,統計中就會顯示學校不吻合,有漏記風險;再者,資料只包括在Facebook上登記了完整資訊的已婚使用者,本身就是一個有缺漏的樣本。
上圖是每個大學的情況,圓圈代表大學,紅色表示同校結婚者比例高,藍色表示比例低;細線則連線了有較高比率“婚姻關係”的兩個大學。(順便推薦一個免費開源軟體Gephi,這幅圖就是用它製作的。)
1) 上下文比例係數不能缺
沒有語境的數字是沒有意義的。缺乏背景資訊的問題在有關財政支出的新聞中尤其明顯,其它型別的報導中這種錯誤也經常蹦出來。
舉個例子:
“納稅人花費十億美元為非法移民兒童買單”、“福利津貼花掉64億英鎊”——這些天文數字組成的標題聽上去讓人憤慨不已。但事實是,公共支出資料常常都是天文數字,把資料放到上下文裡看,分解到每個人頭上,你會發現這些數字可能是完全合理的。
這個故事告訴我們?比例係數通常比絕對數值更有內涵。但比例係數也並不總是最正確的呈現方式。從你的資料出發,想想有什麼辦法能夠最忠實的呈現它。
衛報(The Guardian)資料新聞記者James Ball建議所有資料新聞記者彙總一些基本的數字,既避免犯初級錯誤,也更容易一眼看出資料和結論是否合理,比如全國處於工作年齡段的人有多少、平均工資、就業率等。這不失為一種辦法。
2) 相關性和因果關係要分開
只要你懂哪怕一點點統計學,你應該知道,相關性和因果關係是兩個截然不同的東西。
然而,這一點卻總是被新聞編輯室的人忽略。不要僅僅因為剛好有兩個變數呈現相關性,就以為你有了條獨家新聞。這種相關性完全有可能是其它一些潛在變數引起的,又或者,純屬巧合。
比如下圖:
IE瀏覽器的市場份額 VS 美國謀殺率資料(圖片來自Gizmodo)
這張圖中IE瀏覽器的市場份額與美國謀殺率的關係是我最愛的例子之一-它們倆的超高相關性是不是看上去容易讓人迷惑?想了解更多具有欺騙性的相關性,可以上這個名叫“偽相關”(Spurious Correlations)的網站看看(別怪我害你在那兒流連忘返浪費了一整個下午!)
3) 用最合適的方式呈現資料視覺化
這個問題值得專門寫一篇文章,甚至好幾篇文章,不過這裡我只能點到為止。
好不容易,你做完了資料分析,挖出了一條大新聞,但一個差勁的視覺化呈現就能讓你前功盡棄。糟糕的視覺化可能會讓讀者產生疑問,甚至可能誤導他們。比如,請不要這樣……
(圖片來自Business Insider)
不要用線形圖表 (line chart) 表現離散資料,更不要去嘗試那些看上去炫酷的3D餅狀圖,有可能你還在參與那場關於到底能否截短Y軸的永恆辯論。
資料視覺化是藝術,更是科學。這裡有一些好的指導書和網站,教你如何避免這些視覺化中的潛在陷阱:
The Functional Art, by Alberto Cairo
Data visualization-Principles and Practice, by Alexandru Telea
VisualisingData.com
4) 注重文字敘述
在我看來,這是最重要的一點:
資料新聞給了我們以量化方式探索某個話題的力量,但它仍是新聞的一種,也就是說,它的本質還是storytelling(講故事)。如果你只是扔出一堆隨機數字,那你並沒有做好這項工作。資料及其呈現只是一個開端,你要引導你的讀者,講完這個故事。你要讓他們理解為什麼那些數字如此重要,它們代表了什麼。正如資料記者Tanveer Ali在《哥倫比亞新聞評論》(Columbia Journalism Review)中所說:
“資料是講故事的一種方式,而非故事本身。”
在新聞中使用數字、採用視覺化形式呈現新聞,已經成為新聞報導的普遍做法,看似簡單,其實背後技巧多多。
如何在海量資料中抽取資料寫進故事?相信這是每一個記者都曾經歷或仍在苦惱的問題。伊利諾伊大學厄巴納香檳分校教授、全球深度報導網董事會主席Brant Houston,擁有豐富調查報導實踐和培訓經驗, 總結出了幾種新聞記者適合使用的資料型別,並強調最重要的前提:清楚新聞故事中使用的資料是為了解決什麼問題,我們才能決定能採取什麼樣的演算法;複雜或者含混的資料時常出現,我們有時需要驗證演算法,或者自己動手算出新資料。
推薦使用的資料型別:
- 在描述一個地區的人口收入或者住房情況時,以中位數取代平均數。中位數是按大小排列時最中間的數字,比平均數更有代表性,更易讓讀者理解和推測具體情況,並有助於避免收入差距懸殊且低收入人數較多時,使用平均數會拉高收入水平這一陷阱;
- 使用眾數反應頻率和集中情況。例如,一共有15個人,兩人收入500萬,兩人收入5萬,剩下的收入10萬,10萬是眾數,能說明所在團體大多數人的收入水平;
- 使用比例和比率。採用單位平均資料,要點就更清楚了。比例適用於突出不同主體之間的差別;
- 特別關注比率(百分比)變化。假設一個人今年的收入是4萬美元,下一年收入為2萬美元,前後差了2000美元,從百分比來看,收入變動了5%,或者說漲了5%。兩組相關資料的百分比變化中就有新聞可挖。譬如,公司的預算上調了30%,而所購買物品的價格僅上漲了2%,那麼背後原因是什麼?如果有物品選擇、預算決策的資訊,說不定就能找到貓膩,寫成新聞;
- 計算百分比變化時,我們應關注最顯著的變化,捨棄輕微變動。
選好了資料,呈現資料也同樣重要,用圖表展示比文字列舉更直觀形象。Houston推薦了表格、線形圖、餅圖、柱狀圖,都能讓讀者清晰閱覽資料,一看即懂。
同時,他還推薦了幾個易於下載表格資料的權威網站:世界衛生組織的Observatory Data(GHO)、世界銀行的資料庫、聯合國網站(能連結到很多重要統計網站或頁面)。
資料到手後,需確定要檢索的資料目錄,掌握基本的分類,同時確定篩選的標準,要見到樹林而非樹木——從資料看概況而不是侷限在小範圍。
4. 完整資料處理流程參考:清楚資料含義,備份、記錄、驗證一步都不能少
調查記者與編輯協會(Investigative Reporters and Editors,IRE)的執行總監Mark Horvit及培訓主管Megan Luther逐步分析了資料視覺化當中最通用的資料使用法則,不少都可以遷移到資料處理的完整流程上來。
關於使用資料,選定時間範圍非常重要,至少有3年左右的資料對比會更具可信度。
用時間軸展示資料,更容易被讀者理解;要想更快更準地選資料 ,就得明白資料庫資料的計算方法。
選取資料後,你還需要在資料分析之前做幾件事:先把資料備份,算算關鍵資料來驗證它們是否有效、合理,搞清楚每一行每一列的資料分別代表什麼。這裡有兩點非常重要,一是看看有沒有缺失的資料,並瞭解每一行資料的意義,這樣就能加快資料分析;二是清楚所選資料應該一共有多少行多少列,有些國家可能會隱藏部分資料,因此在使用之前一定要確認,以免作品中出現離奇資料,無法自圓其說——換句話說,你要確保資料是連貫的、計算的數字項是前後一致的。除此之外,也不要做資料假設。
資料分析完成後,最好記錄下工作流程和得出的結果,不要只儲存資料透視表(pivot tables)就草草了事。要把發現寫下來,建立備忘錄,並準備好接下來要做的事件清單,或為攝影師和網站等單獨建立工作清單。同時,應對照IT或資料講座、培訓分享的內容來確認自己做的對不對。提前考慮怎麼呈現資料,別等著呈分析完資料才開始,最好在分析過程中即有一定的預想和準備。
驗證你的資料分析。篩選分析出的資料包含項,或者使用不同的結構查詢語言,檢查你的主要發現和工作記錄,也讓其他人幫助你檢查資料。
單純的資料不等於好故事,把你的結果分享給例如資料來源機構的官員,以驗證自己的資料準確度,聽聽他們的意見。報告、檔案中的數字總數和單個數字相加的結果應該一致,與此同時,也要以其他相關資訊來驗證資料的有效性。
現在終於可以下筆寫新聞了!同樣,你不能對資料的使用過於大意:最好用表示程度的詞來描述數字,例如“至少”、“多於”、“大約”,以避免後面反覆修改。不要在一個作品裡使用太多資料,也切勿過分推理自己的資料,只寫合理且得到驗證的結論。寫清楚資料的來源,列出你獲取資料的機構名稱。
此時,記者得不斷問自己:我還不知道的部分是什麼?這樣會導致什麼樣的錯誤結果?有沒有把所有的發現結果都與信源對照核查過?是不是每一個資料元素(圖片、互動式效果等等)都能確切表達它應該表達的意思?我的發現是不是和所有人的認識相沖突?資料的魅力在於它並不能直接開口告訴你錯在哪裡,而是會通過結果顯示出來。如果分析結果與通識完全不一樣,你的報導要麼精彩絕倫,要麼錯得離譜。
你還需要一份最後檢查的清單:在採訪時,讓信源拼寫自己的名字和稱呼頭銜;記錄或者抄寫採訪資訊;反覆驗證可靠信源的言論;儲存連結和其他研究成果;詢問信源其他新聞報導中偏頗之處,避免犯同樣的錯誤。
在提交之前,多重檢查可保證萬無一失。最後自己再多看看數字、計算方法、名字、頭銜、地點、對照筆記和記錄檢查筆記、定義、連結、拼寫和語法、語句引用等,計算機的拼寫檢查系統也會出錯,所以還是參考權威的拼寫建議(字典等)更保險。
來自:cn.gijn.org