在預測未來這一點上,計算機正變得越來越擅長。在許多方面裡,計算機甚至已經超過人類了。例如,亞馬遜能通過計算知道你可能會買什麼,視訊網站Netflix知道你接下去會想看什麼視訊,氣象學家能通過資料分析提前知道十天後的天氣。

現在,有一群科學家正在研究通過機器學習,來計算出誰將有可能在未來進行犯罪。聽上去是不是有點像科幻故事的情節。科幻動漫迷們一定記得《心理測量者》這部漫畫。

《心理測量者》動畫。

《心理測量者》描述的是一個人類內心活動均能夠數值化的科技時代,同樣能被量化的,還有每個人的“犯罪係數”。人類所有的感情、慾望、社會病態心理傾向等全部被監控攝像頭記錄並管理,每個心理狀態和個性傾向所衡量的值,通稱PSYCHO-PASS,也就是片名。它被用來判定人們的思想狀態、個人精神本身。通過計算這些數值,系統可以自主斷定一個人最理想的工作,感情,心理壓力,甚至犯罪意圖。

《心理測量者》動畫。

人們需要不斷地保證自己的指數在正常範圍,否則會被系統認為是潛在犯,將會被“矯正”。動漫故事裡的情節對於我們來說,或許不再難以實現。賓夕法尼亞大學(University of Pennsylvania)統計學教授理查德·伯克(Richard Berk)和他的研究團隊就在開發一種新的演算法,希望能預測哪些人會在未來犯罪的風險高。

在此之前,伯克的演算法已經能幫助監獄確定該把哪些犯人關到高度警戒區。假釋部門用他的工具判斷該對哪類假釋人員採取更嚴格的監視手段,警官則用來預測曾因家庭暴力被捕的人是否會再次犯罪。他還編寫過一個演算法,可以告訴美國職業安全與衛生管理局(Occupational Safety and Health Administration),哪些工作場所可能違反安全方面的規定。

機器學習能提前預測犯罪發生

先來看看伯克的演算法是如何做到預測犯罪的。參照之前谷歌旗下人工智慧系統“阿爾法狗”。在完成打敗韓國棋手李世石前,谷歌從網路上餵給“阿爾法狗”上萬的棋局資料,讓其學習如何以最優的策略進行下棋,同時還讓“阿爾法狗”自己進行訓練,提升自己。

伯克的演算法與“阿爾法狗”類似。在今年2月份,伯克和賓夕法尼亞大學的心裡學家蘇珊·索倫森(Susan Sorenson)共同將研究發表在了《實證法律研究》的雜誌上。他們收集了從2009年到2013年所有發生家庭暴力的案例,約有10萬件。接著,他們使用了機器學習的方法,將這些資料餵給電腦程式,包括年齡、性別、郵編、第一次犯罪的年齡以及一長串先前可能相關的犯罪記錄。比如酒後駕車、虐待動物、涉槍犯罪等。但伯克並沒有將種族這個資訊作為輸入資訊選項餵給計算機。

伯克的研究:年齡和犯罪的相關性。

三分之二的案件資訊,由研究人員輸入來“訓練”系統,並讓其推測結果,這些人是否會第二次進行家庭暴力犯罪。另外三分之一的資料,他們則用來測試系統。這部份案件,計算只能知道和提審法官一樣多的資訊,然後得出結論,看誰會因為二次犯罪而被捕。

通過機器學習,警方能夠很容易地鎖定哪些人重複犯罪,需要監禁哪些二次犯罪風險較高的人。伯克在文章裡說,目前,由於涉嫌家庭暴力的罪犯有一半是被釋放的。這給警察和政府對他們的監控帶來了很高的成本。他們的研究挑戰就是在釋放的案例中,推測哪些人二次犯罪的風險較低,從而能抽出更多的警力監控那些犯罪風險較高的人。與法官的判斷進行對比的結果是:法官判斷有20%的人會再犯,而計算機給出的比例僅為10%。

伯克的研究:預測犯罪的正確率結果。

除了家庭暴力的案件研究外,伯克在假釋和緩刑方面的演算法已經得到美國費城政府的使用。伯克把費城市所有緩刑和假釋的人都劃分到了高犯罪風險、中犯罪風險和低犯罪風險三個檔次裡。對於系統認定為低犯罪風險的人,市政府大幅降低了對他們的監視強度。

該演算法還運用在馬里蘭州和賓夕法尼亞州全州範圍內的假釋體系裡。據彭博社拿到的資料分析,在2011年和2014年之間,大約有15%的假釋申請人基於風險評分得到了不同的假釋裁決。和以往的假釋人員相比,在此期間獲假釋的人員被再次逮捕的情況大大減少。所以結論是:伯克的軟體幫助州政府做出了更明智的決策。

政府部分的使用,也給伯克帶來了更多的信心。現在他正在著手建立一個新的系統:伯克想基於環境以及新生兒父母的過往,在一個人出生的時候就預測出他/她是否會在年滿18歲時犯罪。

機器演算法能否代替人類做出判決

 在伯克的演算法出現前,在司法部分利用計算機來處理案件,在美國已有先例。上個世紀90年代,紐約市就曾用資料資訊來預測哪些地鐵站是犯罪高發區。現在,隨著演算法越來越先進和熟練,甚至已經開始有商業公司與政府展開合作。比如,由密歇根一家名為Northpointe開發的系統Compas。根據該公司的介紹,在被這款軟體認定為高犯罪風險的人裡面,大約有70%的人被再次逮捕。

儘管這些系統給政府機構提高效率,但仍受到了許多批評和質疑。首先,資料安全問題。機器學習需要基於大量的資料進行分析和學習。涉及犯罪的資料又是高度隱私的資料,因此很多人擔心資料是否會洩露。伯克在接受採訪時曾表示,自己僅使用對公眾開放的資料,即已經被捕的犯罪資料。他訓練的系統不會窺視和使用普通人的資料。但他的新演算法,在嬰兒出生時就判斷是否會在年滿18歲時犯罪可能會受到限制。因為一個人大部分的個人資訊都分散在許多機構,要收集這麼多的資訊,會非常困難。

其次,準確性問題。這也是演算法遇到的最大問題,也是被人詬病最多的問題。因為演算法都是基於歷史犯罪統計資料來預測未來的犯罪行為,因此有可能會把過去的執法模式和認為特定人群(幾乎全部是窮人和非白人)有犯罪傾向的想法劃上等號。伯克也承認了系統會有這樣的風險。還有更為直觀的案例。根據國外新聞網站ProPublica釋出的調查報告,他們檢視了佛羅里達州一家法院在2013年和2014年使用過的Compas風險評分,發現黑人被標註為高犯罪風險、但後來並沒有犯罪的可能性幾乎是白人的兩倍,同時,當都被評定為低犯罪風險時,白人再次犯罪的情況則比黑人常見得多。

第三,演算法是否應該公開。因為涉及商業利益,Northpoint並沒有將自己的演算法公開,這也導致許多人認為這個系統存在貓膩。伯克公開了自己的演算法,同時也攻擊了該公司的做法。最後,過度依賴的問題。現在很多政府機構開始依賴演算法提供的結果。這也是伯克擔心的問題之一。他在接受彭博社採訪時說,如果系統沒有經過科學的認證和測試,那質疑就會隨之而來。儘管機器學習能做出決定,但要從目前情況來看,讓系統代替人類做出決定可能還為時過早。