student_data_privacy

如大多數美國大學一樣,亞利桑那州立大學正面臨一個棘手的問題 — 新入學的學生們數學不夠好。儘管學校會提供一些補習課程,但仍有三分之一左右的學生拿不到C,這意味著這些學生很有可能中途輟學。為了改變這種糟糕的現狀,亞利桑那州立大學開始使用一款由Knewton科技教育公司提供的個性化學習軟體,使用下來結果很好,在2009年至2011年期間學生的畢業率從64%竄到了75%,輟學率減少了一半。

但是請試想一下這個成功案例背後有哪些潛在的問題。如果那些被軟體收集起來的資料被永久保留,個人被要求參加補習課的事實被永遠記錄在案可供查詢,這將會怎樣?再試想一下,如果這個計算機系統是通過把那些不達標的學生擋在大學門外而不是通過輔助學生學習來提高學校學生的畢業率和均分,這又會怎樣?

剛才提到的類似問題極有可能發生。一些教育改革者提倡每一個學生應該配備一個記錄他們所有電子成績單的“數碼包”。自適應演算法是一項令人毛骨悚然的藝術。可汗學院的分析院長Jace Kohlmeier提出了一個難題— 如何用區域學習曲線來描繪學生學習的掌握情況。比如可以對學習能力較差的人施壓讓他們早早退學,這樣學習曲線的末端會更好看一些。但他說一般情況下沒人會這麼做。

大資料收集、儲存、處理資料的能力比以往任何時候都要強大,它將會顛覆傳統的教育行業。大資料將在教、學環節增加前所未有的數量化體驗,不僅學生受益,老師也是。然而,這麼做也蘊藏了風險。

長久以來,家長和教育專家都在憂慮如何保護未成年人隱私。同時人們還擔心,對於那些在學業上被“跟蹤”過的學生,他們的人生道路是否會因此而變窄。大資料不僅放大了以上這兩個問題,而且改變了問題的本質。所謂量變引起質變。

過去的表現

很多家長看到自己子女在校期間的所有資料一點一點被儲存累積起來,都感到無比恐慌。比如,非營利組織inBloom(收到頗有聲譽的Gates Foundation and Carnegie一億美金的資助)曾與9個州就建立學生資料庫達成協議。但是2013年因為家長大規模抗議,這項舉措在其中6個州都停擺了。

人們出自本能地反對這件事並不僅僅只是一般意義上的對隱私和資料保護的憂慮,而是一種更特殊的憂慮。一般來說,傳統的資料保護關注的焦點在於權力的不均等—有些人能夠拿到別人的資料,而其他人不能。這裡,我們更多地是擔心不可磨滅的過去對我們造成的影響。學生的記錄不再是封存在紙盒裡,褪色直到被扔掉,而是被永久地儲存保留,隨時隨地都可能被調出來查閱。

想象一下,一個人在學生時代的活動都被記錄下來,當他/她在25年後申請工作時,那些記錄都能被潛在僱主查到。但是目前,個人過去的軌跡是很難查到的,除了那些名人。在未來,大眾將會享受名人的“待遇”,不僅僅是標準化入學考試成績能被查到,做學生時方方面面的資料都會被查到,從生病的天數到與輔導老師交流的次數,甚至一本《赫克歷險記》讀了幾頁,劃了幾段都能被查到。

因此,教育資料引發的最大問題不是資訊洩露,而是把我們禁錮在過去,否認我們成長、蛻變的能力。目前還沒有權宜之計。我們無法告訴別人應該如何去評價他人,應該考慮哪些因素。過去我們常常認為,事情的發展很難完全受理性擺佈。但另一方面,如果我們不收集資料不儲存資料,我們就錯過了大資料為教育帶來的潛在福利。

沒有變數的未來

第二個問題同樣嚴峻。教育大資料的收集會被用於預測我們的未來— 我們該以怎樣的節奏學習,先學什麼後學什麼,如果我們在晚上8點到9點間複習了功課,我們就有90%的可能性拿到B或者更好的成績,如果我們在8點之前複習,就只有50%的可能性。這是概率預測,但問題是概率預測限制了我們學習的自由,最終可能會限制我們的人生道路。

大資料給人最大的願景是它使個性化學習成為可能,改善教材和教學方法,最終提高學習成績。在未來的大資料時代,預測將會比現在精準得多,招生官、僱主等決策者將會面臨更大壓力,他們會愈加依賴預測結果來做決策。(因而數字的準確性會對決策質量產生直接影響)以前我們可以不同意強加在自己身上的偏見說自己是特例 ,現在不能了。

舉個例子,一些大學正在試用一套叫“電子建議專家”的大資料系統,這個系統能夠輔助學生儘早畢業。亞利桑那大學在2007年開始使用這套系統後,自那以後84%的學生能夠成功進入下一階段的學習,以前這個比例只有77%。再舉個例子,田納西州奧斯汀佩伊州立大學的學生們正在使用一款叫“成績指南”的軟體,當軟體告訴他們這門課他們至少能得B,他們就有90%的可能性拿B,否則只有60%的概率。

這些形形色色的系統能夠對大學畢業率產生很大的影響。在美國大約只有一半的學生能夠在六年內順利完成大學學業。但是這些系統也會產生副作用。如果系統告訴我們,這門課我們很有可能學不好,比如生物資訊學,然後系統轉而向我們推薦另一門課,比如護理課,結果會怎樣?我們可能會認同系統推薦的就是對我們最有利也最容易走的路。但這可能恰恰就是問題所在。或許我們應該被人鼓勵無視所謂的概率預測,堅持走自己的路(逆難而上獲得成功),而不是對一個退而求其次的結果沾沾自喜(而不是選擇一條本就更容易的路)。

有人希望,大資料能夠讓學生不再被資料追蹤。學生能夠按照自己的節奏學習,同時演算法會最優化教材使用順序從而幫助學生更好學習。漸漸的,人們便不再提起追蹤學生成績的事。不過這只是一個美好的願景而已。

現實往往與預想相反。個性化教育可能會把人更殘忍地限制在某條路上,讓人們無法打破常規去走自己想走或能走的路。目前系統裡有10億條不同的學習情況記條和學習軌跡安排,每一條都只對應一個學生。這樣做有利有弊,利的方面在於教育是為每個人量身定做的,弊的方面在於學生彷彿困在了狀如峽谷的凹槽中,跳不出來,只能順著走下去。這樣一來,我們的人生依然受限於“已知道路”,雖然這是一條為我們量身定做的道路。

直面焦慮

人們都在害怕大資料運用到教育上會帶來的危機,那麼,我們該如何幫助人們擺脫這些感性或理性的顧慮呢?

現在很多國家的隱私法都禁止對個人資訊大量收集和長期儲存。一般來說,這些法律會要求資料使用者告知大家他們收集了哪些人的資料,可能會怎麼用那些資料,同時還需獲得允許他們那樣使用資料的允許。但是,大資料最大的魅力在於其不確定性—即資料被收集的時候,人們還沒有想好該怎麼用它,在後續的使用過程中逐步發現了它的價值。所以,幾乎不可能在資料被收集的時候就能準確告知對方資料會被怎麼用,獲得相關的同意更是無從談起。

歐美政府已經在討論如何修訂隱私法確保大資料不被濫用。如果資料使用者願意承擔更多責任,如法律責任,他們就有權利二次使用資料,挖掘新價值。這樣一來,他們就需要認定哪些是可接受的使用途徑,哪些不能被接受。

在教育界,使用個人資料來改進教材和學習工具是可以接受的,但使用同樣的資料來預測學生未來能力就應在嚴格管制下進行(比如採用透明公開、行政監管的方式來限制)。既要規定資料使用者必須得到學生本人明確同意才能實施資料使用,還要加強執法力度,讓公司無法承擔違規的嚴重後果。

總而言之,資料介入教育領域到底要到一個怎樣的程度,如何抵抗可以預見的反烏托邦帶來的危害,將是一個魚和熊掌的問題。這需要我們在渴望優化學習,和拒絕讓過去主宰未來之間找到一種微妙的權衡之計。

 

本文轉載自大資料文摘 譯者:Yawei Xia 校對:盛夏光年

作者: Viktor Mayer-Schönberger and Kenneth Cukier