資料(data),一般而言是指通過科學實驗、檢驗、統計等方式所獲得的,用於科學研究、技術設計、查證、決策等目的的數值。通過全面、準確、系統地測量、收集、記錄、分類、儲存這些資料,再經過嚴格地統計、分析、檢驗這些資料,就能得出一些很有說服力的結論。大規模、長期地測量、記錄、儲存、統計、分析這些資料,所獲得的海量資料就是大資料(big data)。在製作大資料時,需要嚴格的方案設計、變數控制和統計檢驗等,不然所獲得的大資料就是不全面、不準確、無價值或價值不大的。
在教育特別是在學校教育中,資料成為教學改進最為顯著的指標。通常,這些資料主要是指考試成績。當然,也可以包括入學率、出勤率、輟學率、升學率等。對於具體的課堂教學來說,資料應該是能說明教學效果的,比如學生識字的準確率、作業的正確率、多方面發展的表現率——積極參與課堂科學的舉手次數,回答問題的次數、時長與正確率,師生互動的頻率與時長。進一步具體來說,例如每個學生回答一個問題所用的時間是多長,不同學生在同一問題上所用時長的區別有多大,整體回答的正確率是多少,這些具體的資料經過專門的收集、分類、整理、統計、分析就成為大資料。
分析大資料助力教學改革
近年來,隨著大資料成為網際網路資訊科技行業的流行詞彙,教育逐漸被認為是大資料可以大有作為的一個重要應用領域,有人大膽地預測大資料將給教育帶來革命性的變化。
大資料技術允許中小學和大學分析從學生的學習行為、考試分數到職業規劃等所有重要的資訊。許多這樣的資料已經被諸如美國國家教育統計中心之類的政府機構儲存起來用於統計和分析。
而近年來越來越多的網路線上教育和大規模開放式網路課程橫空出世,也使教育領域中的大資料獲得了更為廣闊的應用空間。專家指出,大資料將掀起新的教育革命,比如革新學生的學習、教師的教學、教育政策制定的方式與方法。
教育領域中的大資料分析最終目的是為了改善學生的學習成績。成績優異的學生對學校、對社會、以及對國家來說都是好事。學生的作業和考試中有一系列重要的資訊往往被我們常規的研究所忽視。而通過分析大資料,我們就能發現這些重要資訊,並利用它們為改善學生的成績提供個性化的服務。與此同時,它還能改善學生期末考試的成績、平時的出勤率、輟學率、升學率等。
現在,大資料分析已經被應用到美國的公共教育中,成為教學改革的重要力量。為了順應並推動這一趨勢,美國聯邦政府教育部2012年參與了一項耗資2億美元的公共教育中的大資料計劃。這一計劃旨在通過運用大資料分析來改善教育。聯邦教育部從財政預算中支出2500萬美元,用於理解學生在個性化層面是怎樣學習的。部分綜述了該計劃的資料和案例已經在美國教育部教育技術辦公室2012年4月10日釋出的《通過教育資料探勘和學習分析增進教與學(公共評論草案)》中披露出來。
美國教育部門對大資料的運用主要是創造了“學習分析系統”——一個資料探勘、模化和案例運用的聯合框架。這些“學習分析系統”旨在向教育工作者提供瞭解學生到底是在“怎樣”學習的更多、更好、更精確的資訊。舉例來說,一個學生成績不好是由於他因為周圍環境而分心了嗎?期末考試不及格是否意味著該學生並沒有完全掌握這一學期的學習內容,還是因為他請了很多病假的緣故?利用大資料的學習分析能夠向教育工作者提供有用的資訊,從而幫助其回答這些不太好回答的現實問題。
許多人因此會問,大資料能拯救美國的公立教育嗎?全球最大的電腦軟體提供商微軟公司(Microsoft)的創始人、前執行長比爾·蓋茨(Bill Gates)今年3月7日在得克薩斯州首府奧斯汀舉行的一個教育會議上打賭說,利用資料分析的教育大資料能夠提高學生的學習成績,拯救美國的公立學校系統。他稱過去十幾年裡教育領域的技術發展陷入了停滯,研發投入遠遠不夠。蓋茨充滿信心地認為,教育技術未來發展的關鍵在於資料。在這次大會上,5000多名參會者討論了教育資料應用的前景。
教育大資料市場前景廣闊
美國高中生和大學生的糟糕表現——高中生退學率高達30%(平均每26秒就有一個高中生退學),33%的大學生需要重修,46%的大學生無法正常畢業——在讓教育部門憂心忡忡的同時,也讓教育科技公司找到了淘金的機會。近些年來,許多教育科技公司紛紛開始搶灘大資料學習分析的市場,競爭極為激烈。
美國的一些企業已經成功地商業化運作教育中的大資料。全球最大的資訊科技與業務解決方案公司IBM就與亞拉巴馬州的莫白兒縣公共學區進行大資料合作。結果顯示,大資料對學校的工作具有重要作用。當IBM剛剛開始與這一學區合作時,除了學生成績不好之外,該縣還面臨著輟學率已增加到48%的嚴峻情況。根據聯邦政府的《不讓一個孩子掉隊法》(No Child Lift Behind,NCLB),學生成績糟糕的地方政府將受到懲罰。為了應對這一巨大的挑戰,該縣此前已經在學生資料的基礎上建立了一個輟學指示工具,並將其用於全縣層面的決策。但IBM認為這仍不足以改善莫白兒縣窘迫的現狀,需要藉助IBM的技術支援重新建立大資料,進而利用大資料分析來改善學區內所有學生的整體成績。
在美國的教育大資料領域,除了處於領先地位的IBM,還有像“希維塔斯學習”(Civitas Learning)這樣的新興企業。“希維塔斯學習”是一家專門聚焦於運用預測性分析、機器學習從而提高學生成績的年輕公司。該公司在高等教育領域建立起最大的跨校學習資料庫。通過這些海量資料,能夠看到學生的分數、出勤率、輟學率和保留率的主要趨勢。通過使用100多萬名學生的相關記錄和700萬個課程記錄,這家公司的軟體能夠讓使用者探測性地知道導致輟學和學習成績表現不良的警告性訊號。此外,還允許使用者發現那些導致無謂消耗的特定課程,並且看出哪些資源和干預是最成功的。
在加拿大,總部位於安大略省沃特盧的教育科技公司“渴望學習”(Desire 2 Learn)已經面向高等教育領域的學生,推出了基於他們自己過去的學習成績資料預測並改善其未來學習成績的大資料服務專案。這家公司的新產品名為“學生成功系統”(Student Success System)。“渴望學習”聲稱加拿大和美國的1000多萬名高校學生正在使用其學習管理系統技術。“渴望學習”的產品通過監控學生閱讀電子化的課程材料、提交電子版的作業、通過線上與同學交流、完成考試與測驗,就能讓其計算程式持續、系統地分析每個學生的教育資料。老師得到的不再是過去那種只展示學生分數與作業的結果,而是像閱讀材料的時間長短等這樣更為詳細的重要資訊,這樣老師就能及時診斷問題的所在,提出改進的建議,並預測學生的期末考試成績。
像美國的“夢盒學習”(Dream Box Learning)公司和“紐頓”(Knewton)公司這類領先性的開發者們,已經成功創造併發布了各自版本的利用大資料的適應性學習(adaptive learning)系統。在2012年國際消費電子展的高等教育技術峰會上,世界最大的教育出版公司培生集團(Pearson)與適應性學習領域裡的先行者紐頓公司共同釋出了主要由培生集團開發的適應性學習產品——“我的實驗室/高手掌握”(MyLab/Mastering)。這款產品在將全球範圍內向數百萬名學生提供個性化的學習服務,向他們提供真實可信的學習資料,讓學校通過這些資料提高學生的學習效果並降低教學成本。首款產品將在美國的數十萬名學生中使用,包括數學、英語,以及寫作等技能開發課。
紐頓的創辦人、執行長何塞·費雷拉和培生高等教育分公司的總裁格雷格·託賓共同出席了“我的實驗室/高手掌握”的釋出會並介紹了合作的細節,討論了高等教育的未來。託賓說:“個性化學習是未來教育的一個關鍵點。我們把紐頓的技術整合到‘我的實驗室/高手掌握’這個產品中,是整個行業進入個性化教育新時代的引領風氣之舉”。費雷拉說:“從今年秋季起,培生的課程材料將在紐頓技術的支援下,開始適應性地滿足每個學生獨特的學習需求。學生能夠生成大量有價值的資料,紐頓可以分析這些資料,以此確保學生以最有效、最高效的方式學習。這是教育的一個新的前沿領域”。按照已經達成的協議,這兩家公司2013年將進一步擴大合作,把大學數學、大學統計學、大學一年級作文、經濟學以及科學等領域納入其產品中去。
此外,由總部設在美國紐約的麥格勞·希爾公司(McGraw-Hill)、總部設在英國倫敦的培生集團和其他出版公司共同開發的“課程精靈”系統(CourseSmart),也允許教授們通過讓學生使用電子教科書來跟蹤他們的學業進展,並向助教們顯示學生的學習參與度和學習成績等大量的資料資訊,只是這一系統尚不具備預測的功能。
大資料讓考試變得更科學
教育中的資料探勘是邁向大資料分析的一項主要工作。教育中最近的趨勢是允許研究者積累大量尚未結構化的資料(unstructured data)。結構化的資料(structured data)是從教育部門多年的資料——特別考試成績和出勤記錄——那裡收集而來。互動性學習的新方法已經通過智力輔導系統、刺激與激勵機制、教育性的遊戲產生了越來越多的尚未結構化的資料。這就使得更豐富的資料能給研究者創造出比過去更多的探究學生學習環境的新機會。
教育資料與其他領域中的資料比較起來,有一些獨特的特徵。總結起來就是教育資料是分層的(hierarchical)。美國教育部教育技術辦公室在《通過教育資料探勘和學習分析增進教與學(公共評論草案)》的第18頁中寫道:“教育資料是……分層的。有鍵擊層(keystroke level)、回答層(answer level)、學期層(session level)、學生層(student level)、教室層(classroom level)、教師層(teacher level)和學校層(school level),資料就寓居在這些不同的層之中。”
當某個學生回答一個問題時,一些變數就需要一起分析了。例如,學生回答正確率低的問題就是好問題嗎?此外,時間也是重要的因素。比如,一個學生在考試的第一部分耗時太多,是否意味著其接下來就會飛速、凌亂地答題。一道問題的答題順序、結果、具體情況,都給研究者提供了許多前所未有的大量資料。運用這些資料,研究者就能揭示學生的學習模式。研究者利用所有這些資料就能獲悉到底是什麼因素對學生構成了最好的學習環境。理解這些重要的問題有助於教育工作者給學生創造一個個性化的學習模式。
監測學生是“如何”考試的能讓研究者有效定型學生的學習行為。大資料要求教育工作者必須超越傳統,不能只追求正確的答案,學生是如何朝著正確答案努力的過程也同樣重要。在一次考試中,學生個人和整體在每道題上花費了多少時間?最長的是多少?最短的是多少?平均又是多少?哪些此前已經出現過的問題學生答對或答錯了?哪些問題的線索讓學生獲益了?通過監測這些資訊,形成資料檔案,能夠幫助教育工作者理解學生為了掌握學習內容而進行學習的全過程,並有助於向他們提供個性化的學習模式。
監控學生的每一個學習行為是可能的。為了改進學生的學習成績,我們需要知道他們回答一個問題用了多少時間,回答這個問題使用了哪些資源,哪些問題被跳過了,為了回答這個問題做了哪些研究工作,這個問題與其他已經回答了的問題之間存在什麼關係。此外,老師對每個學生提供什麼樣的建議才是最佳的?學生寫作業和答題的資訊能立即被自動地監測到,老師還能在第一時間將這些資訊反饋給學生。
用這些學生學習的行為檔案創造適應性的學習系統能夠提高學生的學習效果。利用學生是“如何”學習的這樣重要的資訊,考試的出題者們就能為學生量身定製出適合學生的個性化問題,並設計出能夠促進記憶力的線索。通過分析大資料,研究者發現從教育的效果上來看,當被問到一系列難度逐漸增加且互相關聯的問題時,學生的表現要好於圍繞一個共同的知識點而隨機挑選出的問題。美國標準化的研究生入學考試(GRE)中的這種適應性考試已經顯示出朝這一方向努力的趨勢。
五大技術利用教育大資料
需要特別注意的是,如何收集資料對於它們未來的使用性非常重要。接收資料匯入背後的挑戰是從一開始就要標準化,以便今後對資料進行仔細分析。這樣做並不是意味著將未結構化的資料轉化為結構化的資料,而是要用直觀的方法對接收的資料進行分類。
應該說,獲得相關資料並不是一件容易的事。對於大學階段的學生而言,資料的收集並不是主要問題。然而,對於中小學階段的學生而言,挑戰卻很大,因為有些資料的收集存在法律問題,有的則存在倫理道德的問題。
資料收集者的人數和技能也是一個問題。對於公司而言,通常通過網路上的小型文字檔案(cookies)來收集使用者的相關資訊。但是對於美國聯邦政府教育部而言,則需要依賴於全國眾多學區和研究者的網路來提煉和確認資料。
教育工作者和研究者已經開發出從大資料中提取價值的5種主要的技術。
1.預測(Prediction)——覺知預料中的事實的可能性。例如,要具備知道一個學生在什麼情況下儘管事實上有能力但卻有意回答錯誤的能力。
2.聚類(Clustering)——發現自然集中起來的資料點。這對於把有相同學習興趣的學生分在一組很有用。
3.相關性挖掘(Relationship Mining)——發現各種變數之間的關係,並對其進行解碼以便今後使用它們。這對探知學生在尋求幫助後是否能夠正確回答問題的可靠性很有幫助。
4.昇華人的判斷(Distillation for human judgment)——建立可視的機器學習的模式。
5.用模式進行發現(Discovery with models)——使用通過大資料分析開發出的模式進行“元學習”(meta-study)。
實施這些技術就能夠通過大資料來建立為提高學生成績提供支援的學習分析系統。研究者們相信這些技術將幫助教育工作者更加有效地指導學生朝著更加個性化的學習程式邁進。
總而言之,通過大資料進行學習分析能夠為每一位學生都創設一個量身定做的學習環境和個性化的課程,還能建立一個早期預警系統以便發現開除和輟學等潛在的風險,為學生的多年學習提供一個富有挑戰性而非逐漸厭倦的學習計劃。因此,有識之士經預言未來的學習將是大資料驅動的新時代。我們應該積極迎接這個新時代,通過大資料來分析學習,進一步改善教學的方式與方法,進一步促進學生學習成績的提高。
via:光明日報