《大資料系統基礎》實踐專案期末答辯順利舉行 校企聯手打造精品實踐專案見真章

資料派THU發表於2018-01-16

640?wx_fmt=png&wxfrom=5&wx_lazy=1


近期,由清華大學研究生院和資料科學研究院(以下簡稱:資料院)共同開設的清華大學大資料能力提升專案《大資料系統基礎》實踐專案期末答辯在清華大學六號教學樓順利舉行。20位企業導師作為評審參與答辯成績評分,他們的評分與資料院副院長、授課教師王建民和授課教師徐葳擁有同樣的比重,企業導師和授課教師從資料思維的運用、分析工具使用的成熟度、專案成果質量等方面分別考察一個學期以來同學們的學習、實踐成果。


回顧過去的四個月,提供課程實踐專案的企業和跨學科組隊共同完成專案的學生在相互的溝通磨合之中一起成長進步。去年9月,資料院面向對資料分析技術有實際需求的企業為該課程廣泛徵集實踐專案,社會反響強烈。隨後資料院針對報名企業組織了專案徵集答辯會,近30家企業代表紛紛登上講臺從各自的企業情況、專案背景和需求三方面做了簡要介紹。經過選課學生和授課老師的激烈“擇選”,最終21個專案入選該課程。經過11月中期答辯的考驗和錘鍊期中答辯報導,同學們對授課老師和企業導師針對性的點評和指導進行了充分的消化吸收,本次期末答辯同學們的表現可圈可點,王建民老師表示:“與期中答辯相比,可以看出同學們利用工具進行資料分析的水平顯著提高,這離不開團隊成員的相互協作,更離不開企業導師的大力支援,感謝大家對這門課的付出。”


640?wx_fmt=png&wxfrom=5&wx_lazy=1

各小組代表答辯中


三尺講臺,各組紛紛彰顯“真功夫”


期末答辯是對同學們《大資料系統基礎課》實踐專案最終成果的考核,考察同學們是否能很好地將大資料理論知識的積累轉化為專案的實踐能力,做專案的過程中同學們運用所學知識,在企業導師的指導下也取得了一定的成果。李宣靜同學是天津瑞能電氣“風機故障檢測”專案組的主要答辯人,她表示:“我們都是第一次接觸實際的風機故障識別問題,對業務的理解是我們遇到的第一個挑戰。當時企業沒有資料監測平臺來實現產品的全生命週期管理,對於沒有業務背景的我們來說,做工作等同於‘盲人摸象’。這是我們遇到的第二個挑戰,也是機會切入點。”隨著對企業需求的充分了解,小組同學決定從挖掘風機執行資料下手獲取業務經驗。他們利用卷積神經網路和2014年誕生的專注於梯度提升演算法的機器學習函式庫XGBoost,整合了192類故障及發生頻次,最終實現了故障自動診斷分析識別和風機發電功率預測等功能,並搭建了風機狀態監測平臺(監測平臺:http://101.5.211.17:8000/index/),實現了故障自動診斷分析識別和風機發電功率預測等功能。


來自工業工程系的王明哲同學所在的由艾漫資料提供的“自然語言處理技術在文娛行業應用”專案組。他坦言:“我們組的同學來自工業工程系、機械工程系、微電子系等,沒有一位人文社科專業背景的同學。平時接觸的工業企業居多,這個來自文娛行業的專案對我們來說也是一個很大的挑戰。”基於深厚的理工科背景,他們迅速在本學期內學習了文娛行業的基本運營規律,並且第一次嘗試在實踐中應用自然語言處理技術。他們採用深度網路與傳統詞典及規則集相結合的業內目前最先進的演算法模型,建立了基於語句級標註訓練的模型,目前模型精度為75%左右(預計模型極限精度為80%左右);隨後,小組同學緊跟熱點,選擇研究了奚夢瑤維密秀摔倒事件前後共計10天的微博評論,對資料進行處理並進行視覺化的展示,完成了對目標明星、品牌的網路美譽度分析和社交媒體爬取的輿情資料分析。


0?wx_fmt=png

企業導師和任課老師認真聽取彙報


跨學科組隊,優勢互補,充分協作


每個答辯小組都是由AB班(A班:非資訊類學生,B班:資訊類學生)學生共同組隊完成,跨學科和跨專業的學習也是該課程實踐專案的一大特色。組內同學根據自己的優勢,分工各有不同。來自醫學院A班的崔曦雯同學所在的小組完成的是人人貸公司提供的《基於手機通訊錄的欺詐檢驗》專案,“企業方的邱老師為我們的專案推進付出了很多精力,詳細分析了我們並不太瞭解的網際網路金融行業的現狀及發展趨勢。我們A班的同學逐漸將專案需求和思路明確下來,並與B 班同學進行了背景調研並對研究採用的技術路線進行了探討,在B班同學帶領下我們進行了關於graph embeding以及概率傳播的嘗試,過程中也遇到了資料量過大導致的計算緩慢、視覺化方案設計與制定等實際問題。在合作過程之中,我確實發現A班和B班同學不同的長處。A班的同學擅長了解客戶需求、發現業務痛點、確定專案方向。B組同學擅長工程實現。我們意識到,A班同學提出的需求不是都會被B班滿足,但大家總能在協作中完成任務。整個學期下來,大家都收穫了真實環境下做專案的協作方法,更能體會到企業裡產品經理崗和技術崗的協作經驗。這些經驗對我們將來走入工作崗位太有幫助了!”崔同學有感而發。


“實踐出真知”,企業導師為同學們點贊


在大資料系統基礎這門課上,同學們不但掌握了大資料管理的工具平臺、開發環境和基本原理,培養了資料思維,應用創新能力也得到了顯著提升,同學們的表現更是得到了企業導師的充分肯定。百度專案的企業導師孫光明表示:“在紮實的資料技術能力之外,讓我們十分驚喜的是同學們敏銳的資料洞察力。他們對脫敏樣本資料進行分析後,最終迅速鎖定‘基於搜尋資料做資訊推薦系統’這一選題,使我印象非常深刻。因為這個選題正好恰恰是契合了網際網路行業‘資訊分發2.0’時代的核心。同學們的專案答辯給我在日後的業務佈局中也提供了一種非常新穎的思路。非常驚歎於學生們敏銳的視角,也感謝資料院提供平臺,能讓我接觸90後的想法,我非常受啟發。”


企業導師、國家發展改革委員會城市和小城鎮改革發展中心智慧城市所所長黎明講到:“在本次合作專案中,來自建築、電氣等不同背景的同學們利用各自的專業知識,以大資料技術手段對北京市內的充電網路進行了較為客觀精準的評價。同學們所做的工作為今後北京市乃至全國範圍內的充電網路規劃評價體系構建奠定了初步解決基礎。


企業導師也對課程實踐專案給出了建設性的意見,比如對於專案的規劃和整體推進要更具計劃性、提前擬定進度表,督促專案組分階段推進等。


資料科學研究院始終致力於突破傳統的教學方式,在大資料能力提升專案中運用更好的、更讓學生接受的方式傳遞資料理念和技術知識。在《大資料系統基礎》課中引入來自業界的真實資料和專案正是成功探索之一。本課程將資訊類和非資訊類的學科組隊,以團隊的形式做專案,使得跨學科的學生在組內進行充分交流、互相學習、各自發揮專長。課程引入20多個豐富又真實的企業資料並讓學生和使用者進行交流,使學生在進入職場之前就有機會了解社會和企業對大資料技術解決問題的需求。其專案數量之多、企業支援力度之大,是全國乃至世界少見的教學模式探索,收效頗豐。


0?wx_fmt=png

校企師生答辯後合影


《大資料系統基礎A/B》課程簡


本門課程重點介紹大資料管理的工具平臺、開發環境、基本原理。使得學生熟悉典型大資料工具與平臺的特性,掌握大資料處理的基本開發方式,鞏固和加深大資料分析的基礎知識。 本課程的主要內容包括: 大資料軟體棧、虛擬化、系統管理、資料清洗、資料儲存、處理框架、記憶體計算、文件資料、NoSQL/NewSQL資料庫、圖資料、流資料、分析框架、資料分割、以及一致性。


本門課程主要希望通過對一系列與大資料相關的計算機系統知識的學習和動手實踐,讓學生理解大資料分析系統的軟硬體架構,瞭解目前可用的工具和技術上存在的挑戰。考慮到A班學生群體中有相當多的經管、社科及公共管理專業學生,A課程注重講授大資料系統工具的概念、應用場景以及商業價值。B班學生群體以資訊類專業學生為主,注重講授大資料系統的原理、開發及實現。在介紹典型系統工具使用的基礎上,通過分析其實現原理與設計理論,增強學生大資料平臺與工具的應用與開發能力。培養學生在工作中應用與選擇適合大資料工具的能力,同時也為有志於繼續深入學習大資料專業課程的學生創造基礎。


校對:林亦霖

為保證發文質量、樹立口碑,資料派現設立“錯別字基金”,鼓勵讀者積極糾錯

若您在閱讀文章過程中發現任何錯誤,請在文末留言,或到後臺反饋,經小編確認後,資料派將向檢舉讀者發8.8元紅包

同一位讀者指出同一篇文章多處錯誤,獎金不變。不同讀者指出同一處錯誤,獎勵第一位讀者。

感謝一直以來您的關注和支援,希望您能夠監督資料派產出更加高質的內容。

0?wx_fmt=jpeg

相關文章