90後美女學霸傳奇人生:出身清華姚班,成史丹佛AI實驗室負責人高徒

AI科技大本營發表於2019-02-28

出品 | AI科技大本營(ID: rgznai100)

 

今天給大家介紹一位史丹佛博士畢業生的傳奇人生

她的一篇名為“Neural Reading Comprehension and Beyond”的博士論文火了

 

640?wx_fmt=png

 

在論文提交後的短短四周內就獲得了超過 2700 的查閱量

 

她就是 90 後美女學霸陳丹琦

640?wx_fmt=png

https://cs.stanford.edu/~danqi/

 

小姐姐籍貫湖南長沙

小學三年級起學習奧數,從小就對數學有著特殊的天賦

中學就讀於”百年老校“雅禮中學

期間,陳丹琦又迷上了資訊學

高中時,便獲得了國際資訊學奧林匹克金獎

還上了當年的新聞,成為湖南省第一位入選資訊學國家隊的女選手

被媒體稱作“透著周筆暢似的微笑”的女生

 

640?wx_fmt=png

 

在此期間,她還提出了 CDQ 分治演算法,以及插頭 DP(輪廓線動態規劃)

 

640?wx_fmt=png

 

隨後她又進入了清華學堂電腦科學實驗室(姚班)

並在畢業時榮獲清華大學 2012 屆優秀本科畢業論文,以及姚期智院士親自頒發的獲獎證照的殊榮

 

640?wx_fmt=png

 

而這僅僅只是她在演算法/資料結構和理論電腦科學方面

之後,在史丹佛大學學習的六年多的時間裡,新的研究領域正向她開啟……

人工智慧以及自然語言處理領域的相關研究

 

期間,她還擔任過:

微軟亞洲研究院實習生(ML&WSM小組)

微軟研究院雷蒙德研究實習生(NLP小組)

紐約市 Facebook AI Research 研究實習生

 

目前,陳丹琦正訪問美國西雅圖的 Facebook AI Research 和華盛頓大學

主要研究方向是深度學習在自然語言處理中的應用,尤其是文字理解和知識表示/推理之間的交叉領域

 

640?wx_fmt=jpeg

 

據悉,2019 年秋季,陳丹將加入普林斯頓大學電腦科學系擔任助理教授

 

她的求學經歷、成長曆程

無不彰顯出她的”學霸“氣質

 

然而 在她的成長曆程中,她卻一直心懷感謝

對她的父母、她的愛人、她的朋友、她的老師

 

她的父親,同時還是當年國防科大的數學副教授

對於父母,她心懷感恩,值得驕傲

 

她的愛人,俞華程,與她一同畢業姚班,進入史丹佛攻讀算計博士學位

僅用 4 年時間便發表數篇重要論文提前畢業,現於哈佛大學做博士後

 

640?wx_fmt=png

 

對於愛人,她感念他兒時起的十多年陪伴,欽佩他的”謙遜、專注、聰慧與努力“

http://theory.stanford.edu/~yuhch123/

 

當然,此次她最要首先感謝的就是她的博士論文指導老師、史丹佛大學語言學和電腦科學教授 Christopher Manning

 

要知道在計算機領域,博士畢業的難度可想而知

 

作為史丹佛人工智慧實驗室(SAIL)小組成員之一的 Chris Manning

 

在自然語言領域多有建樹,其主講的史丹佛 CS224n 課程(期間陳丹也作為助教)

 

640?wx_fmt=png

 

與李飛飛的 CS231n 同為自然語言處理和計算機視覺領域的”必修課“

 

去年 11 月,Chris 也成為史丹佛實驗室的新負責人,與迴歸史丹佛的李飛飛開始新的合作

 

那麼,Chris 與愛徒陳丹

是否會成為下一個自然語言處理界的”李飛飛與李佳的 CP“呢?

 

 


 

 

下面,我們試圖透過陳丹的博士畢業論文”Neural Reading Comprehension and Beyond“,瞭解她目前在自然語言處理領域的成果。

 

Christopher Manning 評論稱:“陳丹是採用神經網路進行自然語言理解的先驅。她的這個模型簡單、乾淨、成功率高,吸引了不少人的關注。”

 

該篇論文主要討論了“人工智慧中最難以琢磨且長期存在的挑戰之一”:教機器如何理解人類語言。通過改進效能,通過驗證和推廣的模型以及問答系統的潛在應用以推進自然語言處理技術的方法。

 

論文連結:

https://stacks.stanford.edu/file/druid:gd576xb1833/thesis-augmented.pdf

 

以下為論文摘要及論文框架部分(AI科技大本營做了不改變原文的翻譯):

 

摘要

 

教機器理解人類語言文字是人工智慧所面臨的最困難、長期存在的挑戰之一。而本文探討的就是閱讀理解問題:如何建立一種計算機系統,使其能真正的讀懂文字並回答問題。一方面,我們認為閱讀理解是評價計算機系統對人類語言理解能力的一項重要指標。另一方面,如果真的可以構建高效的閱讀理解系統,那麼這將成為自動問答和對話系統應用落地的關鍵技術。 

 

這篇論文專注於神經閱讀理解,一類基於深度神經網路的閱讀理解模型。與稀疏的、手動的、基於特徵的傳統模型相比,這種端到端神經模型被證明在學習豐富語言現象方面更有效,在現代閱讀理解的各項指標上都有大幅度的提升。

 

論文主要由兩部分組成。第一部分主要分析神經閱讀理解的本質,介紹在建立有效的神經閱讀理解模型中我們所做的努力,更重要的是理解神經閱讀理解模型實際中學到了什麼,以及要解決當前的任務模型理解深度需要達到什麼程度。我們還總結了這一領域的最新進展,討論了未來的發展方向和有待解決的問題。

 

在第二部分,我們探討的是如何把神經閱讀理解模型的最新研究成果應用在實際中。為此,我們探索了兩個新課題:

 

(1)如何將資訊檢索技術與神經閱讀理解相結合,解決大規模開放域問題的問答;

(2)如何基於閱讀理解模型從目前的單向制問答方式轉變為對話式的問答系統。我們把這些方法應用在 DRQA 和 COQA 專案中,並證明了其有效性。我們相信,未來這些方法在語言技術領域中將會有很大的發展前景。

 

詳細章節介紹

 

(第一部分)

 

第二章主要闡述了閱讀理解任務的歷史與近年發展概況。然後定義了問題公式與主要分類,並簡短討論閱讀理解與通用問題回答間的區別;最後,探討近年來神經閱讀理解由大規模資料集和神經模型兩者帶來的成功。

 

第三章內容主要基於她們自己的研究工作。先介紹了神經閱讀理解的全部模型。從非神經網路方法,基於特徵分類的方法開始,討論它們與端到端的神經方法有哪些區別。然後到神經網路方法,介紹了她們自己的提出的方法“THE STANFORD ATTENTIVE READER ”,以及此方法應用到 CNN/DAILY MAIL 和 SQUAD 兩個代表性資料集上的實驗結果。更重要的是還深入分析了神經網路模型之所以有更好的理解能力到底學習了什麼。最後,總結了近年來神經閱讀理解模型在不同方面取得的進展。

 

第四章主要探討了關於這個領域未來的研究工作於開放性研究問題。

 

(第二部分)

 

第五章中,我們將開放域問答任務視為閱讀理解的應用之一。如何將高效能的神經閱讀理解系統與有效的資訊檢索技術結合,構建新一代開放域問答系統。同時以我們的研究工作為基礎,介紹了 DRQA 系統,包括其關鍵部分與如何為其構造訓練資料,並對其在多個任務基準中進行評估。從而探討 DRQA 系統的侷限性與未來的工作方向。

 

第六章研究了對話式問答系統,即機器必須理解一段文字內容後回答對話中出現的一系列問題。在簡要回顧對話系統相關論文後發現,構建資訊搜尋對話主體的關鍵是對話問答。之後對 CoQA 進行了介紹,一個為對話問答系統構建的新穎資料集,從文字段落的 8k 對話中收集的 12.7 萬個問答與答案,對此進行深度分析與構建幾個模型。基於我們 2019 年現階段的一些工作,我們也對此領域的未來方向進行了探討。

 

最後在第七章進行論文的總結。

 

 


 

 

或許當你讀到這裡,你或許已對陳丹過去的精彩人生感到羨慕,對她目前的學術成果有所讚賞,但或許你不知道的是:

在她走出國門留學海外的生涯裡,遇到過多少的難題和挫折?

 

例如同為 Chris Manning 學生的齊鵬,與陳丹同來自清華,也是個相當的厲害人物

 

640?wx_fmt=png

 

2012 年,齊鵬以 89.9% 的GPA(Top 5)從清華畢業

 

同年,在多哈舉辦的 2012 神經資訊處理國際會議上

與其指導老師胡曉林,中科院院士、計算機系教授張鈸共同撰寫的論文《用於建模視覺皮層V2區神經元的層次化K-均值演算法》(Hierarchical K-Means Algorithm for Modeling Visual Area V2 Neurons)獲得最佳論文獎

 

2013 年,齊鵬成為吳恩達的學生,在史丹佛繼續深造

 

2015 年,齊鵬在 Chris Manning 的指導下攻讀博士學位期間,除了曾與陳丹共同發 Paper 之外,還做了其他工作:

 

比如兩人最新發表的文章,就介紹了史丹佛大學 NLP 組推出的最新的機器閱讀資料集——CoQA 和 HotpotQ

 

雖然,陳丹和齊鵬都屬於天之驕子,但讀博歷程向來艱辛,特別是在另一個陌生語言的國度

 

正如陳丹在博士論文的致謝裡所寫:

 

“按照要求,我得在史丹佛修 5 門英語課程,對這個國家也知之甚少,甚至從未聽說過”自然語言處理“這一概念。

 

從結巴的英語,到 156 頁的英語論文,其中艱辛可想而知

 

而齊鵬在讀博之前還動手翻譯了 Philip J. Guo 的回憶錄《The Ph.D. Grind》

 

這本書記述了從 2006 年到 2012 年 Philip J. Guo 在史丹佛⼤學攻讀博⼠研究⽣期間六年的求學經歷,可見齊鵬在決定讀博之前必然做了很多心理準備

 

在”譯者序“裡,齊鵬寫道:

 

640?wx_fmt=png    

“借原作者致禮的這句話,再次表達對他們的敬意:獻給所有熱愛創造的⼈。“

 

連結:file:///Users/Mryong/Downloads/phd-grind-chn.pdf

 

我們也願借陳丹和齊鵬這樣的學子

向所有計算機領域熱愛創造的人表達敬意

 

(本文為AI科技大本營原創文章,轉載請微信聯絡 1092722531)

 

2019年人工智慧系統學:

https://edu.csdn.net/topic/ai30?utm_source=csdn_bw

 

群招募

 

掃碼新增小助手微信,回覆:公司+研究方向(學校+研究方向),邀你加入技術交流群。技術群稽核較嚴,敬請諒解。

640?wx_fmt=jpeg

推薦閱讀:

                         640?wx_fmt=png

點選“閱讀原文”,檢視歷史精彩文章。

相關文章