百度,關於技術理想與對未來的期待丨首屆搜尋技術創新挑戰賽 x 冠軍團隊專訪

思否編輯部發表於2023-01-30

日前,由百度搜尋聯合北京大學、山東大學、湖南人工智慧學會、西安電子科技大學等各地高校、學會,共同舉辦的「新智慧·新搜尋」為主題的首屆搜尋技術創新挑戰賽(STI)圓滿落幕。賽程歷時 2 個月,超過 1600 名參賽選手報名參賽,覆蓋 33 個省市及海外城市。

經過四大賽區的區域賽、複賽、決賽答辯,決出了最後兩條賽道各自的冠軍隊伍。其中,“搜尋問答”賽道的冠軍團隊是「四位歪歪豬」;“搜尋模型推理最佳化”賽道的冠軍團隊是「錯誤程式碼 114」。他們分別憑藉優秀的搜尋技術運用、精確的演算法架構獲得評審團的一致認可。

賽後,我們對兩組選手進行了專訪。在採訪中,選手們分享了賽前賽後的心得與體悟,聊了聊技術理想與對未來的期待。從他們的身上,我們可以瞭解到新一代開發者對於前沿技術的期待與熱愛,以及他們身上薪盡火傳的技術理想。

下面就讓我們看一下采訪內容(為方便閱讀略有刪減)

“搜尋問答”賽道冠軍團隊:四位歪歪豬(重慶郵電大學 & 中山大學)
團隊成員:陳宇航(隊長)、謝華俊、高晉鵬、孟鈺穎、張舒淇

“搜尋模型推理最佳化”賽道冠軍團隊:錯誤程式碼 114(西安電子科技大學)
團隊成員:謝玉聖(隊長),陳國超,鄭雨杭,詹榮瑞,賈冠豪,李甫(指導老師)

1、請問參加這次活動的初衷是什麼?

「四位歪歪豬」:首先是提高技術能力,這次參賽的目標就是了解搜尋技術,並且深入學習百度的 PaddlePadlle 框架。另外獎金也是一個目標。

「錯誤程式碼 114」 - 陳國超:我們團隊的 5 個人對模型的加速和部署很感興趣,參加本次比賽正是為提高這方面的能力。第二點是參加比賽可以豐富個人的簡歷,增加就業機會。

2、本次大賽的主題是“新智慧·新搜尋”,對於這個主題你們是怎麼解讀的?

「四位歪歪豬」:在我們團隊看來是透過一些新的 AI 技術,讓搜尋引擎能更好地理解並滿足使用者的需求,讓使用者能更方便地獲取到這個世界的資訊。搜尋技術出現多年,現在仍然是我們瞭解這個世界的主要方式。如果能借助新技術提升使用者搜尋的體驗,可以帶來一個非常好的結果。

「錯誤程式碼 114」 - 陳國超 :搜尋是網際網路的基本應用,搜尋作為使用者主動表達需求的場景,也是一個技術高度密集的場景。但隨著網際網路的飛速發展,網際網路的內容變得多元豐富,資源量也數以億萬計。為了應對內容的變化,提供更好的服務,搜尋演算法也在與時俱進。在人工智慧的加持下,搜尋變得更加人性化,就像百度提出的知一跨模態大模型在搜尋場景下便有著出色的表現。

本次比賽的兩條賽道設定非常契合這一主題,賽道一讓結果變得更準,賽道二讓結果出的更快。

3、能否分享一下在比賽中的方案設計思路?

「四位歪歪豬」:我們的專案方案大致分為三個步驟,任務抽取、語義推理和答案聚類。任務抽取部分我們使用序列標註對資料進行訓練;語義推理階段使用的是互動式模型,透過對文字進行語義匹配得到最後的結果;答案聚類階段使用了最大連通圖和層次聚類的方法,得到置信度最高的答案結果。

「錯誤程式碼 114」 - 謝玉聖:我們也分為三個階段。第一個階段主要做的是圖、運算元級別的最佳化;第二個階段則是利用了一些機制對推理引擎進行最佳化,比如 TensorRT 的動態推理機制、MultiProfile 機制以及英偉達的 CudaGraph 機制等。第三個階段我們想在最佳化上更進一步,於是採取了英偉達的 FasterTransformer 框架來構建整個 Ernie 模型,最終來實現推理。

4、你們認為自己方案最大的優勢是什麼?能取得冠軍的原因是什麼?

「四位歪歪豬」:最大的優勢可能是在任務抽取階段的結果更加準確。我們團隊在解碼部分進行了一些改進,這是其他團隊沒想到或者沒有做到的一點,在這部分我們的得分比其他團隊高很多。

「錯誤程式碼 114」 - 謝玉聖:我們方案最大的優勢應該是最佳化比較好。正如我們剛才所說,透過三個階段的最佳化,最終取得了非常不錯的成績。另外就是團隊成員在比賽中的默契合作與方案選擇,參賽前的研究和工作經驗,使得我們在解題時能有較多的思路。

5、在比賽中遇到的最大挑戰是什麼?又是如何解決的?

「四位歪歪豬」:最大的挑戰是在上分瓶頸期的時候,團隊成員會缺乏動力。這種時候我們會憑藉不同的視角和分工,相互探討對方的工作是否存在哪些問題、有哪些方向可以嘗試,相互溝通、鼓勵。一個人打比賽是很難的,因為視角不全面,只有團隊配合在一起才能讓解題方案更多樣性,有更多堅持下去的動力和信心。

「錯誤程式碼 114」 - 鄭雨杭:在比賽中遇到最大的技術挑戰是 Ernie 模型。它的結構是比較簡單整潔的,並且 baseline 已經基於 PaddlePaddle 進行了大量的最佳化。而我們透過 TensorRT 的新版特性、CudaGraph 和運算元融合三個方向來進行初步的推理最佳化,再借助 FasterTransformer 進行進一步的推理速度提升,並且嘗試使用了 INT8 進行推理,最終使得推理速度有了較大的提升。

6、如果有更充分的時間與資源,你們還有哪些最佳化或者迭代的方向或思路?

「錯誤程式碼 114」 - 陳國超:我們在比賽剛開始時便嘗試了 INT8 推理,但那段思路還不夠清晰,並且因為時間關係許多量化問題沒有來得及解決,使得精度損失較大。另外如果有更充分的時間和資源,我們會借鑑百度 Paddle Slim 的方法,把模型的剪枝做的更好。

7、對大家而言,本次參賽經歷有哪些收穫?覺得參賽最大的意義是什麼?

「四位歪歪豬」:首先,參加這次大賽讓我們學到了檢索技術以及 PaddlePaddle 框架的相關技術和應用,其次獲得了豐厚的獎金。但最大的意義是在參賽過程中結識了很多技術大佬,認識了很牛的隊友。這次的參賽經歷豐富了我的大學生活,相信對於之後的就業找工作也會有比較大的幫助。

「錯誤程式碼 114」 - 賈冠豪:此前因為研究方向不同,對百度 PaddlePaddle 飛槳瞭解的不多。這次比賽讓我們更加了解百度 PaddlePaddle 和英偉達 CUDA 相關的程式設計框架,並書寫了相關的程式碼,拓寬了我們的視野,也讓我們更加了解了百度的技術方向。

「錯誤程式碼 114」 - 謝玉聖:這次參賽讓我認識了一批優秀的選手,也跟他們有了交流的機會。比賽結束後,大家仍然在選手群中分享自己的方案,去互相借鑑、互相學習,我覺得這很有意義。

8、相信透過參加比賽,對於搜尋引擎一定有了更深刻的理解和認識。你們認為對於一個搜尋引擎而言,最重要的一點是什麼?

「四位歪歪豬」:搜尋引擎的精準性。當使用者在搜尋時,引擎能夠精準地提供給使用者想要的結果是比較重要的。現在我們搜尋一個問題,一般就會彈出很多資訊,如何在這些資訊中獲得自己想要的那一個?我覺得這非常重要。

「錯誤程式碼 114」 - 鄭雨杭:我認為是搜尋的相關性,尤其是首頁的相關性。使用者在搜尋欄中輸入關鍵字時,首頁展示的資訊捕獲了使用者絕大多數的點選。一般來說,使用搜尋引擎的使用者如果沒有在首頁找到相關內容,往往會預設該搜尋引擎無法找到相關內容。所以我覺得首頁的相關性,是評估搜尋引擎效能的一個標準。

9、 你們對技術的熱愛來源於哪裡?

「四位歪歪豬」:我最早是在本科時,透過學校的一個工作室接觸到的技術比賽。在比賽過程中接觸到了來自全國各地的選手,感受到了技術比賽的氛圍,開闊了我們的視野,開始享受上分的過程中的那種技術成就感。

「錯誤程式碼 114」 - 賈冠豪:我小時候比較喜歡打電腦遊戲,長大一些後對計算機程式設計有了一些瞭解,便在大學時選擇了程式設計專業。實際學習後對深度學習、人工智慧等技術特別感興趣,對人工智慧未來的實現也特別憧憬,希望將來能夠為中國貢獻自己的力量,讓中華民族實現偉大復興。

「錯誤程式碼 114」 - 詹榮瑞:我小學時就接觸了軟體開發。不知道大家有沒有玩過魔獸爭霸 3,這個遊戲中的地圖編輯器功能是我最早接觸到的類似於程式設計的思想,類似於現在流行的低程式碼開發,透過設定一些條件、執行一些動作做出一個遊戲地圖。也是從對遊戲的興趣發展成為了對程式設計、對技術的興趣。

10、希望自己以後從事哪一型別的工作?有沒有想做出哪種能改變人們生活的高科技產品

「四位歪歪豬」:想成為一名 NLP 演算法工程師。我今年大四,選擇的研究生導師的研究方向就是 NLP。產品可能會想做一個類似於 ChatGPT 的智慧問答機器人,感覺它可以像人一樣回答問題很有趣並且很神奇。

「錯誤程式碼 114」 - 謝玉聖:希望可以從事深度學習推理和訓練平臺框架的開發工作,也特別希望可以加入到百度做 PaddlePaddle 推理、部署相關的工作,例如在一些國產平臺的晶片上做最佳化。

高科技產品的話我希望可以做出一種電子眼鏡,像名偵探柯南里的眼鏡一樣,看上去普普通通實際上有著很多的高科技。現在很多公司做出來的 VR 頭顯我覺得有些大,希望我之後可以做出來更輕盈便捷的產品。

「錯誤程式碼 114」 - 陳國超:我想去做基礎框架的開發。目前嵌入式平臺上的深度學習框架五花八門,如果有機會我願意加入某一個公司,去參與開發一個有可能實現統一的基礎框架。也希望能在人工智慧領域的發展上留下自己的一點汗水和努力。

「錯誤程式碼 114」 - 賈冠豪:我希望能夠做出一個人工智慧管家,類似於鋼鐵俠中的管家賈維斯。我覺得人工智慧管家市場前景非常好,也符合目前的家庭需求。

「錯誤程式碼 114」 - 鄭雨杭:我想做智慧義體。比如說智慧義眼可以幫助失明患者回複視力,智慧義肢幫助殘疾人恢復行動能力。我覺得這有很高的社會價值,能改變人們的生活。

image.gif

在 AI 技術加持之下,搜尋領域的未來空間正持續拓寬。在時代的飛速發展中,如這兩組選手一樣的更多的新生技術力量,正在拓寬我們生活的寬度和廣度。

本次「百度搜尋技術創新挑戰賽」已經圓滿落幕,這是百度在技術探索和人才培養領域的一次探索,並切實的找到了一條具備可行性的路徑。也期待更多企業、社會組織、高校、開發者、技術愛好者協力,與百度一同構建新型、複合型的人才培養生態,共贏智慧搜尋新未來。

相關文章