AI技術新玩法:看透前後100年,連線過去與未來

微軟研究院AI頭條發表於2020-11-02

不久前,B 站上獨立遊戲開發者大谷上傳的一則“修復100年前老北京影像”影片帶火了一項技術——AI 修復。透過 AI 技術手段,100年前的老舊黑白影像變得更加清晰,還原了彩色世界,讓人一瞬間有了穿越的感覺。

AI技術新玩法:看透前後100年,連線過去與未來

來源:嗶哩嗶哩 Up 主大谷的遊戲創作小屋

AI技術新玩法:看透前後100年,連線過去與未來

來源:嗶哩嗶哩 Up 主大谷的遊戲創作小屋

令人感到意外的是,這些作品的作者大谷竟然並非科班出身,之前並沒有系統學習 AI 的經歷,只是出於興趣,嘗試做一些好玩的事情,沒想到玩出了名堂。在他看來,正是因為現在 AI 技術和工具的成熟,才讓他這樣的“小白”可以輕鬆上手,自學就可以做出好玩的 AI 應用。

AI技術新玩法:看透前後100年,連線過去與未來

作為微軟秋季技術課堂的特別專輯,《重新整理 CTO》第七期邀請到微軟亞洲研究院副院長、中國計算機學會副理事長,自然語言處理全球領軍人物周明,CSDN 創始人&董事長、極客幫創投創始合夥人蔣濤,微軟(中國)CTO 韋青,獨立遊戲開發者、獨立藝術家大谷,在對話中將2020年最新的 AI 技術,透過小班“私教課”帶給現場開發者。

會上,大谷又帶來了新的炫酷作品,用 AI 修復二戰被炸燬城市德累斯頓。

關於 AI 技術的新玩法,與會嘉賓都有哪些獨到的見解?我們來系統地回顧一下。

AI修復敦煌壁畫、
虛擬武俠世界、
體育運動建模,
大佬們原來對這些技術感興趣

Q:如果你有修復能力,最想修復什麼?

周明首先,感謝大谷這個《修復老北京》,真的非常令人震撼,把100年前的情況栩栩如生地展示在人面前,我有點觸動。有一年我去敦煌,看到敦煌有一些壁畫斑駁了,看不清楚,但依稀能看出點影子來,還有人告訴我個故事,敦煌的壁畫是有朝代的,比如前一朝壁畫剝離了,後面鋪一層塗料再用一層新的塗料,有時候畫家就一層層剝離,然後學習繪畫的技法。我們都沒看過前幾朝的壁畫,能不能用大谷的技術把前面的壁畫一層層全部修復好,讓我去看一看,這是我的夢想。

蔣濤:復活舊影片,我們經常看古書、看歷史資料,想著能復現一下就很好。一個日本人在唐朝到中國求訪時寫了很詳細的日記,到五臺山怎麼走,經過哪個寺,它的描述中五臺山當時大概有一兩百座寺廟,如果能把這些書上寫的東西,不是一定有影片的,透過虛擬現實再建設一下,加上 AI 那就更好了,我們把武俠小說再建設一下,結合實景+虛擬現實

韋青:因為我的工作性質造成我特別強調落地、有用。我發現西方很多體育運動數字化了,把人的動作建模之後能夠非常精準地描述動作,我自己練過一段中華功夫,就想能不能把清朝末期的影像和影片復原,再透過計算機建模,把骨骼和肌肉的最佳發力關係數字化,指導當今的功夫愛好者練出真功夫。

Q:你嚴格意義上不是學技術的,為什麼要修復老北京影片或《被炸燬的德國城市》?背後是否有不為人知的故事?

大谷:我想從個人角度解釋下我對於人工智慧樸素的理解,現在是想象力經濟時代馬上要來臨的時代,人工智慧要做的是實現我們腦海裡想象的、有意思的東西。

我是一個遊戲開發者和作曲人,最開始瞭解 AI 的切入點是想看看 AI 是否能幫助我節省遊戲開發的時間,幫我作曲、做美術,但是經過了解後我發現,AI 不僅可以做這些,還可以做更多社會公益性、創造類的事情,所以我在自己的 B 站平臺介紹了很多不同的人工智慧技術,之前介紹過影片修復,是因為之前海外有很多朋友做西洋的黑白影片修復,我當時在海外有點思鄉的感覺,我在北京長大,就想找一些老北京的影像,看看能不能還原當年的那個感受,這是我最初做這個影片的初衷。

黑白影片節奏很快,因為不是正常的時間流速,有很多丟幀掉幀的現象,漏掉很多細節。透過三個人工智慧步驟,就是補幀、擴增解析度和上色之後,把影片拉到正常的時間流速進行修復,就會看到很多小的很有趣的細節,使影片更加生動,就有一種 Vlog 生活記錄的感覺,一下子把原來很陌生的歷史資料距離拉近了,這是非常好的藝術人文應用,我自己的藝術理念想把它做成“五分鐘的彼岸”的概念,讓大家從繁紛複雜的現代社會中抽出5分鐘來看看這些古人的生活,以古鑑今,說不定會有啟發,這是一個藝術立意,有一點人文關懷的感覺。

2020年是 AI 應用元年

AI技術新玩法:看透前後100年,連線過去與未來

CSDN 創始人&董事長、極客幫創投創始合夥人蔣濤

Q:微軟亞洲研究院在用 AI 做哪些研究?

周明1998年11月5日,比爾蓋茲在北京設立了我們的前身——微軟中國研究院,一年半後改名為“微軟亞洲研究院”。它是微軟在海外最大的一個研究部門,從事著從基礎理論研究,到聲音、影像識別與理解等應用,支援 Office、Azure、Windows 等重要產品,並與合作伙伴做落地專案。 

深度學習上,我們的研究包括自然語言理解,比如與中國傳統文化相關的自動對聯技術;在影像方面,看圖+註釋,看影片+註釋,看圖/影片寫詩等應用微軟亞洲研究院都有做過。

Q:現在 AI 的主流或火熱的應用和發展領域/方向有哪些?

蔣濤:最近劍橋釋出了一份2020年 AI 報告,結合這份報告和我的觀察理解,我認為主要有兩點:技術上現在沒有大規模的突破,更多地是工程化的迭代改進,比如 Pytorch 用的比 Tensorflow 更多了,現在消耗算力的引數達到千億數量了,號稱1000個引數要消耗1美金,所以現在搞 GPT-3 要消耗好幾百萬美金,1000多億的引數,大家進入軍備競賽階段。

趨勢上來講,第一個是技術要逐漸平民化,現在訓練成本太高,動輒幾百萬美金,因此機器學習自動化技術研究和推進比較快;第二個是行業化落地,第一波 AI 公司已經取得了成果,但是更多行業現在面臨 AI 到底怎麼落地的問題。

這次疫情的到來讓全行業經歷了一次全員數字化的洗禮,強制業務升級。我們認為2020年是 AI 應用元年,2010年是 AI 應用的開端,真正應用爆發是在2012年,再次爆發發生在2015年。我認為,現在正處在 AI 應用落地行業化應用啟動年,這是我觀察到的趨勢。

Q:全民數字化洗禮以後,企業在做什麼?您看到哪些 AI 有趣的應用和挑戰機會或趨勢?

韋青:現在最大的重點是落地。AI 能做什麼?我們可以反過來看,用排除法,AI 不能做什麼。我認為真正偉大的時代還沒有來臨,或者剛剛起步,第一輪出名的公司是第一波,但是真正偉大落地的應用場景正在來臨。我們的邏輯是 AI 不能做什麼,現在越來越多人明白了 AI 不能做什麼,一是沒有資料做不了,二是就算有了資料,沒有洞察力也做不了的事。我們捫心自問,只要人做的行業基本都能產生資料,也能夠有模式。但是為什麼很多公司很多企業很難落地?因為第一步還沒有做,就開始有第二步、第三步了,就說要做演算法、做人工智慧

我認為現在一個很大的挑戰,對每個人和公司,包括對微軟都一樣,是經過疫情的洗禮後明白的,AI 是未來一定要做的,不做就會消亡。其次是要沉下心來思考解決問題,第一是資料問題,第二是模式,就是能不能把流程或者做事方法解釋成模式,或者用演算法分析成模式,這兩個一過關,場景落地絕對不僅是識別影像或語音,而是遍地開花。所有能力應該是內嵌到所有過程中,比如辦公、製造過程、銷售、管理等。因為每個過程都需要互動,都需要根據資料進行判斷,根據判斷之後再行動,所以 AI 到處都是。正因為這樣,偉大的時代還沒有來臨。像滴滴、今日頭條這樣新一代的公司正在產生。

Q:從研究角度撥雲見日,您認為 AI 正在經歷哪些發展?哪些研究領域非常火熱?您正在做哪些工作?

周明這個問題可以從人工智慧方法理論有哪些機會,以及應用上有哪些機會或熱點兩方面展開。

在方法理論上,第一方面是由感知智慧到認知智慧的快速過渡,感知智慧研究進展非常快,以 ImageNet 為代表推動著領域發展,像國內影像“四小龍”做得已經非常好了,而且廣泛應用到安防、支付、鐵路、飛機、checkin 等各個環節。但是自然語言理解屬於認知智慧,過去做得不太好,但是現在有了深度學習、大資料的加持,自然語言理解也得到了很好的發展,過去5年深度學習驅動自然語言技術從一個模糊有歧義的狀態,進入到一個相對精準的狀態。另外,知識圖譜,利用知識推理找到答案並給出解釋,這些也是從感知智慧到認知智慧的飛躍。同時,以自然語言為代表的認知智慧,語言理解知識和推理,也將產生很多技術反哺感知智慧。

第二,從模態形態上來看,現在的趨勢是多模態建模,聲音、影像、文字、語音、文字、影片等用一個方式、多通道、多訊號統一建模,進行分析、理解、生成、對話、問答,多模態的趨勢對將來比如人機對話、機器人、物聯網都會產生重要影響。

從應用來講,我覺得無人駕駛、無人機、更新一代的智慧客服、精準的搜尋引擎和推薦系統,以及垂直領域,如醫療、教育、安防會進一步發展。

這背後的技術趨勢是無監督學習,只要有資料,不需要標註就可以做大規模的預訓練模型,訓練之後所有的下游任務都受益,用遷移學習的技術把大資料的任務或語言得到的模型遷移到小資料的任務或語言上。由於演算法上的進步,包括知識圖譜和資料的結合,資料和知識融合的推理機制,做決策之後的解釋機制,我們可以期待專家系統,比如醫療診斷系統將進入新的階段。

Q:CSDN 組織“百萬人學 AI”的專案進展如何?

蔣濤:分享一個我們今年做的調查報告,我們對3000多萬註冊和活躍會員進行的行為調查,根據每天2000多萬的資料提煉與人工智慧相關的框架、關鍵詞進行分析後發現,經過媒體2016年開始孜孜不倦的宣傳 AI 熱潮,近6個月在看 AI 技術文章的有689萬人,也就是說20%的使用者已經在瞭解 AI 技術,約6%的人準備從事 AI 相關工作,這個數量其實已經算不低了,因為絕對數已經有180多萬了。

針對現狀的調查也顯示,現在 AI 工具越來越豐富,包括大廠的開源 API 越來越多。但 AI 技術現在還是“貴族”技術,一是訓練模型貴,二是人很貴,A 類公司壟斷了演算法 AI 博士。很多產業網際網路的人對 AI 感興趣,正在學習 AI 的人卻感覺“不知從何學起、學費太高”,過去課程都是針對演算法工程師的,但演算法工程師要平民化,我認為這是個趨勢。

在這些調查物件裡,希望轉行 AI 的佔比7%,個人希望轉型的佔比38%,還有一部分是作為技術愛好,一半人在技術領域要不斷學新技術,這反映了一個基本現狀,AI 要落地是比較難的,公司想好真的要轉的不多,但是開發者已經動起來了,現在要解決的問題是 AI 在行業的落地。

落地確實有難處

AI技術新玩法:看透前後100年,連線過去與未來

微軟(中國)CTO韋青

Q:您看到企業是怎樣讓技術落地的?微軟現在在做哪些事情更多地賦能企業落地 AI,賦能個人?

韋青:現在 AI 的主旋律有兩類,一類是真正的突破性的 AI 研究,探索新的方法;第二類是對於普通公司來講的落地。但是落地確實有很大的難處,我們與合作伙伴和客戶交流時,很少有人能理解 AI 到底是什麼東西,AI 不是被神化,就是被汙名化,但很少有人談 AI 能幫你做什麼。客觀來看,我們需要認識到,AI 是機器的一種能力,用來幫助解決人類不擅長的計算問題,預判一下,未來所有行業的腦力勞動,就是純粹的計算也是靠機器做的,這是必然的。

第二點是發展,真正懂演算法的人才太缺乏,但是 AI 應用的需求又很大,具備有行業痛點的專業人士和具備有數學基本演算法的專業人士需要配合才行。大谷不是計算機專業出身,而是學藝術的,但他應用 AI 的能力比我們很多人都要強大,我覺得這就是代表未來。微軟也提供這種演算法能力的平民化,不是讓你做一個平民的演算法,而是讓你利用平民化的演算法讓所有的工作更高效、智慧化,這是一個挑戰,也是一個機遇。

程式設計師暫時不會丟掉飯碗
AI技術新玩法:看透前後100年,連線過去與未來

微軟亞洲研究院副院長、中國計算機學會副理事長周明

Q:AI 技術越來越平民化,技術門檻越來越低,是不是意味著很多程式設計師會丟了飯碗?

周明程式設計確實很麻煩,如果可以標準化可以變得高效。我從中看到了智慧編碼的潛力,用人工智慧把編碼這件事智慧化,把全世界的程式設計都合理合法地蒐集來,在上面學機器學習人工智慧,需要做這麼幾件事:第一件事是把自然語言變成 code,第二是把 code 變成自然語言,第三是從 code 到 code,以及用 code 找 code。站在程式設計師的基礎上,把他們的智慧集中起來,用大資料訓練,就可能擁有這些能力。我們最近也在做編碼智慧的研究,釋出了一個測試集,把資料蒐集下來,公佈了10項任務,總共有14個資料集,希望我們關心程式碼智慧的人來研究併發布,互相比一比、測一測,看誰的水平高,這就是我們現在在做的一件事情,叫 CodeXGLUE,大家可以關注一下。

蔣濤:每一次技術進步都會帶來改變,總的來說,過去有一些人掌握的一些技能逐漸被工具取代,是我們這個行業領域發展的趨勢。

編碼智慧一定會對程式設計發展帶來很多幫助,提升程式設計師的效率。但是完全取代,我們現在預測還太早,這個時代所謂的通用化人工智慧還沒到來,但是編碼智慧可以大幅度提高開發人員的效率,這是我們看到的,可以利用更好的工具、更好的編碼手段,來實現更安全的編碼,但不會取代程式設計師。

我們現在需要做的是定義業務邏輯,把業務邏輯描述完以後能不能程式設計,這是一個非常有潛力的方向。對於企業來說,AI 的真正價值是在於如何把業務本質翻譯成一個演算法,將來的世界都是演算法驅動的,所以把你對業務的理解翻譯成程式碼,這件事情是核心競爭力,而這樣全智慧的 AI 公司還沒有出現。所以,程式設計師離失業很遠,但是會有人失業,比如對於那些用很少的程式碼就可以實現的基礎工作。所以,程式設計師要不斷學習,提升自身能力。 

韋青:不上進的程式設計師被淘汰是必然的,但是程式設計師這個行業肯定不會被淘汰。因為,現在別說應用智慧的能力,就是把演算法做出來的能力都是有限的,還處於探索期,所以大家先不用擔心會被淘汰掉。但是如果還是搞不清楚你在發電做演算法,還是用電拿演算法解決問題和理解商業痛點,那這批人就有很大危險了。

最後,三位嘉賓還向大家推薦了學習 AI 的好書、網站,來看看大佬們是怎麼學習 AI 的吧!

AI技術新玩法:看透前後100年,連線過去與未來

獨立遊戲開發者大谷(右)

周明深奧的知識大家先別碰,先試試入門級的,比如微軟新發布的“四大家族”:Power Virtual Agents,怎麼寫個小 bot;Power Apps,寫個小 APP;還有 Power BI,互動式看圖表,學習大資料分析;以及 Power Automate,類似於 RPA。然後再體會背後的人工智慧技術,逐步深入瞭解自然語言、預訓練模型、神經網路等,成長為一個在業務流程中懂技術的小能手。

蔣濤:對於開發者來說,演算法上推薦 paper code 網站,可以看到最新帶程式碼的論文。第二是 Python,宇宙第一語言,人工智慧絕大部分都是 Python 支援的,發展也很快,可以學一下。第三個是 API,最好是找一個場景驅動,選擇自己感興趣的領域,利用開源工具和 API 能力在場景中落地。

韋青:我比較傾向於學專業化的課程,比如 MIT、卡內基梅隆的網路公開課程。我覺得程式設計師最基本的數學理論要有,要打好基礎,否則演算法都寫不出來。

大谷:我本身是一個遊戲開發者,會做一些遊戲程式設計,但是人工智慧用的 Python 語言這些是沒有接觸過的。我之前用的人工智慧專案並沒有對程式設計有要求,因為每個專案 GitHub 頁面裡已經寫了非常詳盡的怎麼使用的教程,就是執行起來把程式設計環境搭一下,然後寫幾行,操作命令就可以了。

我自己最開始接觸人工智慧,使用過一些人工智慧網站,像 oprator 可以生成人臉,OpenAI 程式設計作曲的人工智慧,谷歌的 codelab,操作都是較為簡易的,可以在網站上直接輸入執行,非常有助於學習。

相關文章