經過數年的發展,現在的人們談到“AI”已經不再像過去一般感到遙不可及。但 AI 在國內發揮的作用仍然只是冰山一角,許多應用依舊沒有落地,產業鏈等待完善,國內 AI生態的發展還需要一定的時間。
“2018 年我剛回國創業,想要做機器學習的模型,但找遍整個市場,都找不到一家滿意的供應商。”AI 資料SaaS提供商 Graviti 創始人崔運凱告訴記者。
崔運凱畢業於上海交通大學與美國賓西法尼亞大學,曾是 Uber 無人駕駛部門的Tech Lead Manager ,屬於該部門最早一批員工。2018 年,崔運凱從 Uber 離開,回國後卻發現,國內不僅無人駕駛行業進度緩慢, AI 產業鏈也非常不完善,這給許多AI 創業公司帶來非常大的挑戰。
發現了行業在這部分的需求和空白後,2019 年,崔運凱正式創辦了Graviti,致力於幫助人工智慧開發者更好地管理和使用資料,透過涵蓋資料全生命週期的一站式AI資料服務SaaS平臺,加速資料在供需方之間的流通,為人工智慧行業賦能。團隊也吸引到了哈佛,UT Austin,密歇根大學以及國內上海交大、復旦、同濟等一流高校的人才。
從 Uber 無人駕駛部門的Tech Lead Manager,到國內人工智慧行業資料服務商,崔運凱見證了無人駕駛行業的崛起和發展,也對 AI 行業有著獨到的見解。近日,CSDN記者採訪了崔運凱,跟隨著他的技術成長生涯,一起來聽聽他對無人駕駛與國內 AI 行業現狀的理解。
一、因一個”秘密專案“,正式踏入無人駕駛的大門
CSDN:請簡單介紹下你的個人經歷?
崔運凱:2012 年,我到了美國賓西法尼亞大學學習。2014 年畢業後留下來當了一年助理研究員,但發現這不是自己的興趣所在,在一次機緣巧合的機會下,我後來在Uber的老闆給我打來了一個電話,說他們在匹斯堡做一個秘密專案,我飛到了匹斯堡一看,原來是在做無人駕駛。
當時的老闆是 CMU(卡耐基梅隆大學) 的一位教授,他離開 CMU 後加入的 Uber 。看完專案,臨走前我問他為什麼會加入 Uber ?他對我說了一句話讓我至今為止都非常印象深刻:” It's a once in a lifetime opportunity“。他認為這種改變世界的機會可能一生也遇不到一次,所以就加入了。我也深受他的感染和影響,所以在 2015 年就加入了 Uber 做無人駕駛的事情。
加入Uber 時,Uber 還算很早期的時候。50 多號人在一個廢棄的工廠樓裡辦公,像一個創業公司一樣,後來至少搬過 4 個辦公點,見證了它的成長。2018 年 5 月我離開時,公司已經將近 1500 多人。
CSDN:在 Uber 時你主要負責的內容是哪些?
崔運凱:我是在 2017 年 2 月份時被提拔上了 Tech Lead的,帶領一個小的工程師團隊去做高精度地圖的規模化生產,尤其是用 AI 演算法來輔助人工實現規模化的生產。因為當時高精度地圖是無人駕駛中比較重要的一部分。如何能快速升級和生產地圖,是當時無人駕駛的廠商比較重要的需要攻克的難題,當時也有幸參與了整個過程
2018 年離開了美國,2019 年 4 月時創立了 Graviti。Graviti比較幸運的是,在 2019 年資本市場不是很熱鬧的情況下,獲得了包括紅杉資本、雲啟資本、真格基金、風和投資的投資,還是特別感激大家對我們的支援。
二、無人駕駛技術的發展
CSDN:很多人在剛開始職業生涯的時候會選擇偏向網際網路應用的大公司耕耘,你為何會選擇自動駕駛領域來攻堅?有什麼吸引你的地方?
崔運凱:關於谷歌和百度做無人駕駛的問題,我們可以回顧 2015 年初,那時候還沒有Waymo這家公司,當時谷歌的無人駕駛叫 Google X,整個 X 部門都是做無人駕駛的研究員,人數大概不到100 人,所以只是谷歌內部的一個部門。而Waymo 成立到組建其實已經是 2016年、2017 年的事情,當時 Google 並沒有嚴肅地將它作為一個主要的商業業務去思考。同理,百度也有很多戰略業務,無人駕駛只是他們戰略業務之一,百度有非常優秀的人才,但是更多的是把無人駕駛作為前沿的研究而非可以商業化的應用。
出行的基本原則滿足的是人從 A 地點到 B 地點的訴求,實際上透過 Uber,叫車、無人駕駛都可以滿足,無人駕駛只是選項之一。而 Waymo這種純粹的無人駕駛公司會面臨一個問題:使用者最初可能會因為新鮮感而選擇嘗試他們的服務,但長期看來,使用者只是需要滿足從 A 到 B 的需求,到後期追求的更多是便捷,所以還是會選擇叫車。但 Uber 的目標是:承認我的網路裡包含了無人駕駛、有人駕駛這種混合的形態,永遠以滿足乘客從A到B的需求為優先。這樣的商業模式在我看來才更可行。
我之所以加入無人駕駛領域,是因為我發現無人駕駛實際上會涉及很多先進的技術,大大幫助知識層面的提升,需要學很多東西才能把無人駕駛做好,至少這部分是讓我個人比較興奮的,所以選擇了無人駕駛這個方向。
CSDN:你認為無人駕駛的終極目標是「量產商用」,還是「應用普及」?中美技術的發展差異如何?
崔運凱:無人駕駛的形態有可能是長期的混合式的形態。因為在 2016 年 9 月時,Uber 為所有的匹斯堡的使用者提供無人駕駛服務,每個人都有可能隨機匹配到一輛無人駕駛車。我其實認為這已經是很好的無人駕駛商業化落地的方式了。
所以我認為,無人駕駛會以這種慢慢進入人們生活的方式,潛移默化地不斷提高、迭代自己,透過與使用者的互動體驗來不斷變得完美。是一個循序漸進的過程,不是一夜之間就被所有人接受。
從技術層面來說,我認為整體的無人駕駛技術還有挺長的一段路要走。美國的無人駕駛技術確實要比國內的領先很多,在市場應用、演算法方面是差不多的,但實際上我們欠缺的是整個產業鏈上的提升,包括大量的人才積累、作業系統、硬體和晶片能力,也包括國家的一些政策等等,國內都有相對大的空白,有很大的空間可以去開啟和探索。
三、讓AI觸手可及
CSDN:Graviti 誕生的經過是怎樣的?
崔運凱:我在Uber從事無人駕駛研發的幾年時間中,需要處理大量影像、點雲等非結構化資料,並用這些資料訓練演算法。當時,Uber內部為了方便演算法團隊加快演算法迭代效率,動用了很多資源開發了Michelangelo機器學習平臺。很多有名的開源框架都誕生在這一過程中,包括Horovod。我碰巧作為最早的使用者,看到了這個平臺的成長,踩過的坑和積累的經驗。而這樣的投入對於一個初創的人工智慧公司是不可想象的。而在獲取真值方面,Uber不僅在印度有上千人的資料生產團隊,還將部分資料的需求外包給位於西雅圖的一家初創公司,除了要承受昂貴的價格,冗長的等待時間,還要面對海量資料的對接、跨境分發、檢索、整理及增值資料的儲存和使用等一系列難題。
2018年離開Uber回國後,我加入了一家高精度地圖初創公司擔任合夥人,因高精度地圖研發需要收集海量資料並訓練大量模型,為了管理和使用這些資料,我們一直在尋找類似於Michelangelo的平臺。我們找了各種各樣的供應商,甚至包括多家國內頭部雲服務商,可是沒有一家可以滿足我們的需求,在那個瞬間感覺特別無助。
當時我意識到無論是國內還是國外,人工智慧研發的整個工具鏈都處於非常早期階段而且不完善。如果我們再做一家人工智慧公司,還會遇到同樣的問題,還是要花很大代價把這些問題再解決一遍。後來我去找了很多在人工智慧領域創業的朋友,發現他們也有同樣的痛點。與其這樣,不如專門做一家幫助開發者解決以影像、文字、影片為代表的非結構化資料管理和使用痛點的公司,讓開發者從繁雜的資料管理中脫身,更好地將時間和精力集中在解決業務問題上。
我們希望所有的開發者都可以用到和大公司一樣好用的工具,讓人工智慧不再遙遠,我們創立Graviti就是肩負著這樣的使命的。
CSDN:我們注意到Graviti的Slogan 是“讓AI觸手可及”,Graviti所面臨的挑戰是怎樣的?難點在哪裡?
崔運凱:這裡我們先來區分一下結構化資料和非結構化資料。日常資料可以分為由程式生成的結構化資料與以影片、影像、文字為代表的非結構化資料。平日裡大家接觸到的資料處理大部分是針對結構化資料的處理,比如Excel表格,資料庫等。而人工智慧面對的更多是影像、文字、影片等非結構化資料。這些資料所佔用的儲存資源及處理難度是結構化資料的幾百萬倍甚至是幾億倍。
舉個例子,Excel表格中100條資料只有幾KB大小,但是一個圖片可能需要幾MB的空間,而一個影片則需要幾百MB的空間。這很直觀的展現了結構化資料和非結構化資料在數量級上的對比。處理一個Excel表格和幾張圖片都是相對簡單的任務,基本在個人電腦上都可以處理。但是AI要處理的任務可能是上百萬個幾百MB的影片,這裡程式所面臨的挑戰和所需要耗費的儲存和算力成本可想而知。全世界每天產生億萬量級的非結構化資料,是否能有效地處理好利用好這些資料,決定了人工智慧的發展程序。
Graviti希望透過高效排程大量的算力及儲存,利用大規模分散式並行化技術,打造一站式的創新解決方案,幫助解決非結構化資料從獲取、管理、加工到使用的完整資料旅程中所面臨的問題,這也是我們的價值所在。
CSDN:Graviti提供怎樣的產品?又是如何解決開發者的痛點的?
崔運凱:大家猜猜支援一個10人演算法團隊高效運轉需要多少資源?我們透過深度調查發現,至少要三個軟體工程師提供工具開發和運維服務,需要配置百萬元左右的深度學習訓練機器,及百人左右的標註團隊和上百TB到PB級的共享儲存空間。這些加起來往往需要花掉企業千萬級前置成本和百萬級的維護費用。即使這些都具備,演算法工程師還要將大量的時間花在找資料,清理資料,管理許可權和視覺化上,真正用於演算法開發的時間屈指可數。
針對這個情況,Graviti提供了面向開發者的SaaS工具,集資料集管理,沙箱訓練和模型評估於一體。打通資料在人工智慧應用開發的各個環節中的流轉。讓企業0前置成本啟動人工智慧應用開發專案,後期費用跟隨團隊的擴張而增加、收縮而減少,讓開發者真正專注在重要的事情上。
比如我們與淞泓智慧的合作,就使用了我們的資料管理系統和模型評估系統,甚至包括模型管理系統,併為它搭建了一套線上測試平臺,讓它更好地去測試未來無人駕駛車輛的系統安全性;在伯克利(UC Berkeley)的合作中,也是透過我們的資料管理平臺、評估系統,為其搭建了一個平臺用來支援他們面向世界級的頂級學術人員和開發者釋出的挑戰賽,這樣大家可以更好地促進相關技術的發展。
針對開發者對於真值資料的需求,Graviti提供了基於SaaS的標註服務。和其他標註公司不一樣的是,我們的資料標註服務是一鍵式的。國內的標註公司通常是先聯絡BPO(商務流程外包Business Process Outsourcing),線上下的微信群裡對接需求,發資料文件,他再去聯絡標註員,而很多標註員可能是第一次接觸這樣的任務,也沒有特別適用的工具。但是在我們的體系裡,所有對接都是在軟體中互動完成,分發程式有一套演算法,會自動找到最合適的標註員,透過發現任務、自主登入、接受培訓考試去完成這樣的工作。整個過程都是自動化的,效率和準確率都有很大的提升。我們會針對客戶的業務情況做諮詢,很多客戶是做不到明確架構需求的,這時候就需要有人來從專業角度做梳理和設計,這也是我們服務的獨特性所在。
我們也將在未來的一定時間點考慮開源我的軟體或是去做開放平臺,和更多合作伙伴做生態上的整合,協同解決更多AI問題,打造像Github一樣被開發者喜愛的平臺。
四、AI 只是個工具,不要太迷信 AI
CSDN:除了汽車領域之外,未來還會為其他行業或領域提供服務嗎?
崔運凱:會的。汽車是目前的重點領域,畢竟在這個領域很多年了。而AI技術本身其實是通用的,我們做這套技術也是通用的,所以我們也在思考全球疫情蔓延的情況下,能否為醫療賦能,透過人工智慧為人類健康做出自己力所能及的貢獻。同時也希望能為網際網路影片、新零售、智慧製造、線上教育等領域智慧化升級賦能。
CSDN:對於AI技術,你有什麼想說的?
崔運凱:我認為,最重要的其實是「知其然也要知其所以然」。對於技術,開發者一定要不斷向自己提問,不要滿足於自己現有的知識,更多要問“為什麼、可不可以做到更好”,發現一些新的方式加以創新,才能將 AI 這個技術用好。
另外,也希望所有的 AI 開發者不要太過於迷信 AI ,因為 AI 歸根結底只是個工具,一個有價值的問題可能可以由多種不同的工具解決,AI 只是其中一種。所以用最好的工具解決它最應該解決的問題才是大家應該追求的。