【人工智慧】AI競賽,到底有什麼價值?

z1y492vn3zyd9et3b06發表於2017-12-27

?wxfrom=5&wx_lazy=1

撰稿:歐應剛 | 小編:小蔥


2017年12月24日,CCF第五屆“大資料與計算智慧大賽(Big Data & Computing Intelligence Contest, BDCI)”在江蘇常熟落下帷幕,獲獎團隊合計分享了超過100萬人民幣的獎金。據悉,本屆大賽歷時90天,釋出了12道大資料與計算智慧賽題,共吸引參賽隊伍6675支,參賽人數達14991人,比2016年增長40%。


對於這類競賽目前還沒有統一的叫法,有叫大資料競賽的,有叫演算法競賽的,有叫AI競賽的,其實質差不多,在此暫且統一稱之為AI競賽吧。乘著大資料和AI的東風,相應的比賽也獲得了很高的關注度。另一方面,我接觸了一些業內人士,對AI競賽的價值還存在一些困惑乃至質疑:企業在AI方面的應用是有較高的門檻的,主要由學生構成的參賽群體是否具備足夠的知識儲備和解決問題的能力;AI競賽到底能給企業和參賽團隊提供什麼樣的價值?


帶著這些問題,我深度參與了本屆BDCI大賽,並採訪了出題企業、賽事舉辦方和多支參賽團隊,試圖獲得一些答案。在此,我將在本次大賽上獲得的資訊和一些思考分享給大家。


一群學生真的能解決問題嗎?


這類AI競賽主要是由學生和部分在職人員參與,要分析競賽的價值,首先必須回答的問題就是這些參賽人員能力足夠嗎?這是最開始的邏輯,如果參賽選手的知識水平和能力距離真實的需求差距很大,那麼競賽的整個邏輯就講不通,最終只能淪為一種形式。其實大家對於主要由學生構成的參賽團體能否具備足夠的知識和能力來幫企業解決其業務問題是懷有疑問的,我對此也是持質疑的態度。為此,在這次AI競賽中,我特地與多組參賽團隊進行了交流,詢問他們關於比賽的看法、遇到的困難,以及如何在眾多對手中脫穎而出等問題。


我們來分析一下要較好的完成一個賽題,需要經過哪些關鍵環節,如果參賽者的能力水平已經足夠支撐其完成這些環節,那麼就基本具備參賽的能力要求。一般而言,參與一場AI競賽主要的動作包括:


第一, 對賽題進行理解,尤其是大致瞭解企業提供的資料,包括資料特徵變數、目標變數的分佈,並分析變數之間的相關度,發現一些高相關或共線性的特徵。


第二, 資料處理和清洗,資料特徵值缺失的處理,如果資料中包含文字則需要進行資料清洗。


第三, 特徵工程,包括特徵變換和特徵編碼。針對一些長尾分佈的特徵,需要進行冪變換或者對數變換,使得模型能更好的優化。對於離散的類別特徵,往往需要進行必要的特徵轉換/編碼才能將其作為特徵輸入到模型中。


第四, 演算法模型的選擇、融合和驗證,對於某類AI問題比如計算機視覺、語音識別、自然語言理解等,有大量開源演算法模型,每個模型都有其優勢和侷限,要解決特定的問題往往需要多個演算法模型進行融合,而不同演算法模型的選擇和融合對結果的影響很大,這也是一個解決方案的關鍵。當然,比較厲害的團隊可以根據問題開發一些新的演算法模型。


第五, 引數設定。選好了演算法模型後,最重要的工作就是引數設定,不同的引數往往導致結果差異巨大,也是區分不同參賽團隊實力的重要因素。


在上面的幾個步奏中,前面兩個步奏屬於準備工作,關鍵的是後面三步。區分不同方案優劣的關鍵,是特徵工程、演算法模型的選擇和融合、引數設定,這也是不同團隊實力的主要體現。回到開始那個問題,要參加這樣一個AI競賽,或者說要用AI技術解決企業的業務問題,需要具備哪些知識和能力,學生群體具備這樣的知識和能力嗎?


大體上來看,一個合格的AI開發者需要具備的能力包括:電腦科學基礎和程式設計能力,這需要學習一些計算機的基礎課程並學習一些程式語言;數理基礎,主要是概率論和數理統計,大學在本科一二年級時一般會開設相關的課程;資料處理、資料建模的基本能力,這個學習一些相關課程也能基本具備,關鍵的是培養對資料的敏感度和分析能力;一些通用演算法的學習和理解,尤其是機器學習、深度學習方面的演算法,大部分演算法都可以通過開源渠道獲得,入門門檻不高,學習的時間和本身天賦導致最終能力的差異;軟體工程能力,要解決一個業務問題,需要具備一定的軟體工程能力,這個門檻也不高,並且隨著經驗的積累能力也逐步提高。事實上,企業內部要用AI技術來解決其業務問題、開發新的應用程式,對開發人員也基本是這些要求,只是他們具有更多的業務知識並且技術更熟練而已。


通過與參賽團隊與企業的溝通,改變了我對開發AI技術方案的看法。在我原來的認知中,覺得AI技術方案的開發是一個進入門檻很高的事情,即使不是某個大企業的技術大牛,也得是某個名校的博士。其實,AI開發這件事情,進入門檻並不是那麼高,具備基本的程式設計能力、資料處理分析能力,並能應用機器學習演算法,原則上就可以進行類似的開發。當然,進入門檻不高並不代表誰都可以做,更不代表誰都能做的好。


JUTPUaqdyx8Xnkxl7yeW7ARMVCtd9pyibRuiamiavfTHrmzNhIiavwKdKHcib9rxRf6qLMISvpbnLD3fp0miag9MBr6A

JUTPUaqdyx8Xnkxl7yeW7ARMVCtd9pyibJEIQVQPXQiaS1ArLC8xRMic2j9ic2Gygah9v7h4TklByAGt8WTkyuSSJQ

JUTPUaqdyx8Xnkxl7yeW7ARMVCtd9pyib0qtYbWrWhpurDhFmXxVWAiaajkKX0nyJh91iasQHnKSTwkriax6xdooEg

參賽者分佈情況


根據這次CCF “大資料與計算智慧大賽(Big Data & Computing Intelligence Contest, BDCI)”的參賽情況來看,除了近一半的學生外,還有34%是在職選手,以及12%的自由職業者。在選手採訪中,我也接觸到大量在職技術人員,包括科大訊飛、電信運營商等企業,甚至還有部分來自政府部門的技術人員。值得提出的是,從這次的參賽人員來看,其學歷普遍較高,碩士佔據一半以上,還有5%的博士,另外主要是本科,這類人群是基本具備了AI應用開發的知識和能力要求的。並且從學校來看,大部分參賽者都來自於985和211高校,代表了國內最高素質的參賽者。


另一個有意思的資料是參賽者的專業分佈,根據主辦方提供的資料,大部分的參賽者來自於計算機相關的專業,但是還是有大量的參賽者來自於其他專業,比如材料科學、電氣工程、自動化工程、通訊工程、數學、軟體工程等,甚至還有部分來自於航天工程、測繪與地理、物理學、醫學、人文與社會科學等與電腦科學不太相關的學科。廣泛的專業分佈其實是一個好現象,要解決真實的業務問題,就需要不同專業背景的人才來開闊思路,程式和演算法只是工具,給予其意義的是業務和場景內涵。事實上,其他專業的參賽者同樣具有很強的競爭力,在這次AI競賽者就有諸多非計算機專業的選手獲得了很好的成績。


總體上來看,這類AI競賽的參賽者,是基本具備技術開發的知識和能力儲備的,雖然相比於大企業內的資深技術人員還略顯稚嫩,但其創新能力更強,思路更開闊。從賽事舉辦方的統計情況來看,參賽者年齡主要集中在18~25歲,其次是26~30歲,這是最富有激情與創造意識的年紀,完全有可能在某些方面獲得超越企業內部研發人員的表現。


不是“過家家”,而是真實AI應用場景解決方案


通過這次賽事,我獲得的另一個感受就是,比賽不是“過家家”,大部分的賽題都有真實的業務內涵。多數企業都是帶著問題來的,想借助優秀的方案解決自己的困惑,至少能得到一些解決問題的思路。


以螞蟻金服出的賽題“商場中精確定位使用者所在店鋪”為例,目前手機端的定位主要是GPS,但是GPS定位偏差達到10米以上,並且室內的GPS定位能力不好,目前室內精準的使用者定位還沒有成熟的解決方案。但是,室內精準使用者定位本身是具有很大應用價值的,基於此可以衍生出廣泛的商業應用前景。比如當使用者走入商場的某家餐廳時,手機會自動彈出該餐廳的優惠券;走入商場服裝店時,手機可以自動推薦這家店裡使用者喜歡的衣服;路過商場一家珠寶店時,手機可以自動提示使用者想買的一款鑽戒已經有貨了;離開商場停車場時,手機在使用者的許可下可以自動交停車費總。總之,在正確的時間、正確的地點給使用者最有效的服務,是各大網際網路公司智慧化擴充的新戰場,而室內精準的使用者位置定位則是關鍵。


把視角放大一點看, 應用場景已經成為AI企業商業落地的關鍵。中國軟體網出版的《2018中國AI應用、平臺與生態洞見報告》指出,AI市場已經從技術、資本時代,進入到應用時代,將AI技術與合適的應用場景匹配起來,是各個AI廠商接下來幾年最重要的動作。


JUTPUaqdyx8Xnkxl7yeW7ARMVCtd9pyibEEvZfmb5JwFiay1ZLJHptlAia8pjUSgvAaPU0NcdthNcrRiaNMaD9UYIA

中國AI產業演進路線

中國軟體網

《2018中國AI應用、平臺與生態洞見報告》


應用場景千千萬萬,如何篩選好的演算法模型來提升場景體驗,不僅需要過硬的技術本領,也需要很強的創造意思。“頭腦風暴”是產生創意的重要方式,舉辦一次AI競賽,就是一次大規模的頭腦風暴。相比於企業內部的工程師和業務人員而言,在校學生和或者來自於其他企業、機構的參賽者,更可能跳出原來的思維框架,找到更富有創意的解決方案。


相對於企業獨立研發,AI競賽是一種高價效比的互補方案


依據一定的技術基礎和業務場景需求,企業大多通過獨立組織相關人才與資源,進行技術研發並給出解決方案。AI競賽給企業提供了另一種選擇——將自身的問題、資料打包成賽題,通過競賽來收集大量的解決方案,從中篩選合適的方案和團隊。誠然,很多時候通過競賽得到的答案並不能全部解決企業的業務需求,但收集的解決方案依然是有價值的,至少能給企業提供最終解決問題的思路。那麼,AI競賽作為一種替代方案,對企業而言其價效比如何?在此我們還是以螞蟻金服為例進行分析,要獲得室內精準定位方案,螞蟻金服可以獨立研發,即使採取騰訊的套路,多個團隊分別研發進行競賽,由於人才和資源的限制團隊數量不會超過5個。另一方面,通過這次CCF“大資料與計算智慧大賽(Big Data & Computing Intelligence Contest, BDCI)”,有1545支隊伍為其提供解決方案,這在企業內部是不可想象的。


JUTPUaqdyx8Xnkxl7yeW7ARMVCtd9pyibiabLK9iaQUrWLaYtYkLMicJHH2umPSNicMfYYBiclOCxCK5AZmtPSL1w4yQ

不同賽題的參賽選手和團隊數量


在此,我們將這兩種方式進行更具體的對比。


對比項

自主研發

AI競賽

團隊數量(個)

3~5

1545

人力投入

數十人

3個以內競賽對接人員

時間

不定,一般不少於半年

3個月

其他資源

辦公場地、電腦、伺服器等

幾乎不需要其他投入

資金投入

人員工資和辦公支出,數百萬

百萬級

最終收益

可能獲得較好的解決方案

可能獲得較好的解決方案,思路更開闊,創新性更強,但解決方案的實用價值差一些,需要進一步加工。

除此之外,企業還能獲得亟需的人才,並在業界樹立品牌,擴大影響力。


從上面的對比可以看出,企業獨立研發面臨兩個問題,團隊有限導致思路容易受限制,資金和資源投入相對更大。與之相比,通過AI競賽的方式,企業能以較低時間和資金成本,獲得大量的解決方案。值得提出的是,這兩種方式各有優劣,並且企業內部開發依然具有不可替代性。通過AI競賽獲得解決方案雖然開啟了思路,但離成熟的業務解決方案還是有一定差距,這需要企業內部研發、業務人員進一步的開發與完善。這兩類途徑可以互補,企業依然以內部開發為主,將這類AI競賽作為一個重要的補充,在開闊思路的同時,物色優秀的選手作為招募物件,同時也提升企業的品牌影響力。


JUTPUaqdyx8Xnkxl7yeW7ARMVCtd9pyibV7zo0c6SSKhZynFYj1XAkGssJicQu6Ve5UIKzIf7SWKJJVbYZhbxHrQ

螞蟻金服賽題答辯


據悉,通過這次的AI競賽,螞蟻金服資深技術專家,負責螞蟻金服大資料平臺的機器學習和人工智慧相關工作的劉曉輝從參賽選手中就物色了幾個好苗子,一些選手的賽題思路和實現方法大大超出了預期。


賽題、歷練和友誼,是比獎金更有吸引力的東西


上面從企業角度,分析了AI競賽的價值,下面我將從參賽選手角度,來看看這類競賽的價值。為什麼要參加競賽,這是參賽者關心的問題,也是主辦方需要回答的問題,因為這直接決定了AI競賽對優秀人才的吸引力,而參賽者的質量直接決定了整個競賽的質量。


在一般的認知中,吸引參賽者的因素首先是獎金,其次是進入理想企業的機會。通過與這次BDCI大賽選手的廣泛交流,我對這個問題也有了一些全新的認識。其實,相比於獎金和職業機會,參賽者更關注賽題本身的質量、整個競賽過程給自己的歷練,以及收穫的來自隊友和對手的友誼。


對於AI競賽,不只是企業和賽事舉辦方篩選參賽者,參賽者本身也會對賽事和賽題進行選擇。對於一個AI競賽,參賽者首先關注的就是賽題本身:這個賽題是不是有實際的業務價值,賽題難度如何,與自己的專業、研究領域或者目前工作是否相關,出題的企業背景如何,該賽題給出的資料質量如何等,這些是參賽者最關心的問題。那些網際網路巨頭髮布的本身具有一定業務內涵且富有挑戰、企業能給出大量高質量資料的賽題,往往更能獲得參賽者的親睞。


這裡,我重點分析一下出題方給出的資料對於參賽者的價值。在AI領域,資料與演算法是科學研究與產品技術研發的核心。高質量訓練資料對機器學習模型的建立和優化有關鍵性的作用。大規模、高水準且具有真實場景內涵的標註資料集,是推動AI科研和技術前進的關鍵驅動力。對於有志於投身AI相關領域的人員,這些高質量的資料是珍貴的,尤其是在校學生,很難接觸到這些來自真實商業世界的高質量資料。以語音識別為例,對於學校這類學術單位來說,最大的問題是沒有足夠的資源收集、清洗、標註大量的語料;而對小公司和創業團隊來說,語料和計算力都是問題。


通過參加BDCI這類AI競賽,出題企業會提供大量相關資料,供參賽選手分析使用。以室內商家精準定位賽題為例,螞蟻金服提供在2017年8月份大概100家商場的詳細資料,包括使用者定位行為和商場內店鋪等資料(已脫敏),參賽隊伍可以對其進行資料探勘和必要的機器學習訓練。另外,螞蟻金服還提供2017年9月份的商場內使用者資料來做評測,檢測參賽者的演算法是否能準確的識別出當時使用者所在的店鋪。對於在校學生、科研人員以及其他企業的研發人員而言,這些資料是非常難得的。


在採訪的參賽隊伍中,大部分都是由學生或在職人員獨立參賽、獨立組隊,有一個參賽團隊比較獨特,他們是由一個輔導老師帶領團隊,團隊內部既有研究生也有本科生。其輔導老師認為,參與這類AI競賽並不是對學生學業的耽擱,相反是一個很好的學習機會。他坦言,隊伍中一些低年級學生還不具備獨立參與這類競賽的能力。但是,他認為不是因為有足夠的能力才來參賽,而是通過參賽來快速培養相應的能力。


在此,我分別就學校學習和參加AI競賽這兩種方式對學生的歷練價值做一比較:


比較專案

學校和科研院所

AI競賽

資料資源

資料資源較少,資料陳舊,資料價值低

真實的業務資料,資料質量高,且經過前期的資料處理和清洗,資料標準化程度高

技術歷練

學術化,側重單一技術、演算法模型的掌握

側重應用,且是多種演算法和技術的融合

導向

對過程負責,結果是論文

對結果負責,方案的優劣要經過實踐的檢驗,輸出的是實際的技術解決方案

輔助

個別導師的指導,同學間的討論

多個專家的指導,隊友和其他參賽選手之間的討論與相互借鑑


除了上面說的那些因素外,還有很多參賽者(尤其是優秀參賽者)是抱著征服與體驗的目的來參與比賽的。對於那些長期“混跡”於各類競賽的“老司機”而言,憑藉自身實力,打敗乃至碾壓數量眾多的對手,攻克具有挑戰性的難題,這本身就是很有吸引力的事情。


參加的比賽多了,參賽選手漸漸地也形成了一個圈子,他們很多人都相互了熟識。競賽團隊之間雖然經歷著激烈的角逐,但是“打歸打”感情卻很好。很多團隊在決賽答辯的時候,都表示了對隊友和對手的感謝。一個有趣的現象是,在一個競賽中是對手的幾個人,在另一個比賽中卻有可能組成一個團隊進行親密無間的合作,這次奪得螞蟻金服賽題冠軍的“演員”團隊,就是原來的對手組成的。對於他們而言,能認識一些志同道合的小夥伴就已經是一筆很大的財富,畢竟千金易得知己難求。


無論結果如何,經歷過、奮鬥過,就已經是很好的一段人生體驗了。根據主辦方的統計,在這次提交的43384份結果中,有10841份都是在深夜(22:00~6:00)提交的,這可以看出大家的熱情與付出。


JUTPUaqdyx8Xnkxl7yeW7ARMVCtd9pyibCDrY6Tn0tFnFjwGnA6RA0A1cU25eZ0V4szTcnpgfBm3MG3aEzU26NQ

 

創投孵化,AI競賽的“星辰大海”


我曾在《創投孵化才是大資料競賽平臺最好的歸宿》這篇文章中提到,大資料競賽平臺將會轉向AI競賽平臺,並且創投孵化才是其未來最應該發展的商業模式。參加這次BDCI大賽,進一步印證了我的這一看法。在我的設想中,競賽平臺、企業、參賽團隊、投資機構充分聯動(有時候也需要一定的專家指導),共同孵化在競賽中勝出且有商業前景的專案和團隊。


JUTPUaqdyx8Xnkxl7yeW7ARMVCtd9pyibt9ef9RAn5mzqkv8hHF9qNcw13K8XGfjAXjZ4UR2b36G3NPzUpjcCeA


目前來看,無論對於國外的Kaggle,還是這次AI競賽的承辦方DataFountain,以及阿里天池、DataCastle、科賽網等,創投孵化都是全新的商業模式。並且,目前國內的幾家AI競賽平臺這方面的意識都還不強。DataFountain和阿里天池上面的競賽業務和商業屬性最強,但阿里平臺大多是為了解決阿里的技術、業務和人才問題,本身進行創業專案孵化的意向不足,其他幾家也沒看到這方面的強有力作為。即使DataFountain承辦的這次BDCI大賽,通過與各方的交流,都沒有了解到較強的創業專案孵化的意向。


國內的AI競賽平臺,大多還處於單純的賽事承辦階段,下一步大多想通過發展人才社群來推動培訓和招聘業務,然後才考慮創投孵化,我覺得這三件事情本身是沒有嚴格的階段屬性的,現在就應該發展創投孵化業務,只是要協調各方資源並設計好協作機制。


最近觀察到一個有意思的現象,創新工場與搜狗、今日頭攜手發起了一場AI競賽——“AI Challenger全球AI挑戰賽”。作為一個投資機構發起這類賽事必然是從創投角度出發的,但是創新工廠發起這類賽事並獨立運作後期的創業孵化,還是有些侷限。合理的方式應該是某個獨立的第三方AI競賽平臺發起競賽,聚集多家企業和投資機構,共篩選並投資專案,這樣中立性會更強一些。


以這次BDCI大賽上明略資料釋出的賽題“讓AI當法官”為例,在該賽題中,希望通過AI和大資料技術,系統通過閱讀大量案件,自動提供判決建議。其實,大部分普通人都是有法律需求的,比如租房產生的糾紛、車輛碰撞糾紛、消費者維權糾紛等,在這些場景中聘請專業律師不划算,但依然需要一些法律方面的知識和建議。如果有一個APP,只需向其輸入自身遇到的情況,就能自動分析使用者目前面臨的處境,給出法律建議,並推送一些類似的案例給使用者提供參考,這類應用必然是有市場需求的。明略資料這個賽題如果再衍生一下,就有可能培養出這方面的創業專案和團隊。


更進一步的,傳統網際網路和移動網際網路領域本身已經有成熟的賽道,投資機構只需在所跟蹤的賽道賽選擇專案和團隊就行;與之不同的是,AI領域無論技術還是應用都很新,賽道本身就不夠成熟。在這樣的情況下,由投資機構、企業和專家共同探討得出一些具有潛力的應用領域,專門針對這些領域設計賽題,通過AI競賽的方式獲得好的解決方案和團隊,並通過投資和業務培養的方式來孵化相應的創業專案,進而達到培育賽道的目的。對於投資機構而言,通過這樣的方式可以降低其總體投資成本,並與企業、AI競賽平臺共同分擔風險,後期參與AI賽事的企業也是理想的專案收購方,這有利於投資機構退出機制的安排。


對於參賽者而言,能投身於創新創業事業,是比參加競賽更有價值的事情。畢竟,贏得市場肯定比應贏得一場比賽更令人興奮。


技術與商業的結合,推動AI產業加速發展


一件事情要有較大的發展空間,必然是要推動整個產業的發展的。那麼,AI競賽在推動中國AI產業方面可以有哪些作為呢?


據《烏鎮指數:全球人工智慧發展報告》,在全球人工智慧專利數量方面,中國以15745個緊跟在美國26891個之後位列第二,日本以14604個排名第三,並且這三國佔總體專利的73.85%。另有資料顯示,世界上43%的人工智慧論文都是中國人寫的。根據美國白宮此前釋出的《國家人工智慧研究與發展策略規劃》來看,從2013年到2015年,SCI收錄的論文中,“深度學習”或“深度神經網路”的文章中,按照文章數量計算,中國已經超越美國成為世界第一。正如中國軟體網《2018中國AI應用、平臺與生態洞見報告》指出的那樣,AI市場已經由技術、資本時代進化到應用時代,AI應用的發展成為推動整個產業的關鍵。在這樣的情況下,充分調動我國在AI領域的人才優勢,以AI競賽的方式推動產學研的聯動,對於推動AI應用創新具有重要意義。


基於真實的商業應用場景來組織相關的AI競賽,可以在如基於地理位置的應用、網站和移動分析、精準營銷、VR和AR應用、區塊鏈應用、智慧硬體應用、物聯網應用等廣泛地領域提供支援。以這次BDCI大賽為例,本次大賽蒐集了來自螞蟻金服、360搜尋、國雙科技、明略資料、方一資訊、佳格資料、零點有數、量子數聚、法海風控、泰一指尚等10家企業提供的12道產業一線賽題,涉及影象識別、衛星影像識別、文字挖掘、自然語言處理、情感分析、網路輿情分析、模式識別等大資料與人工智慧技術領域。這類賽事的舉辦,對於推動AI領域的應用創新無疑具有積極的作用。


值得提出的是,國內的AI競賽雖然尚存資料質量不足、賽後專案孵化關注不夠等問題,但是場景非常豐富,一些優勢的平臺正在通過優質的業務服務來補足。我相信隨著賽事承辦方的進一步完善,未來這些問題能夠得到解決。期望國內更多高水準AI競賽的出現,對中國的AI人才培養、創新創業推動和產業進步作出新的貢獻。



 中國軟體網 

專注有深度的

網際網路軟體趨勢分析

 中國軟體網記者 


歐應剛

人工智慧、大資料、雲端計算和AR領域

致力於做一個有態度、有洞見、有策略的產業觀察者

JUTPUaqdyx8Xnkxl7yeW7ARMVCtd9pyiblRIvH8WW8bzWMLAzn4zcOPK5fkJmXGQBRicmtl12lDEibVfxyVS6PHqA

個人微信:微信oyg0001

商務郵箱:oyg@soft6.com

 

 作品概覽 




?


?


掃描二維碼,關注我們吧

相關文章