記者 | 周翔
8 月 14 日,創新工場、搜狗和今日頭條聯合宣佈共同發起“AI Challenger 全球 AI 挑戰賽”。其中,CSDN 作為選手社群,為大賽提供支援。(更多賽事資訊請檢視AI科技大本營之前的文章《獎金200萬,千萬資料規模,創新工場搜狗今日頭條聯合發起迄今國內最大AI挑戰賽》)
除了獎金之外,參賽選手還有機會進入三家主辦方工作、實習或獲得投資,並有機會在國際頂級學術會議上分享獲獎心得,還將獲得包括上海科技大學教授馬毅、曠視科技首席科學家孫劍、前 Google 研究院高階管理科學家林德康等十餘位國內外人工智慧領域頂級專家評委的指導和評價。
另外,大賽主辦方表示,將努力為條件有限的參賽選手提供免費 GPU 資源的支援,幫助他們圓夢AI,選手可在各賽道相關資料集下載的頁面進行申請。
賽程安排
10月31日23:59:59,大賽報名截止。
據AI科技大本營瞭解,AI Challenger 的首個實驗賽道,是虛擬股票趨勢預測,通過對大規模歷史資料建模,預測虛擬股票未來趨勢,這個實驗賽道適合有大資料背景、深度學習的初中級人士參與。
發起這個實驗賽道的創新工場表示,金融市場是由大資料驅動的行業,也是最快速被AI衝擊的行業之一。金融及相關資料可以說是目前最容易獲得、最海量公開、也是非常適合用於機器學習的資料來源。
對股票價格趨勢的預測是金融領域極為複雜和極為關鍵的問題。有效市場假說認為股票價格趨勢不可能被預測,然而真實市場由於各種因素的存在並不完全有效,這對於股票市場而言相當於一種“錯誤”。AI Challenger的虛擬股票趨勢預測實驗賽道,為參賽者提供了大規模的股票歷史資料,從而可以通過集合大家的智慧來糾正股票市場的這些“錯誤”。
本競賽資料來源主要以股票及新聞資料為主。競賽每週一輪。選手通過訓練模型,對虛擬股票走勢進行預測。每輪結束時統計該輪隊伍排名。最終累計每週積分決出最終的大獎。冠軍將獲得5萬元人民幣的獎勵。同時,每週都會對該輪排名前三的隊伍頒發獎金。該實驗賽道由創新工場單獨發起、管理和運營,獎勵由創新工場提供。
參賽選手
來自高校的包括中國清華大學、北京大學、中科院、上海交通大學、復旦大學、中科大、香港科技大學、香港中文大學、臺灣大學,美國康奈爾大學、佐治亞理工、紐約大學、英國劍橋大學、帝國理工學院,德國卡爾斯魯厄大學,法國國立路橋學校,澳洲臥龍崗大學以及日本早稻田大學。
來自公司機構的包括百度、螞蟻金服、小米、搜狐、奇虎360、眾安保險、平安科技、同花順、陌陌、迅雷、中興通訊、中國移動、中國電信、格靈深瞳、馭勢科技、摩拜,微軟、通用電氣、英特爾、eBay、Micron、法國巴黎銀行,還有神祕的公安部院所。
參賽者中也不乏曾經在各種大賽上叱吒風雲的牛人,比如天池阿里移動推薦演算法大賽冠軍、滴滴DI-tech演算法大賽冠軍、ImageNet 目標分類任務和定位任務雙料冠軍、中興演算法精英挑戰賽冠軍,IBM-滴滴程式設計馬拉松大賽冠軍,以及 Kaggle 大賽的眾多優勝者。
開放資料集
1. 人體骨骼關鍵點資料集:此資料集是目前規模最大,場景、人物動作及身體遮擋情況最複雜的資料集。它使用含有人物的圖片,對人體14個骨骼關鍵點分別作出標註,共有30萬張圖片,包含了超過100種複雜生活場景內的實際人物動作與姿態,標註人物個數達到70萬量級,遠超過MSCOCO的10萬人、以及MPII的4萬人量級。該資料集將挑戰現有主流演算法的魯棒性。
基於此資料集的研究成果可以被直接應用於動作分類和識別,動作捕捉,影象和視訊內容理解,人機互動,自動駕駛(行人動作和意圖識別),安防(異常行為檢測),無人零售(消費者行為理解)等領域。
2. 影象中文描述資料集:此資料集是目前規模最大、場景和語言使用最豐富的圖片中文描述資料集,共有30萬張圖片,150萬句中文描述,使用了超過100種複雜生活場景的含有人物的圖片,而且此資料集的語言描述標註更符合中文語言使用習慣。相對於MSCOCO和Flickr8k-CN,在完整描述圖片主體事件的基礎之上,該資料集創新性的引入了形容詞和中文成語,用以修飾圖片中的主要人物及背景事件,大大提升了描述語句的豐富度。本資料集的標註量遠大於Flickr8k-CN(8000張圖),巨大的資料量和複雜的圖片場景將直接挑戰現有演算法的可用性。
基於此資料集的研究成果可以被直接應用於影象與視訊語義理解、影象與視訊自動標註、影象與視訊內容檢索、人工智慧輔助教育、機器人視覺、盲人輔助等人工智慧相關領域。
3. 英中翻譯資料集:此資料集的訓練資料量達到1000萬句對,每一條資料由一句英文和對照的中文構成,是最大規模的口語領域英中比賽資料集。訓練資料全部經過譯員檢查和矯正,句正確率在97%以上,英中雙語句對對照工整、質量高、噪音低。
基於此資料集的研究成果可以被直接應用於機器翻譯,尤其是口語機器翻譯、同聲傳譯應用。