讓一群腦洞清奇的開發者告訴你，AI+產業的N種可能

naojiti發表於2019-07-07

原文網址 : http://blog.itpub.net/31561483/viewspace-2649774/

一般來看，一場成功的、勝利的AI行業大會，往往是這樣的：主持人大談AI技術是多麼神奇、智慧轉型多麼重要、產業價值多麼龐大。然後一群專家(最好有外國人，配上同聲傳譯)相互討論，取代人類、奇點臨近、智慧時代、技術倫理等等暢談一番，臺下觀眾不明覺厲地送出掌聲，然後各個AI企業上臺，以一波跑分、廣告結束了此次大會。

不知大家發現沒有，在每一個這樣規模龐大、議題恢弘的行業大會中，那些真正信賴AI、運用AI的開發者們，似乎總是面目模糊，只能作為“人肉鼓掌機”出現在圖片一角。

那些秒殺人類的AI究竟是怎麼發明出來的?轉型AI，企業和開發者需要做好哪些準備?AI應用還有哪些新的可能性?

顯而易見，想要真正讓大眾和無數企業、技術人員去了解、信任和觸碰AI，上述問題才是關鍵。

所以，我們在以AI開發者為主角的“百度AI開發者大會”現場，抓住了幾個AI專案的負責人，來嘗試還原一下這波“探路者”的日常，以及他們給AI世界帶來的無數奇思妙想。

讓一群腦洞清奇的開發者告訴你，AI+產業的N種可能

“生物記”，用AI認識萬千生命

AI開發者都是群什麼人?相信大多數人腦海中會立刻閃出一些畫面：在科技公司高大上辦公樓裡遊走的潮酷極客;面前擺放著八塊螢幕的超級宅男;亦或是像鋼鐵俠一樣揮舞幾下就造出個機器人來回跑。

實際上，AI近幾年的快速發展，以及眾多演算法的模組化，已經使得深度學習方法得到了特別廣泛的應用，開發者群體也格外豐富多樣。比如我們遇到的第一位AI開發者，就是來自中國科學院動物研究所的生物學家。

該團隊研發的產品，是一個名為“生物記”的人工智慧平臺，能夠自動識別出影像中的動植物。

讓一群腦洞清奇的開發者告訴你，AI+產業的N種可能

之所以有此創意，源於研究者林聰田的切身工作體會。在他看來，大資料時代，生物多樣性研究的難題主要來自三個方面：

大量的生物資料積累還只能依靠人工來收集和分類，常常需要揹著長焦相機行走在深山野外，小心翼翼地拍攝和分辨野生動植物，再對照資料逐一記錄。工作辛苦不說，效率也難以滿足科研需求;第二個問題是，具備專業知識的分類學專家越來越少，大量生物標本、照片等研究材料的難以得到專業鑑定，影響資料標註的準確性和可靠性，最終會影響研究的結果;另外，公民科學逐步興起，大眾對動植物的興趣卻與日俱增，不僅學生們需要科普教育，大人們也很愛湊熱鬧，遇到稀奇古怪的生物就上社交網路求專家鑑定，還捧紅了“博物君”“水族館男”等不少網紅。通過公民科學產生的大量資料也被應用於科學研究，迫切需要能夠自動識別生物的公共平臺，保證公民科學資料的可用性。

在這種大環境下，一直關注技術進展的林聰田，在2017年開始通過百度大腦開放平臺，將定製化訓練和服務平臺EasyDL，引入到了生態學研究當中。

目前，已經能識別鳥類、蝴蝶等生物類群。尤其是在鳥類識別上，“生物記”的top5準確率可以達到95%以上，能夠識別一千二百多種鳥類。

讓一群腦洞清奇的開發者告訴你，AI+產業的N種可能

專業的研究員們，野外作業時帶上“生物記”，直接拍攝記錄就能夠完成野外觀測工作，不需要再繁瑣地手動記錄各種資訊。而普通的個人愛好者也可以隨時隨地上傳自己拍攝到的神奇物種，獲取相關知識。值得一提的是，“生物記”會給出物種匹配程度，還能直接線上向專業的生物學家求助。

人類認識自然的方式，正在變得“智慧”起來。AI讓生命更美好，或許正是如此。

從2D到3D，人臉識別的還有哪些可能?

提到計算機視覺，可能大部分人最為熟悉高頻的應用，都集中在拍照購物、一鍵搜圖、刷臉支付等領域。這也可以說是受深度學習光環加持最為顯著的AI能力之一。

那麼，已經如此普及的成熟場景中，還能掀出什麼水花嗎?開發者們的創造力並沒有讓我們失望。在大會現場，我們就邂逅了一個來自以色列的AI開發者。

來自以色列的MANTIS VISION，是一家在3D結構光技術上鑽研了14年的科技企業。2018年9月進入中國市場以後，MV的子公司螳螂慧視很快與百度大腦一碰即合，共同開啟了3D視覺的AI演算法研究。

很多朋友可能會好奇，3D視覺對我們有何意義?簡單來說，過去的人臉識別都是在2D基礎上完成的演算法在平面彩色影像上基於生物特徵的提取實現個體的區分，比如提取眉毛高度、嘴角等，再通過特徵對比返回結果。

說實話容易導致兩個問題：一是別人拿你的一張照片或者面具就能輕易騙過演算法，造成安全隱患;二是精準度低，一旦對方整了容，或是突然變胖變瘦了，亦或是系統中的照片受到角度、光線的影響，都會造成對比準確率下降。

讓一群腦洞清奇的開發者告訴你，AI+產業的N種可能

而高精度3D結構光資料的引入，有可能帶來哪些驚喜呢?

首先，資料維度裡增加了位置向量，能夠更精準地識別人臉的立體特徵。因此，在一些光線比較暗，或是安防係數比較高的地方，3D人臉識別的表現將帶來前所未有的驚喜!

另一個可能帶來的變革，大概率將出現在VR/AR領域。眾所周知，這兩大互動技術長期受限於內容生產的匱乏。而3D資料與AI演算法的結合，將直接改變三維內容的生產模式。來自MV的工程師為我們展示了他們的AR動態人像，逼真的畫風和實時互動，在智慧演算法的處理下，只需要不到半個小時就能處理完畢並上線。

毫無疑問，在越來越AI的機場、高鐵、零售等人場景中，3D演算法的出現將會徹底顛覆我們對人臉識別的最初想象。

當語音無法哄騙AI，聲音才能真正展開羽翼

基於語音識別的各種語音助手、商業應用，也在悄然描畫著智慧生活的未來。在去年的百度AI開發者大會中，我們就見到了百度CTO王海峰跟小度“講RAP”的“極限操作”。可以說，聽覺方面的技術突破，這兩年大家夥兒都沒少見。

不過，今年我們看到了AI給語音的另一種賦能：防錄音攻擊。

我們知道，聲音之所以能夠在門禁、銀行、公安等領域中成為判定人身份的重要依據，就在於說話人聲紋的不同。

在車載語音系統中，也可以通過聲紋識別來判定車內不同乘客的身份，提供個性化的服務。萬一別人將你的聲音錄下來播放給汽車聽，豈不是可以“為所欲為”了?聲音的合成處理也能達到以假亂真的效果，比如百度AI客服給大量開發者打電話，很多人一開始壓根沒有發現對面居然是個AI。

顯然，如果不具備防攻擊能力，單純的聲紋識別仍難以打消大家的安全顧慮。不過魔道總是此消彼長，今年，一個能夠讓系統不被錄音/模擬音騙到的應用就向我們展示出了神奇的療效。

讓一群腦洞清奇的開發者告訴你，AI+產業的N種可能

得意音通的技術團隊，在百度深度學習開發平臺飛槳上，開發出一個效能很強悍的防錄音攻擊功能。當使用者說出對應的字元時，系統會自動識別並通過，這沒有什麼稀奇的。神奇之處在於，當使用者錄下通關密令，再給系統播放時，它會立馬判斷出這不是本人親口說的，並直接對通關請求say NO!

據開發人員透露，該技術在國際自動說話人識別欺騙攻擊與防禦對策挑戰賽(ASVspoof 2019)中，獲得了全球第一的成績。在中國建設銀行手機銀行的數億次驗證中，能做到“零事故”和“零投訴”通過。

這個創意聽起來只是一個小小的功能點創新，卻在這個AI狂飆突破的關鍵時期，提醒了我們，讓AI會說話、說好話是不夠的，懂得拒絕的AI挑戰更大，也更值得人類信賴。

從港口到養雞場：AI也可以很硬核

說了這麼多與現實生活息息相關的AI創新，是時候來點“硬菜”了。

其實，企業的生產更離不開視覺技術的輔助。比如攝像頭監控到工業生產流程，如何識別這些特殊場景的內容就成了難題。

舉個例子，港口裝配的攝像頭偶爾才能捕捉到為數不多的幾個人像，在若干遮擋物的干擾下，可能根本無法識別出特殊人員的出現。如果機器不能及時預警，監控員很可能就會忽略掉，所謂的安保也就成了漏洞百出的“篩子”。

再比如，運用計算機視覺演算法來識別火災等災害的特徵，難以“防患於未然”。當攝像頭監測到大量煙霧的時候，很可能災情已經難以控制了。只有在煙霧剛剛似有若無的時候就發現它，AI才有可能真正發揮價值。

大家可能已經發現了，工業場景對AI的要求經常是“巧婦要為無米之炊”。需要在資料匱乏的情況下，起到技術支撐體的作用，成為人類操作員的“最佳輔助”。這可能嗎?

我們與開發者們聊了聊，發現這樣的“送水人”還是真實存在的，米文動力就是其中的一個。

讓一群腦洞清奇的開發者告訴你，AI+產業的N種可能

有過AI開發經驗的朋友會知道，場景定製化的AI功能開發，往往需要有適合自己開發任務的主機板。沒有強健的體魄支撐，再聰慧的大腦也帶不動啊。而米文動力所做的是，就是在“飛槳”等深度學習開發框架上，定向開發出多種離線深度學習演算法，加上英偉達的GPU硬體，打造出適合工業場景的計算平臺。

一方面，針對工業場景中資料稀疏的問題，進行了針對性的演算法開發。比如針對我們前面提到的火焰煙霧的及時識別，米文一方面四處“點火”，主動創造訓練資料;另一方面則通過運動檢測來增強資料，把深度學習無法正常工作的場景中的資料進行擴容，從而讓系統能夠進一步分析和訓練演算法。

讓一群腦洞清奇的開發者告訴你，AI+產業的N種可能

另外，結合工業場景資料採集難、終端實時計算的特殊需求，打造了邊緣計算+雲端的計算平臺。像是在輪船、吊車等一系列大型工業設施上，米文對硬體部分做了針對性調整，讓視覺終端可以在高溫高溼有震感的環境下長時間工作;軟體部分則藉助GPU的強大算力，遠端完成模型更新與資料獲取，降低了工作人員到現場取資料的頻率。

這一系列工作的最終目的，都是讓AI能夠真正變成人類操作員的“眼睛”，從高強度、高風險作業中解放出來。

看到這裡，是不是很驚歎於開發者們的創造力?普通人眼裡一樣的“AI”倆字(母)，在他們手中卻能變幻出這麼多奇思妙想。

除了上述幾個代表型創新，我們在百度AI開發者大會現場，還看到了幫助京東方植物工廠育苗的AI，浦發銀行的首位AI員工，以及幫助基層醫生看CT的AI……

在這些創造力的迸發背後，或許可以探討這樣一個問題：過去，我們總覺得AI距離普通人很遠，那些真實可用療效好的AI，到底去哪兒領?

也許最核心的關鍵詞應該是——AI開發者。

他們帶給AI的並不僅僅是一兩個爆款應用，隨著AI的持續深化，開始指向更為複雜精細的行業需求，能夠連線原始產業與AI能力的角色，唯有這些胸有丘壑的開發者才能觸達。

AI開發的難與不難

浮在實驗室與測試資料中的AI技術急於走向臺前，國家和產業對實用化AI的需求同樣也十分迫切。你是不是也蠢蠢欲動，想要在AI江湖中一展身手?別急，我們也在現場幫大家向上面的優秀“課代表”們取了取經——想要打造一個致用型AI，需要具備哪些前提?

1.放棄將AI“神化”的幻想。

用開發者的話來說，AI開發真正注意的東西，都是跟AI開發無關的一些東西。比如一個基本的常識，AI技術只是一個個螺絲刀、老虎鉗這樣的工具，最後如何解決問題，應該用這個老虎鉗還是一個螺絲刀就能搞定，這種對產業問題的基礎判斷能力，找到AI技術適用的場景和方式，才是開發者應該具備的特質。

讓一群腦洞清奇的開發者告訴你，AI+產業的N種可能

2.有多少人工，就有多少智慧。

找對了工具(演算法)，也不意味著能夠立竿見影地解決問題。“有多少人工，就有多少智慧”，看似是一句笑談，也是AI世界裡的樸素真理。

採訪中，就有兩個細節特別打動我。

MV的開發者分享了一個自己的親身經歷，高精度3D結構光的資料量相比2D是幾何倍數的增加，即使做了成像壓縮，一塊1T的硬碟也可能裝不了兩個人的人臉資料。為了保證演算法訓練的資料量，往往是在豐臺的辦公室採集完了之後，由開發者自己拿一個啤酒架一樣的架子，裝滿硬碟給百度大腦的技術人員送過去，常常需要往返數十趟。就是在這樣的人力工作之下，才誕生了3D人臉識別演算法的雛形。

米文未來的延誤識別演算法，也是在這樣不辭辛苦的人工干預下完成的。在不同光線、時間、背景，室內、室外等各種環境條件下，米文的開發者大概花費了幾百個小時“點燈放火”，才積累到了幾十萬張資料，完成了演算法的訓練。

讓一群腦洞清奇的開發者告訴你，AI+產業的N種可能

所以說，AI開發中要面對的真實問題往往比預期和實驗室中複雜很多，運用一切辦法、動用一切力量去解決問題，這是一條不好走的路，但這才是一個AI開發者的自我修養。

3.不輕技術，更不輕應用。

在AI狂飆突進的過程中，很多開發者把AI演算法本身看的很重，日常沉迷跑分與論文。這樣做低估了AI產業化的難度，也低估了產業端的價值。很多時候，技術在真實的產業場景裡可能會缺位。比如生物識別、火焰識別等等，這可能是科學家們一般不會思考的問題，卻是切實存在、富有價值的產業需求。

在採訪中，來自中科院的王聰田這樣理解自己的定位——應用的人如果掉進技術的坑裡，可能就跑不出來了，可以利用百度EsayDL這種人家已經訓練好的簡單易用的模型，不要深挖技術上的東西。

同樣想法的還有很多，例如視派爾科技，作為數字影像處理的技術方案服務商，視派爾的開發者也強調，自己的重點在打磨體驗和場景，做好AI所需要的前端影像處理外，還要做更貼合市場的定製化服務，至於平臺化的SDK等軟體層就就依靠百度這樣的合作伙伴。在和百度大腦的合作過程中們也體會到和看到了這一商業模式的潛力。

畢竟，深入應用場景的產品及深度定製化的創新要比重新造輪子緊迫得多，產業化才是讓AI普惠更快被大眾感知和享有的關鍵。

讓一群腦洞清奇的開發者告訴你，AI+產業的N種可能

總而言之，對AI“致用”的合理認知，才是一切想象力與奇妙故事的起點。

結束語

賦予智慧手機價值的，是靠無數移動開發者的奇思妙想所支撐起來的應用生態。但到了AI時代，我們總在強調AI“三劍客”——算力、資料、演算法。這三大門檻，似乎一直束縛著開發者的思想，無法撬動AI真實的產業價值。

可喜的是，我們逐漸看到，算力在變得廉價、資料資源日漸充沛，演算法能力正在被百度等以簡單易用的形式“擺渡”給開發者。

那麼下個階段，AI還能拼什麼?答案或許是，開發者的想象力。

當AI開發者們能夠從現實中汲取靈感，知道並且擁有工具去實現它們的時候，技術的寶庫或許才會真正開啟。也唯有如此，AI才不會變成另一個“吹泡泡”遊戲。

我們也無比期待著生機盎然的“萬眾創新”那一天早日到來。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31561483/viewspace-2649774/，如需轉載，請註明出處，否則將追究法律責任。

N天后，讓掘金開發者大會帶你探索微信小程式的無限可能！
2018-09-11
微信小程式
雙開《GTA》和《模擬市長》：騰訊玩自動駕駛的清奇腦洞
2019-05-23
自動駕駛
悄悄告訴Facebook產品的開發流程
2019-05-11
如何讓遊戲開發者傾聽自己的訴求？
2020-02-28
遊戲開發
碼教授告訴你專家系統的產生與發展
2018-08-27
讓機器學習告訴你，你的siri在想什麼！
2018-05-10
機器學習
探索遊戲N種可能不可錯過的盛會丨2021N.Game網易遊戲開發者峰會開啟報名
2021-04-20
GAM遊戲開發
7 天后，讓掘金開發者大會帶你探索微信小程式的無限可能！
2019-03-02
微信小程式
NLP（十五）讓模型來告訴你文字中的時間
2019-08-13
模型
腦洞大開！你來DIY自己的專屬VR裝置
2018-03-02
VR
2021年國慶你的朋友去哪浪了？讓Python告訴你！
2021-10-06
Python
《胡鬧廚房》的開發者告訴你，在遊戲行業怎樣當一名好廚師
2021-04-01
遊戲行業
“盤古”走向產業山巒，開啟了一串AI落地的新腦洞
2021-09-17
產業AI
掛機遊戲的7種流派：讓玩家偷懶，讓開發者發財！
2019-06-20
遊戲
誰告訴你 Flutter 會幹掉原生開發？
2020-01-13
Flutter
李開復告訴你：演算法的力量
2018-08-23
演算法
碼教授告訴你人工智慧的就業前景
2018-08-20
人工智慧就業
圓周率π的計算曆程及各種腦洞大開的估計方法
2018-10-18
程式設計師單身比例有多高？【2019開發者圖鑑】告訴你
2019-02-04
程式設計師
十名遊戲開發者告訴你什麼是「手繪遊戲」
2021-05-10
遊戲開發
用半勵志的方式告訴你，怎麼學習Python開發
2019-02-03
Python
怎樣讓你的YouTube影片更吸引人——Movavi Video Editor for Mac告訴你
2020-09-28
IDEMac
從網際網路到“產業網際網路”，房多多改造房產經紀N種可能
2018-11-20
產業
企業移動化訴求與開發者之間的矛盾
2018-11-08
開個腦洞，帶你寫一個自己的極狐GitLab CI Runner
2022-12-29
Gitlab
9項大資料告訴你，上海遊戲產業強在哪
2021-06-22
大資料遊戲產業
腦洞清奇AI君，給小貓咪們起了8000多個無厘頭名字丨Colab De
2021-09-09
AI
單頁應用SPA做SEO的一種清奇的方案
2019-01-19
React開發者必備的技能清單
2019-01-23
React
一文告訴你全世界最頂級的開發者都在使用什麼資料庫
2022-12-05
資料庫
耗子尾汁，這七種方式可能讓你成為勒索軟體受害者！
2020-11-30
10年網際網路開發者告訴你自學 Java 怎麼入門？
2021-01-25
Java
程式猿，讓我來告訴你怎麼追女生！！！
2018-12-16
碼教授告訴你人工智慧未來的發展
2018-08-20
人工智慧
CODING 告訴你矽谷的研發專案管理之道（4）
2019-05-16
專案管理
CODING 告訴你矽谷的研發專案管理之道（3）
2019-05-16
專案管理
開發可能會用到的三種快取key
2021-05-14
快取
強化學習的框架化，會引爆AI開發的新腦洞嗎？
2019-01-28
強化學習框架AI

讓一群腦洞清奇的開發者告訴你，AI+產業的N種可能

相關文章