AICreateMeeting-遇見未來

折騰範兒_味精發表於2017-07-08

原文網址 : https://juejin.im/post/5960c17951882568ad25652b

宣告：

作為度廠民工，也是一名開發者，還是帶著很激動的心情參加完了整整一天的大會，覺得這篇文章是軟文，扯淡，吹牛逼的可以點關閉了

非AI專業開發者，只是應用層的開發者，對裡面很多AI的技術可能解讀的有誤區，但從應用層的開發者角度來講，這些我們接觸不到難以理解的深層技術，以開放的形式提供給應用層廣大開發者，將會給我們打來巨大的機會和挑戰，非常非常期待

PS:這其實是一片流水賬

現場體驗區

大會10點開始，因為會場有很多現場體驗區，有很多智慧裝置和技術的現場講解，因此早上8：30就開放檢票入場，一層大廳除了檢票入口，最吸引人的當屬無人車停放區了，整個區域大概有7-8量無人車，分別來自不同的汽車廠商，有專門的資料介紹各大廠商的合作進展，無人車可以進入車內參觀，但不能發動試駕╮(╯_╰)╭。排隊的人太多，我只是在外面匆匆瞄了一眼，就離開去別的展區了，印象最深的就是車裡好大一塊電子螢幕。

從照片裡那個電梯上了三樓就看到了小度機器人，眼前的這個小度機器人的喚醒方式還是通過麥克風上面的按鍵，說話前按下麥克風的按鍵來交流，現場開放給所有訪客可以自由的跟小度FreeStyle對話，有一種程式設計師祖師爺定義的圖靈測試即視感，每個人都可以當場和小度機器人正常的自然聊天，看看小度通過沒。

我前面一些人問今天天氣咋樣？別的城市天氣咋樣，你是男的女的？，你喜歡吃啥？之類的話，我接到麥克風張嘴問給爺笑一個，小度第一次聽成了香港，balabala介紹了一堆香港這個城市，放慢點速度又說了一遍，然後機器人沒說話，放比較歡快的音樂，眼睛的螢幕一會出現桃心，一會出現眯眼，我估計這就是笑的表情吧？我在那裡停留了大概10分鐘左右，先後幾個人和小度對話，雖然沒有涉及太複雜的溝通，小度的識別率和答案還算湊合，還是有bad case的，但也不多。

預告：

這裡面有一些關鍵的技術詞，會在後面的體驗和大會論壇上多次提及

Unit 自然語言處理NLP下的多輪語音上下文交流技術

喚醒詞技術語音識別，自然對話的喚醒詞技術

在經過一個轉角又上了一層樓，就來到了最集中的現場體驗區，主要有2塊

DuerOS 喚醒萬物為主題的，生活智慧家居，智慧裝置體驗區
AI 開放平臺為主題的，開放技術，開放API，講解展示區

DuerOS 喚醒萬物體驗區

DuerOS是一套涵蓋了專屬的硬體晶片，專門的軟體系統，可以讓任何搭載DuerOS的硬體裝置實現語音對話，智慧控制的的一整套軟硬體體系，我理解喚醒萬物這個詞的意思就是，你可以用對話的方式和任何硬體裝置進行交流，不在依賴遙控器，皮膚，按鈕，開關。

這麼大一個冰箱還是挺顯眼的，海爾的冰箱，搭載了DuerOS系統

語控冰箱系統功能：如語音控制冰箱溫度、食材管理、菜譜查詢等
語音搜尋：通過語音互動實現音樂、視訊、相聲、日常各類資訊搜尋，並理解記憶使用者指令，實現一次搜尋過程的多輪互動
語控生活管理功能：通過語音互動實現如天氣查詢、預約提醒、網上購物等

冰箱旁邊有有個大電視，因為現在電視已經挺智慧了，各種軟體又多又全，遊戲，購物，看電視，啥都能幹沒什麼稀奇的，所以這個展區最大的吸引力還是，喚醒萬物的語音控制，扔掉遙控器，用自然地方式，控制智慧電視裡強大的能力，這電視好像是和TCL合作的

在電視牆的背後不太被人關注的角落，放著這麼五個盒子，這五個盒子就厲害了，這就是DuerOS晶片開發套件，後面還會多次提及這個開發者套件，用這個套件，你就可以將語音控制的能力/語音對話/語音助手的能力，Diy進入自己的裝置裡面了，廣告宣傳語是，你可以Diy一個專屬於自己的大白，而且這還不只是宣傳，停留在嘴炮上的ppt宣講，真正主會場的時候，真的就迎來了驚喜，先賣個關子。

這個會場還有2個DuerOS已經投入生產投入市場，有合作方已經制作出產品的很優秀的落地的例子，我沒拍照片，但後面的大會上多次提及

智慧音響，搭載DuerOS的從而可以進行語音對話，實現語音助手的音響
手機語音助手，和HTC合作，已經在HTC一款手機上搭載了DuerOS語音對話，語音助手的能力，並且內部運用了Unit這項多輪語義對話分析的NLP技術

有一點感受是，DuerOS打出來的宣傳概念，每一項都已經有具體的落地，並且有具體的合作廠商已經投入生產和市場了，而且合作廠商很多不止一家，個人感覺這個還是挺乾貨的，不是在炒概念，這段是不是有點像廣告軟文╮(╯_╰)╭

AI開放平臺展示區

這裡就是開發者最關注的，各種開放API的展示區了，港真，還真是挺帶感的！技術涵蓋

語音合成/語音識別
SLAM/真實空間，計算機模擬/機器人視覺
裸眼3D
AR開放平臺
知識圖譜開放平臺
Unit多輪對話/自然語言處理
開放雲

語音合成/語音識別

語音合成和語音識別這個來自IDL語音組的開放API，都可以申請開通使用

語音合成主要用在聽書，播報文字，會場上的展示手機上就安裝著我們的百度閱讀App，在年初百度閱讀的釋出會上就展示過這樣技術，並非是像喜馬拉雅那樣純人工錄音，也並非是像高德導航那樣純人工錄音然後組合，而是通過錄音採集特定人的聲紋樣本，然後擬合出任意的對話，case就是韓喬生版真人音色的聲音合成，聽著還真的挺有韓喬生的味道！有一段宣傳視訊，目的是讓在異鄉打工的家長，能夠定製自己的獨特聲紋語音，然後讓孩子在家鄉聽到媽媽的聲音講故事，還是挺感人的。

語音識別主要用在語音輸入場景，語音錄入各種聲音，我們的百度文庫App其實也接入了語音錄入文件資料，當時開發接入的時候，嘗試用音樂/廣播/普通話/四川話/陝西話，整體識別效果在我們App當初接入的時候就感覺已經非常不錯了，識別率還是相當準的，並且還能識別語氣從而產生標點符號，問號，逗號，歎號。而這次大會語音組又開放了更多語音識別方面的黑科技，進場耳語識別，遠場識別等。

SLAM/機器人視覺

SLAM (simultaneous localization and mapping),也稱為CML (Concurrent Mapping and Localization), 即時定位與地圖構建，或併發建圖與定位。 SLAM最早由Smith、Self和Cheeseman於1988年提出。由於其重要的理論與應用價值，被很多學者認為是實現真正全自主移動機器人的關鍵。

簡單的說就是將攝像頭拍攝出來的畫面，通過AI進行分析和識別，識別出其中的物體，以及所佔的空間位置，識別出空間區域，在計算機的資料中對真實空間區域進行3D建模，從而能讓機器知道，攝像頭中的這個畫面，哪裡是障礙物，哪裡是可通行區域，障礙物都是一些什麼東西，整個空間的全方位真實資訊，會重新在機器人的虛擬資料中重新3D完全還原。

與這塊的工作人員聊天，工作人員說目前這塊主要運用在機器人或者AR上，圖中就是一個人拿著採集器在超市裡走來走去，然後建模成整個超時的3D場景的示例。但除了AR這塊也可以運用在無人駕駛上，但現在百度的無人駕駛Apollo系統用的還是鐳射探測，硬體成本還是有不小的。

SLAM也是AR種最重要的一環，AR不僅僅是在手機APP的攝像頭中扔一個3D遊戲，AR需要識別現實空間中的區域和物體屬性，從而進行匹配的3D互動，因此有SLAM能力的AR才是真·AR

說道SLAM，不得不提微軟

微軟的kinect體感技術就是利用攝像頭拍攝，從攝像頭中提取出空間物體/人的資訊，從而實現的遊戲互動，殺手級應用算是水果忍者體感/運動會體感，人只需要站在攝像頭前，揮舞雙臂切切切，就能精準的切到螢幕上的水果，這背後就是SLAM技術
微軟的hololens AR技術，背後也是依託於對整個真實空間的攝像頭採集，通過強大的AI，重新在電腦裡重建3D模型，然後在3D模型上開發有趣的AR遊戲，並且hololens有自己的眼鏡式頭盔，藉助這個頭盔，使用者可以身臨其境的在現實生活中玩AR遊戲

視訊截圖

視訊連結：使用hololens在現實生活中玩超級瑪麗

裸眼3D

這個螢幕其實展示的就是裸眼3D，照片拍不出來，但現場親臨的感覺3D效果還是有的，能感覺出來，但也並不是特別真，有一點點晃眼

AR開放平臺

這是一個AR宣傳片的截圖，現場是可以用手機百度掃Marker來體驗的，但由於排的人特別多，我也沒使勁往裡面擠，高考期間我們事業部和AR部門合作做的高考校驗專案，磁感線右手定則也在現場可體驗的內容裡，還有手機掃變形金剛大黃蜂的遊戲

貼個當初高考活動時候的圖吧~

下午的開放平臺分論壇會專門介紹AR

知識圖譜開放API

廠裡的搜尋用到的知識圖譜，現在初步框架也在本次開放的API之內，不過目前開放的不是已經構建好的那部分泛生活類知識圖譜，而是開放一套搭建自有知識圖譜的開放工具，以及資料協議準則，是一套構建圖譜的schema，以及錄入schema製作自己圖譜資料的工具，以及根據已有圖譜資料，從任意文章中抽取圖譜相關資訊的抽取工具。

簡單的說目前開放的是一套，搭建自己專屬圖譜資料的協議設計+開發工具，開發者可以使用這套工具，自建自己的知識圖譜，知識圖譜的資料儲存在自己的手裡。

所以，知識圖譜開放的API，並不是直接將百度搜尋現在使用的那套圖譜資料以API的方式提供，而是提供的可以讓開發者自建自有知識圖譜的工具。尤其是垂類領域，金融/教育，可以根據這個工具，去運用自己掌握的內容搭建自有圖譜，廠裡現在的搜尋用的那套圖譜，偏生活，偏廣泛，在細分垂淚領域，和工作人員交流，效果並不是很好。

Unit多輪對話

前面提到的小度機器人/HTC手機/DuerOS內部，都有Unit這個強大的自然語言處理系統的工具，他最大的特點能夠識別上下文多條對話之間的關聯，之間的指代關係，之間的先後順序和邏輯，這和傳統的只侷限在一問一答的語音助手領先很多很多。

Unit在主論壇/開放平臺分論壇的大會演講上也有多次提及

開放雲

這塊我沒咋細看細聽解說╮(╯_╰)╭

主大會正式開始

主大會相信各大媒體，以及各方乾貨總結文章都報導了不少，可以看看這個網頁

沒去百度Create2017現場？最乾貨PPT已經流出

QI的演講非常的有激情，非常的有感染力，尤其是一些具體的成果展示，經常激起在場的一陣陣高潮，上午的主大會主要講了3個東西

介紹DuerOS，開放出來的喚醒萬物技術
介紹Apollo，開放出來的自動駕駛技術
介紹AI開放生態
- 百度大腦，把AI技術開放給全體開發者的AI開放平臺
- 智慧雲，ABC - Ai Bigdata Cloud

我相信大家都看了很多官方資料，看了很多官方提煉的乾貨資訊，但有些現場的展示環節，真刀真槍的現場實幹寫程式碼環節，還是非常厲害的，乾貨提煉裡不見得有，我這邊就多囉嗦囉嗦

DuerOS喚醒萬物系統

DuerOS前文提到過，是專為各種智慧硬體裝置提供的一站式開發套件，讓任意裝置具備巨有語音互動/自然語言處理能力，涵蓋軟體系統，硬體晶片的全方位開發者套件。從上文的ppt裡也能看到，DuerOS已經對接了幾十家合作伙伴了，都有具體的硬體產品落地了，就像我上面說的，有這麼多落地產品，這麼多幹貨，還是很令人驚訝的。

HTC手機搭載的DuerOS度祕 -- 強大的Unit

一個視訊展示了現在就已經搭載在HTC某款手機上的語音助手，全程語音與度祕交談（記得大概劇情，記得不是很清楚了）

問：北京比較好吃的某菜參觀都哪裡有？
答：（展示出了3加餐館介紹，其中有一家在雍和宮）
問：雍和宮那家好停車麼？
答：附近有N家停車場，距離最近的xxx
問：幫我訂一下他們家晚上6點的餐

上下文對話中對於各種不同句子之間的指代識別的很精準。

DuerOS晶片開發套件，意外的開發者，意外的合作商

現場展示了一封百度收到的一封嵌入式工程師發來的郵件(忘了叫啥了)，是一個小故事

開發者有個小侄子很喜歡樂高，並且希望能有一個會說話的樂高玩具陪著他，開發者答應了小侄子的請求

這個開發者看到了DuerOS的早期宣傳，發來一封郵件，希望能參與內測，用DuerOS晶片給小侄子的樂高玩具做成可以聊天對話的機器人，他不希望小侄子失望

DuerOS的工程師們，將一個晶片套件以及相關開發文件郵寄給了他

這個開發者成功的將小侄子的樂高玩具，加以改造，變成了能聊天講笑話的玩具機器人

故事的主人公和小侄子都來到了現場，同時來到現場的還有樂高的高層，作為DuerOS的合作伙伴，樂高會和百度一起在這個領域探索出新的世界。

會場DuerOS的經理主講人，還現場從兜裡掏出了四個晶片詳細介紹了這個開放給開發者的DuerOS開發者解決套件，就是前邊我在展區拍到過的那幾個晶片

Talk Is Cheap Show Me Your Code

QI在現場介紹，百度將在美國成立人工智慧部門，並且收購被Amazon Alexer點評的國外最優秀的AI創業公司之一 KITT.AI，創始人陳果果，他曾在Google實習，參與制作了“OK Google”熱詞檢測雛形，在語音喚醒詞上，有著非常龐大和豐富的積累。

KITT.AI公司新聞資料

陳果果還現場演示了一段喚醒詞訓練，通過簡單的重複語聊錄製，現場控制將一臺筆記本生命名為景鯤（主講人），可以名字呼喚控制這檯筆記本。

不止如此，現場的DuerOS工程師，還將一款在國外售賣的搭載Amazon Alexa系統的智慧硬體（好像是個音響，記不得了），現場程式設計，用很快很少很簡潔的程式碼，當場將音響接入了DuerOS。

雖然說這些現場訓練模型，現場編寫程式碼都肯定是預先排練過很多次的，但程式設計師有句俗話Talk Is Cheap Show Me Your Code，這一點還是很令人興奮的

Apollo自動駕駛開放平臺

AI大會就不得不提自動駕駛，11點左右的時候，廠長Robin坐在自動駕駛車的副坐，從五環發來賀電。廠長在五環遠端連線的視訊（然後五環堵車堵的12點還沒到國家會議中心╮(╯_╰)╭，後來還有啥交管部門接入調查的新聞,各種討論技術倒逼法律前進等，深刻感覺這次pr的效果有點意思）

Apollo是一個開放給開發者的自動駕駛開放平臺，不止是百度與合作汽車廠商，任何開發者都可以藉助apollo的能力，從0到1，擁有自己的智慧汽車。（有點做廣告嫌疑╮(╯_╰)╭）

Apollo會逐漸開放以下能力給所有開發者。

封閉場地迴圈自動駕駛
固定車道自動駕駛
簡單城市道路自動駕駛
特定區域/高速/城市道路自動駕駛
高速/城市自動駕駛

這裡不得不說一個插曲，Robin在12點多的時候終於從五環趕到了現場，整個過程中Robin乘坐了2輛自動駕駛汽車，一輛是視訊中的那輛，快到現場Robin又換了一輛黑色的車，經過後來Robin到場後的解說，這兩黑色的自動駕駛汽車，來自一位美國的小哥，用3天時間，將一輛車打造成Apollo自動駕駛汽車，Robin就是坐著這輛車來到了會場，並且這位小哥也來到了現場。

Apollo就是這樣開放給所有開發者的，並且現在有幾十家合作方已經投入生產。

AI開放生態

DuerOS和Apollo之後，QI重點介紹了百度的AI開放生態，將會全面開放百度大腦的全方位能力，打造AI開放平臺，深度學習平臺，並且與NVIDIA和Intel深度合作，並且建立Apollo基金，DuerOS基金，扶植開發者，建立AIStar計劃賦值開發者。

身為開發者當然會關注與具體開放了哪些內容。很多內容都在上面發的ppt裡面，這裡就簡單羅列一下

開放60項核心AI能力

百度大腦
- 平臺層
  - AI開放平臺
- 認知層
  - 自然語言處理
  - 知識圖譜
  - 使用者畫像
- 感知層
  - 語音
  - 影像
  - 視訊
  - AR/VR
- 演算法層
  - 機器學習平臺
  - 深度學習平臺
智慧雲
- 大資料
  - 大資料分析
  - 資料標註
  - 資料採集
- 雲
  - 計算服務 CPU/GPU/FPGA
  - 儲存服務
  - 網路服務

下午專門有一個分會場，會進一步討論AI技術與開放平臺，我下午就參加的這一場

廠長講話

廠長終於在上午會場的尾聲趕來了現場，用了一個在場所有開發者，所有程式設計師都非常熟悉的一個梗來開場，造輪子，會場很多人看到這個圖的時候都會心的笑了。

今天的大會是給開發者的，所以Robin說：開發者是推動進步的偉大力量，天下開發者是一家，分享與合作是這個時代的聚寶盆

廠長講笑話：

在收購KITT.AI的時候，層和投資部門聊天，投資部門問，如果競爭對手想出高價收購咋辦，Robin說，我們的競爭對手從不收購純技術公司，只收購成熟產品形態，變現產品形態

AI開放平臺分會場

上午的大會就結束了，短暫的休息後，下午將會同時開啟很多分會場

AI技術與開放平臺
對話式人工智慧
智慧駕駛
智慧雲端計算
Web生態
資料中心

我參加的AI技術與開放平臺專場，深入的講了很多上文提到的 開放60項核心AI能力

這個分會場就是專為開發者量身定做了，全程都在講解相關AI技術現在優勢，開放的程度，每一個都配備了比較豐富的業務應用場景，開放平臺交到開發者手裡，剩下的就是比拼創造力的時候了，這個會場主要講了

語音識別開放平臺

近場輕音識別/喚醒

現場展示了工作人員，小聲輕聲說話，還有唱歌歌詞識別，近場指嘴對著麥克風說話

遠場語音識別
- 近場訓練資料適配
- 麥克風陣列適配
- 中國家庭適配
開放遠場喚醒
- 海量喚醒詞資料
- 喚醒/誤喚醒打磨
- 廠商定製
- 使用者可配置

遠場識別是現在語音識別技術裡很有挑戰的領域，而在DuerOS的各大智慧家電使用場景中，所有的對話，都不是直接對著麥克風的，而是在房間中空間中直接發聲，這類識別技術，現場展示的視訊中，已經實現了10米以上的遠場聲音識別，並且適配了中國家庭，戶型偏小，狹窄的特點

開放定製化語音合成
- 開放真人音色擬合
- 開放定製化合成方案

一方面就是前文提到的，在聲音合成方面，追求極致的自然音色，通過對真人/明星的聲紋取樣，訓練學習後，直接用AI擬合發生出取樣人的定製化音色語音。現場展示了韓喬生語音包。

一方面可以在文字語音朗讀的時候，針對中文，定製化中文語音朗讀的節奏和語氣，定製化TTS，通過國際通用的SSML標籤語言可以定製朗讀節奏，斷詞斷句規則，也擴充套件了百度定製中文標籤，可以支援純中文的諸如古詩詞，古文的朗讀規則。

看到合作伙伴的時候展示了十幾家，其中居然看到了特斯拉的身影

自然語言處理開放平臺

自然語言處理是自從搜尋引擎誕生之初就存在的AI技術，涵蓋的場景領域非常多。

應用場景：機器翻譯/深度問答/對話系統
自然語言理解：需求理解/篇章理解/情感分析/詞法句法分析
自然語言生成：文字生成/自動文摘
背靠基礎：大資料/知識圖譜/機器學習

為此NLP開放了多個場景的開放API

詞法分析
情感分析
機器翻譯
語義表示
語義模型
語義相似度

NPL開放的基礎API還不是最大的亮點，Unit才是NLP部門本次展示的重頭戲，Unit-理解與互動技術平臺，可以被廣泛運用在車載/客服/家居等應用場景，現場又是一個更為厲害的多輪語音交流案例

展示錄影處於開車中：（看著像巨堵的馬連窪這邊的路╮(╯_╰)╭）（記得也是有點不太清楚了，對話是個大概）

問：前方路段堵麼？
答：前方xxx，很堵
問：那怎麼繞開？
答：可以選擇1路線balabala 2路線balabala 3路線balabla？
問：那走2路線那條，大概多久到

這全套Unit多輪對話技術都是對外開放可以接入任意語音對話場景。

最牛逼的還是訓練師系統

訓練師是一個自然語言模型訓練工具，這套工具不需要使用程式碼進行開發，任何人可以不寫一行程式碼，通過視覺化的介面，填填網頁，謝謝表格，配配需求，從而直接生成自己專屬的定製化的AI對話助手，並且提供視覺化的訓練調優工具，可以親自與配置生成的助手進行對話，看助手的回答是否正確，標記助手的不正確回答，從而反覆訓練自然語言模型，最終訓練出一個自定義需求的語音助手

訓練師的視覺化工具可以讓任何非程式設計人員參與進來，很多客服人員已經從親自人工接線，轉變成了客服語音AI訓練師了。

在大會現場就展示了一個視訊，視訊是一個利用訓練師系統，從0構建了一個為女朋友準備的，生活電影語音小助手，全程沒寫一行程式碼，就一直是在填填，寫寫，配配，改改，調教，校正，對話，訓練。

視訊開放平臺

對於視訊技術，這個環節講了更多酷炫的東西

開放已有分析資料

視訊封面選摘
視訊的分類/標籤
視訊的索引/檢索

視訊不同於文字資訊，在摘要節選，結構化，從而方便進行資料處理的時候，有很大的困難，所以開放平臺提供了一系列挖掘識別視訊內容，從而結構化視訊資料的功能，分析挖掘視訊中的有關鍵意義的幀，從而找到最恰當表達視訊意圖的一幀，可以方便的用於視訊縮圖介紹，挖掘視訊的資訊，對視訊進行分類和打Tag，這對後續大資料運算甚至知識圖譜都有很重要的意義，而視訊內容的索引和檢索，可以支援從海量視訊裡，查詢具有相同畫面的視訊

視訊細粒度識別物體
視訊稽核/色情識別
視訊結構化分析

這就都是圖形識別了，識別視訊中的物體內容，甚至關聯大資料後，可以直接定位細粒度的物品資訊，如下圖所示，不在只識別一個車，而是識別出車牌，車型號。

而且還可以對視訊進行結構化分析，如下圖對於一個電視節目，可以直接識別出字幕/臺標/語音/人臉，最後產出結構化資料

人臉識別
- 已經運用在泰康人壽的一款App客戶徵信認證上
- 運用在百度有錢花貸款秒批
- 運用在機場（忘了哪個城市了，有個城市已經刷臉登機了）
- 運用在某風景景區刷臉閘機（是鳳凰古城？還是啥？還有個啥山景區？我都記不得了）
- 運用在百度公司內部門禁閘機
- 運用在百度公司刷臉販賣機/食堂

人臉識別的快速準確度已經提高的非常大，因此這項技術已經全面在很多安檢，購物，金融場景有真實的業務運用了，下面這張圖挺厲害的！圖中右邊的那塊螢幕看起來就是百度科技園區，裡面就是平時行走在園區內小路的我們，而上面的實時人臉識別都在第一時間定位到了出現在畫面裡的每一個人，每一個人的詳細資訊，並且最可怕的是戴著口罩也照樣精準定位資料庫中的資訊。