阿里AI智慧音響現在有了視覺能力，跟人互動時表情豐富

量子位發表於2018-03-23

原文網址 : https://blog.csdn.net/yh0vlde8vg8ep9vge/article/details/79674654

阿里AI視覺

安妮發自 751D·Park
量子位出品 | 公眾號 QbitAI

昨天，在阿里巴巴2018年春季釋出會上，阿里AI實驗室推出了第二代中文人機交流系統AliGenie 2.0，在“聽”和“說”的基礎上引入了視覺能力，搭載AliGenie 2.0的“精靈火眼”功能也同時亮相。

此外，天貓路由、天貓魔屏S1和天貓精靈曲奇三款新品也一同面市。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1 △ 阿里AI實驗室負責人淺雪在釋出會現場

AliGenie 2.0

距離去年7月釋出搭載了AliGenie的天貓精靈X1已八個月有餘，銷量怎麼樣了？阿里AI實驗室負責人淺雪表示已經賣出了200萬臺。

和以往不太一樣的是，此次推出的AliGenie2.0具備了視覺的能力，能夠進行視覺認知、多模態互動、情景感知。

640?wx_fmt=jpeg

AliGenie 2.0首先將視覺能力落地在天貓精靈X1上，通過具有天貓精靈手機APP實現“精靈火眼”功能。

此外，阿里AI實驗室還推出了一個可以戴在天貓精靈X1頭上的“帽子”XHolder，以便將手機放在XHolder支架上捕捉影像，同時手機還會顯示出一對大眼睛。

640?wx_fmt=jpeg △ 天貓精靈X1+XHolder+App精靈火眼

對了，XHolder目前售價為49.9元。

640?wx_fmt=jpeg △ XHolder外觀

核心功能

精靈火眼的核心能力有兩個：“視覺認知”和“表情系統”。

表情系統是指基於3D虛擬形象，提供自然互動的表情擬態動畫，目前包括近20多種擬態動畫。通過App的螢幕觸控它的鼻子眼睛或額頭，能得到不同的反饋，還能看到它生氣或撒嬌的樣子。

640?wx_fmt=jpeg

視覺認知主要面向兒童，精靈火眼通過影像識別，結合智慧語音互動、聲音朗讀，幫助兒童讀書、識字。

目前，阿里AI實驗室已經聯合中國少年兒童出版社、安徽少兒出版社等國內頂尖的出版社，選擇了適合3歲到8歲兒童的117套圖書，兒童只需將繪本展示給天貓精靈，即可聽到有聲版的故事。

640?wx_fmt=jpeg △ 莊周夢蝶故事畫面

此外，老年人也是精靈火眼的一大受眾。阿里AI實驗室開發了識別藥盒的功能，與阿里健康合作，能夠識別4萬種藥盒。只要用精靈火眼掃一掃藥盒，就能用語音播報藥名、功效、過期日等資訊。

未來，阿里AI實驗室還將計劃引入萬物識別、人臉識別等功能。“我們今天推出的精靈火眼功能，也只是視覺功能的開始。”阿里人工智慧實驗室產品總監釋空在接受採訪時說。

這裡還有一個插曲。

在現場演示精靈火眼功能時，天貓精靈還一度沒有聲音，只有兩隻大眼睛做著各種各樣的表情。在程式設計師“祭天”回來的二度展示時，聲音才恢復正常。

新品三連發

除了精靈火眼外，此次釋出會還推出了阿里AI實驗室的三款新品。

天貓路由售價199元，是一個“沒有觸角”的路由，天線為隱形設計，不同Wifi熱點之間無縫切換。

640?wx_fmt=jpeg

天貓魔屏S1是一個可以聯合天貓精靈聯合使用的投影儀，最大投射螢幕300吋，售價4699元，以後在家裡就能享受巨幕效果了。

640?wx_fmt=jpeg

天貓精靈曲奇是個Q版的智慧音響，身高只有天貓精靈X1的一半，目前預售價為299元。

640?wx_fmt=jpeg

可以發現，這三款新裝置，剛好是人機互動的“輸入裝置”，“連結裝置”以及人機互動的“輸出裝置”。阿里方表示，輸入/連線/輸出的智慧化這是AI實驗室對智聯網的三個關鍵組成部分的理解。

“我們生活在一個工業時代跨度到數字時代的過程，我們今天可能沒有辦法改變一個藥盒的外觀，但是我們可以改變一個藥盒的瀏覽方式，這就是人工智慧實驗室想為我們這個世界帶來的一點點愛。”淺雪說。

作者系網易新聞·網易號“各有態度”簽約作者

— 完 —

加入社群

量子位AI社群15群開始招募啦，歡迎對AI感興趣的同學，加小助手微信qbitbot6入群；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進群請加小助手微訊號qbitbot6，並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。（專業群稽核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話介面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

手機穿戴裝置能力共享，提升豐富互動體驗
2023-04-20
Laravel 專案實戰中如何快速整合 Emoji 表情包？Emoji 表情包太豐富了
2020-04-26
Laravel
AI 加持實時互動｜ZegoAvatar 面部表情隨動技術解析
2022-06-10
AIGo
華為AI智慧音響全面評測華為AI智慧音響怎麼樣？
2018-11-13
AI
互動視訊不能為了互動而互動
2019-06-24
華為AI智慧音響“小藝”：同價位音質最出色的智慧音響
2018-11-13
AI
新一代視訊AI服務 —— 阿里雲智慧視覺重磅釋出
2019-04-02
AI阿里視覺
面向視訊的全新AI架構 —— 阿里雲智慧視覺技術全解
2019-04-02
AI架構阿里視覺
Facebook的智慧音響跳，票，了
2018-03-29
11Labs 推出 Conversational AI，可定製互動式語音智慧體；Recall.ai：視訊會議智慧體通用 API
2024-12-04
AI智慧體API
實時語音互動，打造更加智慧便捷的應用
2024-09-30
品牌｜切割+鏤空分享一組效果豐富的品牌視覺設計作品
2022-05-20
視覺
AI表情包生成器來了！給AI餵了96萬個表情包文案
2020-05-24
AI
關於那個視覺化編輯，我在知乎上問了，現在有 8w 的瀏覽了
2020-04-28
視覺化
Voicebot.ai：2019年智慧音響報告
2019-04-12
AI
除了智慧音響，AI語音還可以用在哪裡？
2019-08-31
AI
MusicLibrary-一個豐富的音訊播放SDK。
2019-03-03
音訊
豐富多彩的會員活動。
2022-03-09
AI「視覺圖靈」時代來了！位元組OmniHuman，一張圖配上音訊，就能直接生成影片
2025-02-05
AI視覺圖靈音訊
Sophon AutoCV：助力AI工業化生產，實現視覺智慧感知
2022-06-30
AI視覺
智慧新發展：打造更富動感的智慧園區3D視覺化決方案！
2021-06-15
3D視覺化
融雲 K 歌解決方案，應用豐富互動模式的「萬能卡」
2022-11-22
模式
一天超2000次，阿里如何打響音視訊超時空戰役？
2018-12-17
阿里
vscode語音註釋, 讓資訊更豐富(下)
2022-02-24
VSCode
vscode語音註釋, 讓資訊更豐富(中)
2022-02-21
VSCode
vscode語音註釋, 讓資訊更豐富 (上)
2022-02-20
VSCode
(乾貨)Ai音響和Linux音訊驅動小談
2018-11-15
AILinux音訊
音視訊開發者的福音，快速整合AI配音能力
2022-03-01
AI
騰訊AI Lab 8篇論文入選，從0到1解讀語音互動能力
2018-09-12
AI
智慧語音，互動入口的新未來
2019-10-08
簡單剖析智慧語音互動技術
2019-06-19
騰訊互動白板+即時通訊+實時音視訊，Android學生端接入
2021-07-07
Android
互動式資料視覺化的優勢
2022-03-31
視覺化
視覺智慧開放平臺能力上新，百餘種AI演算法免費開放！
2020-04-10
視覺AI演算法
AudioContext+canvas實現音訊視覺化
2018-11-29
ContextCanvas音訊視覺化
擁抱AI視覺，加油站可以很“智慧”
2020-11-26
AI視覺
豐富 pytest 的 assert
2020-04-02
阿里AI Labs竟然發了個「假帶屏音響」, 其醉翁之意早就不在硬體身上
2018-03-23
阿里AI

阿里AI智慧音響現在有了視覺能力，跟人互動時表情豐富

安妮 發自 751D·Park量子位 出品 | 公眾號 QbitAI

AliGenie 2.0

核心功能

新品三連發

作者系網易新聞·網易號“各有態度”簽約作者

相關文章

安妮發自 751D·Park
量子位出品 | 公眾號 QbitAI