阿里AI智慧音響現在有了視覺能力,跟人互動時表情豐富
安妮 發自 751D·Park
量子位 出品 | 公眾號 QbitAI
昨天,在阿里巴巴2018年春季釋出會上,阿里AI實驗室推出了第二代中文人機交流系統AliGenie 2.0,在“聽”和“說”的基礎上引入了視覺能力,搭載AliGenie 2.0的“精靈火眼”功能也同時亮相。
此外,天貓路由、天貓魔屏S1和天貓精靈曲奇三款新品也一同面市。
△ 阿里AI實驗室負責人淺雪在釋出會現場
AliGenie 2.0
距離去年7月釋出搭載了AliGenie的天貓精靈X1已八個月有餘,銷量怎麼樣了?阿里AI實驗室負責人淺雪表示已經賣出了200萬臺。
和以往不太一樣的是,此次推出的AliGenie2.0具備了視覺的能力,能夠進行視覺認知、多模態互動、情景感知。
AliGenie 2.0首先將視覺能力落地在天貓精靈X1上,通過具有天貓精靈手機APP實現“精靈火眼”功能。
此外,阿里AI實驗室還推出了一個可以戴在天貓精靈X1頭上的“帽子”XHolder,以便將手機放在XHolder支架上捕捉影像,同時手機還會顯示出一對大眼睛。
△ 天貓精靈X1+XHolder+App精靈火眼
對了,XHolder目前售價為49.9元。
△ XHolder外觀
核心功能
精靈火眼的核心能力有兩個:“視覺認知”和“表情系統”。
表情系統是指基於3D虛擬形象,提供自然互動的表情擬態動畫,目前包括近20多種擬態動畫。通過App的螢幕觸控它的鼻子眼睛或額頭,能得到不同的反饋,還能看到它生氣或撒嬌的樣子。
視覺認知主要面向兒童,精靈火眼通過影像識別,結合智慧語音互動、聲音朗讀,幫助兒童讀書、識字。
目前,阿里AI實驗室已經聯合中國少年兒童出版社、安徽少兒出版社等國內頂尖的出版社,選擇了適合3歲到8歲兒童的117套圖書,兒童只需將繪本展示給天貓精靈,即可聽到有聲版的故事。
△ 莊周夢蝶故事畫面
此外,老年人也是精靈火眼的一大受眾。阿里AI實驗室開發了識別藥盒的功能,與阿里健康合作,能夠識別4萬種藥盒。只要用精靈火眼掃一掃藥盒,就能用語音播報藥名、功效、過期日等資訊。
未來,阿里AI實驗室還將計劃引入萬物識別、人臉識別等功能。“我們今天推出的精靈火眼功能,也只是視覺功能的開始。”阿里人工智慧實驗室產品總監釋空在接受採訪時說。
這裡還有一個插曲。
在現場演示精靈火眼功能時,天貓精靈還一度沒有聲音,只有兩隻大眼睛做著各種各樣的表情。在程式設計師“祭天”回來的二度展示時,聲音才恢復正常。
新品三連發
除了精靈火眼外,此次釋出會還推出了阿里AI實驗室的三款新品。
天貓路由售價199元,是一個“沒有觸角”的路由,天線為隱形設計,不同Wifi熱點之間無縫切換。
天貓魔屏S1是一個可以聯合天貓精靈聯合使用的投影儀,最大投射螢幕300吋,售價4699元,以後在家裡就能享受巨幕效果了。
天貓精靈曲奇是個Q版的智慧音響,身高只有天貓精靈X1的一半,目前預售價為299元。
可以發現,這三款新裝置,剛好是人機互動的“輸入裝置”,“連結裝置”以及人機互動的“輸出裝置”。阿里方表示,輸入/連線/輸出的智慧化這是AI實驗室對智聯網的三個關鍵組成部分的理解。
“我們生活在一個工業時代跨度到數字時代的過程,我們今天可能沒有辦法改變一個藥盒的外觀,但是我們可以改變一個藥盒的瀏覽方式,這就是人工智慧實驗室想為我們這個世界帶來的一點點愛。”淺雪說。
作者系網易新聞·網易號“各有態度”簽約作者
— 完 —
加入社群
量子位AI社群15群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot6入群;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進群請加小助手微訊號qbitbot6,並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。(專業群稽核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
相關文章
- 手機穿戴裝置能力共享,提升豐富互動體驗
- AI 加持實時互動|ZegoAvatar 面部表情隨動技術解析AIGo
- Laravel 專案實戰中如何快速整合 Emoji 表情包?Emoji 表情包太豐富了Laravel
- 華為AI智慧音響全面評測 華為AI智慧音響怎麼樣?AI
- 華為AI智慧音響“小藝”:同價位音質最出色的智慧音響AI
- 互動視訊不能為了互動而互動
- 新一代視訊AI服務 —— 阿里雲智慧視覺重磅釋出AI阿里視覺
- 面向視訊的全新AI架構 —— 阿里雲智慧視覺技術全解AI架構阿里視覺
- Facebook的智慧音響跳,票,了
- 11Labs 推出 Conversational AI,可定製互動式語音智慧體;Recall.ai:視訊會議智慧體通用 APIAI智慧體API
- 實時語音互動,打造更加智慧便捷的應用
- 品牌|切割+鏤空 分享一組效果豐富的品牌視覺設計作品視覺
- AI表情包生成器來了!給AI餵了96萬個表情包文案AI
- Voicebot.ai:2019年智慧音響報告AI
- 除了智慧音響,AI語音還可以用在哪裡?AI
- 關於那個視覺化編輯,我在知乎上問了,現在有 8w 的瀏覽了視覺化
- MusicLibrary-一個豐富的音訊播放SDK。音訊
- 豐富多彩的會員活動。
- Sophon AutoCV:助力AI工業化生產,實現視覺智慧感知AI視覺
- 智慧新發展:打造更富動感的智慧園區3D視覺化決方案!3D視覺化
- 一天超2000次,阿里如何打響音視訊超時空戰役?阿里
- 融雲 K 歌解決方案,應用豐富互動模式的「萬能卡」模式
- vscode語音註釋, 讓資訊更豐富(下)VSCode
- vscode語音註釋, 讓資訊更豐富(中)VSCode
- vscode語音註釋, 讓資訊更豐富 (上)VSCode
- (乾貨)Ai音響和Linux音訊驅動小談AILinux音訊
- 音視訊開發者的福音,快速整合AI配音能力AI
- 騰訊AI Lab 8篇論文入選,從0到1解讀語音互動能力AI
- 智慧語音,互動入口的新未來
- 簡單剖析智慧語音互動技術
- 騰訊互動白板+即時通訊+實時音視訊,Android學生端接入Android
- 視覺智慧開放平臺能力上新,百餘種AI演算法免費開放!視覺AI演算法
- 互動式資料視覺化的優勢視覺化
- AudioContext+canvas實現音訊視覺化ContextCanvas音訊視覺化
- 擁抱AI視覺,加油站可以很“智慧”AI視覺
- 豐富 pytest 的 assert
- 阿里AI Labs竟然發了個「假帶屏音響」, 其醉翁之意早就不在硬體身上阿里AI
- [C#] 使用 NAudio 實現音訊視覺化C#音訊視覺化