華人小哥搞出一個雞鳴狗叫GPT,可識別「毛孩子」80%的情緒

AI好好用發表於2024-09-06
機器之能報導
編輯:楊文
鏟屎官終於能理解汪星人的小心思了。

「狗語翻譯器」已經席捲娛樂圈。

在節目中,貴氣男孩尤長靖花了八百塊錢,買了個「狗語翻譯器」。

華人小哥搞出一個雞鳴狗叫GPT,可識別「毛孩子」80%的情緒

影片連結:https://mp.weixin.qq.com/s/vMBq-S-NPwNXhh4XlVSJiA

汪蘇瀧下單時問他,「有兩百的、四百的和八百的,要買哪個?」

尤長靖斬釘截鐵地說,「買八百的」。

因為一分錢一分貨,越貴的肯定越精準。

結果買回來,它就各種胡言亂語。

郭麒麟和陸虎也同樣玩起了「狗語翻譯器」。

華人小哥搞出一個雞鳴狗叫GPT,可識別「毛孩子」80%的情緒

影片連結:https://mp.weixin.qq.com/s/vMBq-S-NPwNXhh4XlVSJiA

購物平臺上,不少買家吐槽,這類長得像個蝴蝶結的狗語翻譯器,簡直就是智商稅。

狗叫的時候沒反應,狗睡覺了它開始說話了。

圖片

圖片

現在,AI 闖進了這個小眾賽道,帶來了不一樣的效果。

圖片

一位華人小哥搞出來一款狗語 GPT,專門識別汪星人的小情緒,其準確率高達 80%。

華人小哥搞出一個雞鳴狗叫GPT,可識別「毛孩子」80%的情緒

影片連結:https://mp.weixin.qq.com/s/vMBq-S-NPwNXhh4XlVSJiA

天啊嚕,人類都還搞不懂自己,卻聽懂了「狗叫」。


-1-

「汪星人」能聽懂人話了

最近,人類和「汪星人」絲滑對話的影片,在社交媒體上一炮走紅。

華人小哥搞出一個雞鳴狗叫GPT,可識別「毛孩子」80%的情緒

影片連結:https://mp.weixin.qq.com/s/vMBq-S-NPwNXhh4XlVSJiA

影片中,一位男士對著手機上的一款 APP 說:

Hi Ellie,你能幫我拿下遙控器嗎?

這款 APP 隨即就把人類語言翻譯成幾句狗叫聲。

金毛犬聽後,立馬搖著尾巴,跑到茶几上叼來了遙控器。

還有類似的案例。

華人小哥搞出一個雞鳴狗叫GPT,可識別「毛孩子」80%的情緒

影片連結:https://mp.weixin.qq.com/s/vMBq-S-NPwNXhh4XlVSJiA

女主人也是對著手機的 APP 說了一段話:

你可以親我一下嗎?

隨著手機發出的幾句短促的汪汪聲,「毛孩子」聽懂了,飛身來了一個 Kiss,主人一臉的不可思議。

這款手機 APP,名叫 Traini,是一款「寵物共情 APP」,俗稱「狗語翻譯器」。

它透過 AI 聊天機器人 PetGPT,實現人類與狗狗之間的跨物種對話和交流。

圖片

其核心技術基於一個先進的寵物行為多模態翻譯模型。

這個模型採用了類似於 GPT-4o 的 Transformer 架構,並接受了大量專家級寵物行為學文字、視覺和音訊資料的訓練。

為了確保翻譯的準確性,Traini 團隊嘗試了多種訓練方法,包括使用純狗語音資料訓練,對人類語音預訓練模型進行微調,以及使用來自不同國家地區、不同品種狗的語音資料混合訓練等。

除了翻譯狗叫聲,它還能理解小狗的面部表情和身體行為,從而推薦它們的心理狀態和情感需求。

其實,小狗和人類一樣,也是透過表情、聲音和行為,來表達情緒。

比如,當它們眼睛半閉含著淚珠,這就表示痛苦;耳朵直立指向前方,就表示想玩;鼻孔張大肌肉緊張,表示戒備。

為此,該團隊收集了 10 萬隻狗的照片、聲音和影片,餵給模型,然後不斷進行訓練。

如今,Traini 可以解讀 10 種不同的寵物情緒,其準確率更是高達 80%。

使用者可以直接在 PetGPT 中上傳照片並提出問題,以瞭解寵物的心理狀態。

圖片

截至目前,這款應用已經吸引了超過 20 萬的使用者。


-2-

背後團隊是何方神聖?

Traini 創始人兼 CEO 名叫孫鄰家 (Arvin Sun) ,是一位華人連續創業者,曾在國內創業 7 年。

他最早的創業經歷還得追溯到大學時。

那時,他和室友一起向剛入學的新生賣被子,畢業後就去了一家上市公司做供應鏈管理,差不多做了兩年時間。

2015 年,孫鄰家又和同學一起創業,做起了零食專賣店「鄰家鋪子」,主打三公里內 30 分鐘送貨上門。

後來又為美容院提供線上預約和門店端的 SaaS 服務,曾在 3 個月內融資數百萬元。

再之後,他做了一個給電商提供配套物流的平臺,融到 3000 多萬,團隊也擴充到 100 多人,業務覆蓋了 50 多個城市。

2018 年,孫鄰家去了美國,加入了最大的中餐外賣平臺 GESOO 做 CEO,並實現了公司扭虧為盈。

後來又去了另一家競品公司 Chowbus 負責西海岸業務,並融資超過 1 億美金。

2022 年,孫鄰家創辦了 Traini,負責公司的客戶增長和市場擴充。

Traini 聯合創始人名叫 Jason Hong,他是一名年輕的中國小夥子,年僅 24 歲。

他曾是湖南省奧數青訓隊成員,後在美國東北大學大學攻讀計算機研究生,並在 Scale AI、OpenAI 和百度工作過,積累了先進模型的開發實踐經驗。

如今,他負責核心 PetGPT 模型架構和訓練。

此外,Traini 還有兩名全職員工,分別負責介面設計和全棧工程搭建。

公司還邀請了前 Chewy 資料科學負責人 Yiyi Yang 加入,擔任寵物健康專業顧問。

今年 5 月份,公司還完成了千萬元天使輪融資。

-3-

日本團隊搞了個雞叫 GPT

除了狗語翻譯器,日本還搞了個雞叫 GPT。

東京大學教授 Adrian David Cheok 帶領他的團隊,研究了一種 AI 和機器學習方法,可以「聽懂」雞叫,並理解其心情。

他們將這種高度數學化和創新的方法稱之為「深度情感分析學習(DEAL)」,可以透過聽覺資料對情緒狀態實現精細分析。

首先,收集雞叫聲。

研究團隊將音訊記錄分割成小片段,以專注於每隻雞的聲音,每個片段代表一個不同的聲音事件,如咯咯聲或嘎嘎聲。

為了消除背景噪音,提高雞叫聲訊號質量,團隊還採用了降噪技術。

再把音訊訊號進行標準化,確保它們具有一致的幅度範圍,有助於減少記錄條件中的任何變化,並確保模型可以很好地泛化不同的記錄。

其次,把雞叫聲輸入 DEAL 模型,該模型透過多個層次進行資料處理。

這個系統利用卷積層學習空間特徵層次結構,池化層減小表徵的空間大小以控制過擬合併減少計算,全連線層學習高階特徵的非線性組合。

最後,softmax 函式用於產生最終輸出情緒狀態的機率分佈。

機率最高的情緒狀態,將被選為預測的情緒狀態。

為了測試新系統,該研究團隊以 80 只雞為樣本,仔細記錄和分析了它們在不同條件下的發聲。

同時為了確保準確性,它們專門聘請了 8 名動物心理學家和獸醫,對雞的情緒狀態提供了專家的見解。

最終,他們發現這個系統可以準確地翻譯雞的各種鳴叫和心情,包括飢餓、恐懼、憤怒、滿足、興奮和痛苦等,準確率接近 80%。

然而,研究人員也指出,由於世界雞的種類繁多,可能存在無法翻譯的情況。

參考連結:
https://www.researchsquare.com/article/rs-3034567/v1
https://mp.weixin.qq.com/s/kgCmbIPFKVLg4dptvChkvQ
https://mp.weixin.qq.com/s/SOGWBpNx3O5QMSQAbhzIaw
https://mp.weixin.qq.com/s/_tKqvS_jrlgqWJV69gLbig

以後我們會帶來更多好玩的AI應用,也歡迎大家進群交流。

圖片

相關文章