本文由 「AI前線」原創,原文連結:Google給AI出了UX設計指南
策劃編輯|Natalie
作者|Josh Lovejoy
編譯|Debra,薛命燈
AI 前線導讀:”AI 的作用不應該只是大海撈針,而是幫助我們撥開雲霧,讓我們自己去發現明月。通過 Google 的 AI 產品 Google Clips,讓我們來看看以人為本的設計是如何讓 AI 上升到另一個高度的。”
就像移動革命以及之前的網際網路一樣,機器學習讓我們重新思考、構思並考慮我們過去所獲得經驗還有多少可能性。在 Google UX 社群中,我們開啟了一項名為“以人為中心的機器學習”專案,以引導關於這個話題的討論和關注。透過鏡頭,我們來看看機器學習(ML)產品如何用獨特的方式解決人類的需求。這個專案是 Google 團隊的成果,旨在讓 UXers 們瞭解核心 ML 的概念,以及如何用最佳的方式將 ML 整合到 UX 工具帶中,並確保以包容的方式構建 ML 和 AI。
Google Clips 相機捕捉的父母、孩子和寵物的真實場景
Google Clips 是一款智慧相機,設計的初衷是用來捕捉使用者熟悉的人和寵物最真實的時刻。這款相機能夠完全憑藉裝置上的機器智慧,專注於學習和你在一起度過時光的人或寵物,並能夠理解怎樣拍出漂亮和令人難忘的照片。以 Google Clips 作為案例,我們將回顧三年來這款產品從在裝置上建模、工業設計到使用者介面建立過程中的核心要點, 以及在 AI 驅動產品實踐中以人為本的設計理念。
使用 Google Clips 可以選擇完美的框架(上圖左側),並儲存為一張靜止影象(上圖右側)。在這個例子中,我把相機夾在籃筐上,捕捉我兒子投籃的瞬間
如果不符合人的需求,即使系統功能再強大,也僅能解決小問題,或者根本解決不了問題。
僅僅讓更多的 UXers 使用 ML 產品是不夠的。讓他們瞭解某些核心 ML 的概念,理解 AI 及其功能的理念,以最好的效能來構建和維護使用者的信任是至關重要的。
從確定哪些模型對構建有用,到資料收集、註釋、新型原型和測試,ML 生命週期中的每一個階段都是創新的時機。
以下是為什麼我們認為採用以人為本的理念來構建由 ML 驅動的產品和系統非常重要:
- 機器學習不會找出需要解決的問題。如果不符合人的需求,即使系統功能再強大,也僅能解決小問題,或者根本解決不了問題。
- 如果 AI 系統的目標不透明,使用者對校準系統的作用認識不清,那麼他們對 AI 會形成一種固化印象,影響他們的信任感。
- 為了發展,機器學習必須是跨學科的。即便不是這麼絕對,但作為社會系統挑戰的同時也可以被視為一項技術挑戰。機器學習是一門根據在資料中自動發現的模式和關係進行預測的科學。 ML 模型的工作就是要弄清楚這些模式的重要性,以達到最大的準確性。但是,它的任務不僅這一個。ML 的每一個方面都是由人的判斷推動和調解的,首先從建立模型的思路,選擇訓練的資料來源,樣本資料本身以及用於描述它的方法和標籤,到上述定義錯誤和正確性的標準。一言以蔽之,UX 界的公理“你不是使用者”在這裡比以往任何時候都更重要。
三種以人為中心的設計理念讓 AI 更上一層樓
解決人類真正的需求今年,人們將拍攝大約一萬億張照片,這對我們大多數人來說,它們只是一個不會再去翻閱的照片庫而已。新生兒父母尤其如此,他們的生活充滿了人生中的第一次。在那些值得紀念的珍貴時刻,使用者會選擇拿出他們的手機捕捉下這些美好的瞬間。結果,這樣導致他們往往只能通過一方小小的螢幕來觀看這個世界,而不是用他們所有的感官進行互動。
作為一個新的父母,你的相簿可能看起來和我的一樣,為了抓拍到完美可愛的表情而進行連續拍攝。
如果我們能夠設計一款產品,能夠幫助我們記錄下我們關心的人的每個瞬間呢?如何我們可以出現在照片中,而不是總是在照相機之後呢?如果我們能夠及時拍攝下照片,而不必因必須停下來,拿出電話,開啟相機,開啟鏡頭而破壞了興致?而且,如果我們能夠讓攝影師在我們身邊捕捉到更多真實的生活時刻,比如我的孩子真實的微笑,應該怎麼辦?這就是我們要解決的問題。
為資訊做引導
當我們開始這項工作的時候,最迫切需要解決的問題是:如果人們拍攝了大量的照片,但實際上並不想回頭去管理它們,那麼我們將如何標註這些照片呢?這催生了基礎的“HCML exercise”:描述理論上的人類“專家”今天可能執行的任務。這個理論包括兩層含義:首先,人類完不成的任務 AI 也不可能完成;其次,通過深入研究專家的方法,我們可以找到引導訊號的資料收集、標籤和模型架構。
人類無法完成的任務,AI 也無法完成。
我能想到與此最貼近的例子就是婚禮攝影師,所以我開始用一個非常模糊的招聘資訊成功誘惑一名紀錄片製作人,一名攝影記者和一名美術攝影師來面試並簽了合同,組成團隊來回答這個問題:讓人難忘的時刻是什麼樣的?
在評估我們的照片和視訊的質量時,我們必須認識到被我們當做理所當然的細微差別、審美本能和個人經歷是非常重要的。例如,每當我看到我的小兒子在折騰一個彎折的吸管(最左),或者躲開我不讓我親他的臉頰(中間),我就會感到有點崩潰。當我看到我的大兒子在公園裡騎自行車的時候,我非常自豪,因為我記得那一天他終於敢自己騎自行車了。
建立信任
我們這項工作的出發點,是假設我們可以向模型輸入我們認為漂亮而有趣的素材,而且它知道如何找到更多類似的東西。我們曾經談過關於景深、三分法則、戲劇性照明、講故事等話題,但我從中學到一點,就是永遠不能低估人類運用常識的能力。
這些早期的實驗暴露了技術和方法上的鴻溝,這些差距幫助我們重新評估了這款產品可以實現的目標,以及這項工作的性質。我們把正規化從將 ML 放在顯要地位,轉變為了解到只有在相當簡化的框架下才能有效地學習。基本上,我們正在通過閱讀莎士比亞而不是 Go、Dog.Go! 來教兩歲小孩英語。這就是 AI 這個“龐然大物”的神話對我來說最難對付的地方,即世界上存在一種可以理解所有事物,並可以根據知識進行上下文理解的”智慧“這種想法。不可能,這離實現還差得很遠。
迴歸本源
一致性在所有知識教授過程中都很重要。這就是為什麼我們在教孩子閱讀和說英語時,儘可能花較長時間讓他們理解 O-U-G-H(例如 tough, through, thorough)。與"at"的發音聯絡起來以後,他們就會理解 cat、 bat 和 sat 等單詞發音的一致性。
然而,演算法不會提供這樣的反饋。就演算法而言,除非另有指示,否則所顯示的所有內容都具有相同的價值。對於 Clips,這意味著每個示例之間都需要具有一致性。每一個單獨的框架都需要代表我們正在試圖教授的具體預測,而且往往可以教會它需要忽略什麼。
捕捉
我們需要針對以下幾種場景來訓練模型:手擋住鏡頭、快速移動、模糊強度。
我們以上面的場景作為例子來訓練模型,左邊是相機放在口袋或手袋裡的場景,右邊是手指或手掌擋住了部分鏡頭的場景。我們無法立竿見影地將模型訓練到能夠忽略掉某些內容,但從長遠來看,這是我們整個設計的重要組成部分。排除掉無需處理的內容,就能捕捉到更高質量的視訊短片。
構圖
我們還要針對穩定性、銳度和取景構圖來訓練模型。人臉識別模型很容易把處於取景框邊緣的人臉與取景框中間的人臉同等對待。
要想讓模型保持被攝主體的連續性,需要讓主體突出。左上是我的小兒子一直處於取景框中,右上是我的大兒子只有一半時間處在取景框內。
社交基準(social norms)
親密度是攝影的基礎之一。你把相機對準某人,他們做出表情或擺出姿勢,默許你的拍攝,而且你正是通過取景器進行取景構圖的那個人。而如果使用的是自動相機,那麼就需要根據社交線索來判斷被攝主體的親密度,比如你與他們在一起相處時間的長短、他們是否經常出現在相機的取景框內。
編輯
在拍攝照片時,多拍幾張是件理所當然的事,也就是要保持多元性。我們會覺得已經拍得夠多了,但在訓練模型時確實需要大量的照片。
我們會從三個維度考慮多元性:
- 時間:連續的拍攝時間點是很重要的,千萬不要在很長一段時間內什麼都不拍。
- 視覺:場景中的顏色變化表示環境或活動物體也發生了變化,所以要儘量捕捉到不一樣的瞬間。
- 人物:場景中的人物是一大群人還是一小群人,抑或是隻有一個人?瞭解場景中有多少張人臉,避免錯失重要的瞬間。
我把 Clips 放在書架上,從上向下拍攝我兒子的活動。相機在很長一段時間內拍攝到的都是相似的內容。要想避免太多不必要的冗餘但又想不錯失重要瞬間,這對於 UX 來說是個不小的挑戰。
信任度和自我效驗
我們在 Clips 上投入,並不是因為它具備多麼強大的功能,而是因為它能夠在裝置上進行不外洩隱私的機器學習。相機屬於個人物品,我們竭盡全力來保證裝置和內容最終都只屬於使用者自己。沒有徵得使用者的同意,所有的東西都只會呆在裝置上。
概念設計
在考慮信任度和自我效驗的同時,我們也在考慮如何做好 UI 設計。在剛啟動專案的時候,我們只能自作假設一個 AI 產品應該是什麼樣子的。
在參考未來科技風格的設計時,很多設計師會想到電影《少數派報告》(Minority Report)和《銀翼殺手》(Blade Runner)。但如果真的要像《少數派報告》電影裡那樣向使用者展示 UI,看起來真的很瘋狂:伸開你的手臂,等上兩秒鐘,抓一把空氣,反方向轉動手掌並向右甩。就是這麼簡單!幾乎所有的科幻 UI 都很相似,似乎互動模型一定要與它所在的系統保持步調一致。在設計的早期階段,我們也是這麼想的,但後來我們基於以下幾點原因還是放棄了這種想法:
- 我們在模擬環境裡向使用者展示虛擬的內容,無法在他們與影像之間建立起真實的連線。這個問題不只在 AI 中存在,在可用性實驗室裡,人們也經常碰到這個問題。
- 我們每天遇到的人都講的是相同的語言,對 AI 也都有深入的思考。如果我們錯過了他們的想法,可能會犯下大錯。
- 我們認為我們的新設計非常酷,所以會先自我認同,但其他人可能還不能立即理解我們設計的含義。
大部分產品都有一定的學習曲線,而有了 AI 的加入,就更要注重瞭解使用者的認知。如果使用者對產品感到新奇(圖 A),那麼就著重強調其信任度。如果使用者需要學習使用大量的 UI 元素(圖 B),那麼就確保使用者能夠掌握主要的使用場景。如果產品的功能高度動態化(圖 C),那麼就需要應用使用者熟悉的模式。
我們開始瘋狂地降低 UI 的複雜度,將可控性和熟悉度作為體驗框架的基礎。我們在相機上增加了一個軟體取景器和一個物理捕捉按鍵。我們要確保使用者能夠自己決定拍攝內容的好壞,從視訊短片裡的靜止幀到其中的某一段內容。我們儘可能多地向使用者展示拍攝內容,他們可以選擇刪除不想要的,這樣他們就能夠更好地瞭解相機想要捕捉什麼,並相信相機在以後能夠拍攝到想要的畫面。
硬體、智慧和內容只屬於你自己
在測試 AI 產品的過程中,我們有一個重大的發現:在真正成功之前先假裝成功。如果一定要做出選擇,那麼使用使用者真實內容來建立 UX 原型要比使用真實的機器學習模型要有用得多。後者需要更長的時間,而前者能夠讓你瞭解使用者對產品的期待。
使用者在裝置上瀏覽視訊短片。左邊,使用者選擇他們想要的短片,並儲存到手機上。中間,使用者可以開啟“推薦”模式。右邊,使用者可以選擇靜止幀並儲存成圖片。
從主觀性和個人定製化方面來看,我們做不到完美,這不應該成為我們的主要目標。與傳統的軟體開發不一樣,機器學習系統是做不到無 bug 的,因為預測分析本身就是一門帶有不確定性的科學。但也正是因為不確定性,機器學習才變得如此有用。Clips 的目標不僅僅是要實現視訊的保留、刪除、點選和編輯(儘管它們確實也很重要),它更關注原創、共同學習和改編。
有意圖的設計
傳統的 AI 是要讓機器變得更聰明,而如果我們是以增強人類的能力為目的,那麼就有可能釋放出機器學習更多的潛能。機器學習將成為史無前例的創新工具,幫助我們認識存在於我們自身和世界之中的模式。我們有望通過 AI 來塑造一個更加人性化的世界,當然,我們會時刻記住根植於心中的理念:找出和解決人類真正的需求,增加人類的價值,為了增強而不是自動化而設計。
AI 的作用不應該只是大海撈針,而是幫助我們撥開雲霧,讓我們自己去發現明月。
原文連結:
更多幹貨內容,可關注AI前線,ID:ai-front,後臺回覆「AI」、「TF」、「大資料」可獲得《AI前線》系列PDF迷你書和技能圖譜。