人工智慧時代,如何做設計?

Android_開發者發表於2018-03-27

人工智慧時代,如何做設計?

本文作者:Josh Lovejoy,Google 的互動設計師


正如之前的移動網際網路乃至再早之前的網際網路都曾經改變人們的思考方式一樣,機器學習 (Machine Learning, ML) 讓我們開始重新思考、重新構建並重新審視我們所創造的體驗的可能性。在 Google 的使用者體驗社群中,我們也啟動了名為 “以人為中心的機器學習 (Human-Centered Machine Learning)” 的專案,專注於這個領域的研究。在這裡,我們聚焦於諸多產品,來觀察機器學習是如何以其獨有的方式來解決人類的實際需求。我們的團隊試圖讓所有使用者體驗設計師們理解機器學習的概念,瞭解如何將機器學習融入到使用者體驗的知識體系中,並且確保我們以整合的方式構建機器學習及人工智慧的實際體驗。

                      人工智慧時代,如何做設計?

                        △ Google Clips 捕捉到的真實的父母、孩子及寵物的影像

Google Clips 是一款智慧相機,用於捕捉親朋好友乃至寵物之間的甜蜜時刻。通過裝置內建的機器智慧,它能將鏡頭只聚焦於你關心的物件上,並且深諳美好且充滿回憶的照片的構成要素。本文中,來自 Google 的互動設計師 Josh Lovejoy 將以 Google Clips 作為研究案例,和大家一起回顧三年中裝置軟體模型、工藝設計及使用者介面打磨的歷程,以及 “以人為中心” 設計一款人工智慧驅動產品的核心思路。希望能對大家有所啟發與幫助!

                     人工智慧時代,如何做設計?

△ Google Clips 允許你選擇一個合適的相框區域 (如上圖左邊),並將其設為預覽靜態圖 (如上圖右邊)。你只需要把相機夾在籃球框上,就能順利捕捉下孩子灌籃的瞬間。

如果沒有契合人的需求,那麼你只是在建立一個強大的系統來解決一個非常微小的,乃至不存在的問題。

要知道的是,如果只是讓更多的使用者體驗設計師們參與到使用機器學習的專案中是不夠的。更重要的是,要讓他們明白具體的機器學習的核心概念,拋掉對人工智慧的固有偏見,並通過最佳實踐來建立並維持信任。機器學習的整個生命週期的每個階段都意味著創新——從模型構建決策到資料採集,到解讀,再到原型和測試,都是如此。

我們列舉了以下這些事實來證明,在構建機器學習驅動的產品及系統時,為什麼 “以人為中心” 是非常重要的:

  • 機器學習不能找出需要解決的問題。如果沒有考慮到人的需求,那麼你只是在建立一個強大的系統,來解決一個非常微小的,乃至不存在的問題;

  • 如果 AI 系統的設計目的不明確,使用者就無法明確理解他們在系統中的角色,以及該發揮什麼作用,這會導致他們根據自身對 AI 的通俗理解來構建其心智模型,從而影響到對產品的信任;

  • 一個成功的機器學習模型是多種約束條件合力的結果。從這個角度上看,機器學習模型的建立不僅擁有技術性的一面,也擁有 “社交學習” 的一面——每個人的成長,都是在同時適應諸多社會規則的過程。機器學習是根據從資料中自動總結出來的模式及關係來做出預判的科學,機器學習模型的任務便是弄明白這些資料模式中導向錯誤的概率,並規避之,從而儘可能做出最正確的判斷。但這些過程並不是機器自己在做。我們更需要看到的是,機器學習的方方面面都是基於人為的判斷來推動或調節的:從最開始的構建模型的想法,到選擇用來訓練的資料來源,到設計用來解讀資料的標籤和方法,乃至最終獲得的判斷對或錯的能力。這也再次印證那句在使用者體驗設計工作中備受推崇的至理名言——你不能代表使用者

一、在 “以人為中心” 的設計中,提升人工智慧的三種途徑

1. 解決人們真正的需求

如今,人們每年將拍攝數萬億的照片,對大多數人來說,這其實意味著一個我們實際上並不會看的,滿是照片的數字 “畫廊”。對於新晉的寶爸寶媽們來說更是如此,他們每天的生活中都有無數的 “第一次”。而人們往往傾向於拿出手機捕捉那些他們覺得珍貴而短暫的時刻,留存以供日後回顧。然而,這卻導致他們最終只通過這一方小小的螢幕來看這個世界,而非通過自己的感覺與世界互動。

人工智慧時代,如何做設計?

△ 作為一個新晉家長,你的照片時間線可能也是這樣的——數張連續拍攝的照片,以圖捕捉到最完美可愛的表情。

如果我們能打造一款能幫我們更好的留存這些美好時刻的產品,那會怎麼樣呢?如果我們能實際出現在照片裡,而不是在相機後呢?如果我們能及時拍攝到我們想要拍攝的照片,而不需要停下來、取出手機、開啟相機然後取景,還甚至會打破這些美好呢?如果我們能有一個實時相伴的攝影師來捕捉生活中美好時刻 (比如孩子的笑臉) 呢?——這些即使我們隨時在鏡頭後都很難被捕捉到的時刻,才是我們想要為使用者解決的需求。

2. 引導智慧

當我們開始研究之後,最迫切的問題是:如果人們拍攝了大量的照片,但是懶得進行整理,那麼我們要如何進行標記管理呢?這便誕生了基礎的 “以人為中心的機器學習 (HCML)” 練習:描述一下理論上人類 “專家” 解決這個問題的步驟。這個理論包含兩重含義:首先,如果是人無法解決的問題,那麼 AI 也不能;此外,通過深入研究 “專家” 的方法,我們可以找到資料集、標籤以及模型構架。

如果是人無法解決的問題,那麼 AI 也不能。

我們能想到的比較合適的例子是婚禮攝影師,而後我們通過一個刻意弄得含糊其辭的招聘公告 (“絕密專案!需要攝影!”) 來進行招聘並面試。通過反覆試驗試錯,以及一些運氣,我們最終發現了一個比較理想的專家組合——包括一位紀錄片導演、一位新聞攝影記者和一位美術攝影師。然後我們將團隊成員的影像作品彙集在一起,試圖從中找出這個問題的答案——是什麼元素造就了一個難忘的時刻?

                       人工智慧時代,如何做設計?

△在評估照片和視訊質量時,需要辨別其中的細微差別、審美本能和個人經歷——這些我們常常認為理所當然的地方。譬如,每當 Josh Lovejoy 看到小兒子仔細研究一根彎曲的吸管 (見上圖左側),或者試圖避開他的親吻 (如上圖中間) 時,就會崩潰。當他看到大兒子在公園裡騎自行車的時候 (見上圖右側),感到非常自豪,因為記得那天開始他不再害怕騎自行車了。

3. 建立信任

之前,我們工作的出發點是,假設我們可以給這個 AI 模型提供我們認為好的及有趣的素材,然後它會據此來學會如何查詢更多相關內容。這是將 “人機對話” 理想化的結果,包括景深,三分法則,打光,匹配剪輯,敘事等方面……但事實上,我們永遠不應該低估人們運用常識的能力。

這些早期的實驗暴露了巨大的技術和方法上的差距,讓我們重新設定了對產品功能實現的猜想,並重新認識這項前所未有的工作的性質。對於我們的模型,我們也將從機器學習生硬地放在基礎的位置上,轉向明白只有在足夠簡化的框架下機器才能夠有效地進行學習。這相當於,我們之前之所以碰壁,是因為我們試圖教會一個兩歲的小孩子讀莎士比亞,而非 "Go, Dog. Go!" 這種簡單的英語。這也就是 AI 最被神化的地方——存在一個單純的 “智慧”,可以理解所有的東西,並且將其概念化並根據場景具化成相應的知識。事實上真的是這樣嗎?不,差遠了。

二、回到基礎上來

一致性對於教學來說是最重要的。這也是我們在教孩子們學習讀說英語時,為什麼要儘可能解開他們對於 "O-U-G-U (例如 tough, through, thorough)" 的混亂 (一般這種詞我們也不會放在一開始的時候就教) 。而相對的,cat、bat 以及 sat,由於其可預見的 "at" 讀音,讀寫起來就有很高的一致性。

一致性通常伴隨著自信心。試想一下,當老師列舉出兩個看起來不太一致的例子時,大多學生們都能非常快速並且渴望指出其不協調之處。但是演算法無法提供這樣的反饋。就演算法而言,除非另有指示,否則對它顯示的內容都具有相同的價值。對於 Google Clips 來說,這意味著不僅兩個示例之間需要保持一致性,而是每個示例內部都需要一致。每個單獨的幀都需要能代表我們想教會 ML 預測的那個分支,這往往表現為我們在教給 ML 應該忽略哪些幀。

1. 拍攝

我們需要訓練這個模型,什麼是糟糕的內容,例如手擋在了鏡頭前,鏡頭抖動以及沒有聚焦等。

           人工智慧時代,如何做設計?

△ 我們使用上面的例子來訓練機器學習模型來識別,相機是否放在口袋或錢包裡了 (如左上圖),還是手指或手擋在鏡頭前了 (如右上圖) 。雖然這種訓練並不能立刻生效,但是隨著時間的推移,這將成為整個產品設計中非常重要的部分。通過排除掉這些無需關注的內容,拍攝的整體質量會直線上升。

2. 構圖

同時,我們需要對模型進行穩定性、清晰度以及取景方面的訓練。一不留神,臉部檢測模型就會把位於整個取景框的右下角的人臉和畫面中心的人臉同等對待。而這往往不是我們需要的結果。

                            人工智慧時代,如何做設計?

△ 為了訓練模型的主題連貫性,特別強調相關的例子是很重要的。我們可以比照一下上面兩個場景:人物始終在鏡頭中心 (如上圖左側),以及只有 5% 的時間在取景框的中心 (如上圖右側)。

3. 社交常態

熟悉是攝影的基礎。當你用相機對準某個人時,他們會通過微笑或者姿勢來回應。更重要的是,選擇取景並且按下快門的那個人是你,也就是拍攝物件熟知的那個人。然而對於自動相機來說,我們必須用演算法來根據社交線索 (譬如說你與他們相處的時間以及他們在你鏡頭下的時間) 來判斷誰才是你熟悉的人。

4. 編輯

當我們自己來拍攝照片時,多樣和重複是很正常的,因為你腦海中總是有個聲音在提醒你,“之前沒見過這樣的一面,該拍下來了!” 或者 “已經拍足夠多了”。但是我們的模型無法作出這樣的判斷,它們需要更多的訓練。

我們從三個不同的維度來處理這種多樣性:

  • 時間:拍攝的時長是一個非常重要的指標,沒有捕捉到具體內容的話就不要長時間拍攝了,這很好理解。

  • 視覺:顏色的微妙或劇烈變化都可以反映環境和活動的變化,試著去捕捉那些具有不同美學特徵的時刻。

  • 人物:你是處在一群人中,還是一個小團體,抑或是單獨一人呢?瞭解有多少張熟悉的臉孔十分重要,這能讓你感覺到並未錯過什麼重要的時刻。

人工智慧時代,如何做設計?△ 如上所示,Josh Lovejoy 把相機放在書架邊上且鏡頭朝下,剛好能夠拍到孩子們一起在搭建玩具。但這也意味著很長一段時間內,相機總是面臨著相似的內容。在這種情況下,如何避免過多的重複拍攝,卻不會錯過精彩的瞬間,在現在與未來,都是一個非常複雜的使用者體驗課題。

三、信任和自我能效

我們投資 Google Clips 的原因之一在於,向世界證明基於裝置內建及隱私保護的機器學習的重要性——更不用說其出色的效能 (譬如說,它需要更少的能耗,所以裝置不會過熱,程式處理更快且更為可靠,還不需要聯網)。相機是非常私人的物品,我們一直在努力確保它——包括硬體、智慧以及其產生的內容——都僅屬於你自己。這也就是為什麼,所有的一切都將留在相機裡,除非你決定拿出來分享。

1. 概念框架

考慮到信任和自我效能,我們也需要格外留意 UI 設計的方式。在專案的開始,這意味著一些有趣的假設,關於一個 AI 驅動的產品應該如何 “出眾”。

當我們大腦中開始思考關於未來科技的設計參考時,許多設計師總會聯想到電影《少數派報告》和《銀翼殺手》中的沉浸式的畫面。但是想象一下,實際向使用者說明類似《少數派報告》的 UI 是非常可笑的——在這,伸出你的手臂,等待兩秒鐘,然後握拳,手在這個位置逆時針旋轉時然後右甩,是不是很容易! (才怪!) 幾乎所有仿科幻的 UI 設計都犯了相似的錯誤——那就是互動模型的複雜性必須匹配其驅動的系統的複雜性,也就是說系統有多複雜,互動介面就該有多複雜。但這完全沒有必要。我們在早期設計階段也曾在這個死衚衕裡停留過,但我們現在已經很大程度上避免了這一點,原因有三:

  • 我們在一個明顯模擬的環境中向人們展示了假冒 / 假設的內容,在那裡他們與他們看到的東西之間沒有真正的聯絡。請注意,這並不是 AI 獨有的問題:當你將使用者投入到可用性實驗中,這往往是其中一個混淆因素。

  • 我們每天只顧著與說著相同語言的人在一起,一起思考 AI 的未來。但是卻與其他人之間有了斷層,沒有將他人作為參考納入到設計當中。

  • 我們自認為設計非常棒,所以當使用者沒有馬上認為我們的新設計非常酷,當人們沒有迅速領會設計意圖時,我們並不放在心上,給了自己相當大的寬容。

人工智慧時代,如何做設計?△ 大多數產品都有一個認知曲線的過程,但是外界對 AI 的過度宣傳,使得對於使用者的認知引導十分重要。當使用場景對使用者來說十分新穎 (如上圖 A) 時,那麼需要著重關注其可靠性。如果有很多新的 UI 方面的設計 (如上圖 B),那麼要確保基本用例十分貼切。而當產品功能更加多元 (如上圖 C) 時,你的 UI 設計則應該使用使用者熟悉的模式。

隨著時間的推移,我們逐漸走出了這樣的局面。我們開始大幅降低 UI 設計的複雜性,併為我們的使用者體驗框架搭建了可控及熟悉的基礎。所以我們為相機增加一個軟體取景器及實體拍攝鍵,並確保使用者對生成的圖冊擁有最終決定權。同時,比起展現 “恰到好處” 的內容,我們更傾向於向使用者展現更多的內容。因為通過允許使用者看到 “水面下” 的一些內容並且刪除那些他們不想要的內容,他們才能更好地理解我們的相機試圖要捕捉的那些時刻,也會對其之後的表現更具信心。 (再強調一下,這就是通過一些細節方面的心理博弈,來達成信任和自我效能。)

硬體,硬體中的智慧及其產生的內容最終都僅屬於你自己。

在這個過程中,我們有另外一個重要的發現:在創造之前,儘量模仿。如果必須二選其一,那麼通過使用者的真實內容來建立 UX 原型比用真正的機器學習模型來進行測試更加有用。因為後者需要花費更長的時間來構建和部署 (與傳統的軟體開發相比,其靈活性和適應性要差得多,所以調整和叫停的代價更高),而前者則可以為你提供真正的洞察,瞭解使用者從你的 (理論性) 產品中獲取價值和效用的方式。


                              人工智慧時代,如何做設計?

△ 我們可以看到,使用者可以通過滑動來預覽照片,選擇他們想要儲存到手機的照片 (如上圖左邊),可以切換到檢視 “推薦照片” (如上圖中間),還可以精確選擇他們想要儲存為靜態照片的那一幀 (如上圖右邊)。

在充滿主觀性及個性化的環境中,純粹的完美是不可能的,也不應該成為我們的目標。與傳統的軟體開發相比,機器學習系統永遠不存在 “絕對的正確”,因為預測本就是一門模糊的科學。但正是這種模糊使得機器學習十分有用。它幫助我們制定更為強大動態的 if 語句,使得我們得以根據 “如果這個看起來像是x,那就做y操作” 的規則來設計產品。在這種背離僵硬的邏輯規則的情況下,我們也同樣需要拋下傳統的度量互動的方式。Google Clips 的成功不僅僅在於保留,刪除,點選和編輯 (儘管這些都很重要),而是在於其長期以來的協同創作,共同學習和適應與進步。我們衷心希望使用者帶上我們的產品,走出門去,享受生活。

四、帶著目的來設計

我們可以通過對人工智慧的重新定位,來尋找讓機器更智慧的途徑並探索增強人類能力的方式,從而釋放機器學習中更大的潛力。它可以成為一件強大的工具,來進行前所未有的探索及創新——一件幫助我們探索自己及周遭世界模式的工具。作為 “以人為中心” 設計專案的實踐者,在人工智慧的協助下,我們有巨大的機會來塑造一個更加人性化和包容性的世界,但這需要我們時刻謹記最根本的目的——尋找和解決人類真正的需求,力求維護人類價值,利用設計來強化人類的能力而非簡單地自動化執行人類的工作。

是的,人工智慧的作用不是直截了當的為我們鎖定目標,而是為我們清除障礙,讓我們得以更好地找到目標。

歡迎大家積極留言與我們互動,講述你們對於 AI 時代下 UX 設計的心得或疑問。

人工智慧時代,如何做設計?



相關文章