技術的未來是要增強人類的各種使用體驗。而“你”,就是這種使用體驗的核心。如果你的工作不再枯燥,如果你的生活充滿樂趣、更加舒適,如果你和別人有著更多更有意義的交流,你的體驗就在提升。成功的技術,永遠是以提升人類生活質量為目的的,不論這種技術是使你的空閒生活更有趣(就像大螢幕的電視提升了娛樂體驗),還是使你的工作更高效(就像計算器方便了工程師)。
讓我們來看一下這類提升人類生活體驗的技術是如何發展的:
IBM發展了PC機,讓中小規模的企業能夠買得起計算機,使用計算機提高他們的工作效率,進而增進產量。微軟和蘋果開發了易於操作的作業系統,使得那些不是計算機專家的人,也能夠使用計算機進行娛樂和工作。PC機普及了沒幾年,因特網就快速發展了起來。Google的出現使我們能夠從網際網路高效地獲取資訊。社交網路的出現甚至重新定義了人類的交往模式。還有智慧手機,使我們能夠隨時隨地享受技術帶給我們的便利
。
毫無疑問,iPhone的處理速度會變得越來越快,Google的搜尋會變得越來越完善,但是,我們和這些裝置與應用的互動模式就不該進行革新嗎,為什麼這種互動模式遲遲得不到發展?
沒有鍵盤的計算機:
絕大多數出色的技術和應用,都被設計為這種互動模式——當我們使用它們的時候,它們能夠和我們友好地互動,當我們不再使用它們的時候,它們就基本不再主動產生有價值的資訊。其實我們不需要穿戴各種複雜的裝置(比如Google Glass),也不需要去學習iOS給我們提供的新鮮應用,我們需要的,是讓技術能夠自主地產生有用的資訊,這個過程完全不需要我們通過點選按鈕或者輸入文字來控制。要讓計算機自主地產生有意義的內容,也就意味著使計算機產生智慧。這也正是機器人研究領域的課題。
什麼是機器人?
如果我們想讓機器人幫我們做些日常工作(比如打掃衛生,做飯,開車,和我們玩耍,教我們技能),我們需要機器人同時具有兩種能力——直接感知周圍環境的能力,和智慧地對環境作出反應的能力。這個“感知-反應”的迴圈,正是我們將家用計算機變為機器人的過程中所要考慮的問題。當然,如果這種機器人的長相能夠接近真正的“人”,看起來當然更好。如下圖:
但在我看來,任何能夠自我感知並作出反應的裝置,都叫做機器人。所以,發展人形機器人並用於家政服務並不是機器人領域所考慮的全部議題。人們通常先入為主地認為,機器人一定要和人相似,有手有腳。而我們只有走出這種誤區,擴充我們對於機器人的認識,才能真正擴充人工智慧和機器視覺的研究思路。
現今的家用桌上型電腦和膝上型電腦,需要我們通過點選滑鼠和鍵盤進行互動。我不認為這種模式是完善的,因為打字和點選滑鼠並不是我們必須進行的互動。而能夠和人直接進行語音互動的Siri,就比較我對於機器人的理解了。所以某種程度而言,我們可以把裝有Siri的iPhone叫做機器人。但是,無論我們把Siri做得多麼智慧,我們都沒法用Siri來擦地板。為什麼呢?因為無論地板有多麼髒,地板自己都不會呼叫,“我髒了,快來擦!”。這也正是Siri和大多數智慧應用的短板。我們還需要使這些裝置能“看”。也就是說,我們要讓智慧裝置有效感知周圍環境(眼前的這個物體是沙發還是椅子?),作出有效判斷和相應動作(它是髒還是乾淨?該不該擦?),並判斷環境中各類物體的邊界(如果獲取的影像裡面檢測到了沙發,影像中哪些畫素屬於沙發,哪些畫素不屬於沙發?)
加入視覺:
我們使用滑鼠和鍵盤的時間已經太久太久了。不論你是否同意,敲擊鍵盤實際上算是一種“計算機語言”了,因為它是更偏向於機器的表達方式。而且這種方式需要我們進行精準的操作,才能準確傳達我們的指令和要求。我們需要教會計算機如何使用我們的語言進行表達和互動,並且讓它們直接獲取和感知環境資訊。現今的計算機視覺的研究,已經越來越貼近現實生活了。這個世界需要更多有遠見的人來研究計算機視覺,成為計算機視覺的專家,並且考慮如何將計算機視覺應用到更廣闊的領域。我們也需要程式設計人員能夠更多地在他們的應用中加入計算機視覺的元素。我們同樣需要更多豐富且易用的計算機視覺工具,使那些剛剛投身於計算機視覺的人能夠很快融入進來。通過大家的齊心協力,我們將會有希望看到真正的機器人進入家家戶戶的日常生活中來。
展望:
雖說VLfeat和OpenCV已經是很好的工具了,封裝了很多底層的資料處理。但是,計算機視覺的研究人員仍然免不了自己去搜集訓練資料,標記資料,謹慎地選擇分類器,訓練並聚類。如果我們能夠有更高效的工具,更通用的API,研究人員將會從這些繁重枯燥的工作中解脫出來。如果我們能讓那些沒有相關數學基礎,甚至沒有豐富程式設計經驗的人也能夠直觀地應用計算機視覺,那將多好。