幾年前,我十分想要一個能夠識別出任何東西的 App。事實證明,解決這個問題的困難程度遠超想象,但這沒能阻止高中畢業生 Michael Royzen 的嘗試。
他的 SmartLens App 便試圖解決這一問題,對指定物體進行識別,並獲取更深入的資訊。當然,這款 App 並非完美無缺,但多安裝一個也無妨。
之前 Royzen 找到我,我對這個想法既好奇又懷疑——迄今為止,谷歌和蘋果都雙雙失利(至少尚未釋出任何好產品),一個利用業餘時間的高中生會成功嗎?
我與他約在一家咖啡館見面,想親自體驗一下這款 App。我很驚喜,還有點困惑。
當然,這個想法很簡單:你把手機攝像頭對著某物,這個 App 就會試圖對其進行識別,它利用的是一個巨大的分類代理,但被高度最佳化過,是基於數千萬張影像訓練而成。
它可以連結到維基百科和亞馬遜,讓你立即瞭解有關產品的更多資訊,或者把它買了。
它能識別超過 17000 個物體——比如不同種類的水果和花、地標、工具等等。這款 App 可以輕鬆區分出(長相奇特的)芒果與香蕉,甚至能夠識別出我買的開心果。
後來我用它來識別社群裡的植物:周旋、銀蓮花、木酢漿草。它竟然把它們全部識別了出來,真的很有用,即便有時會稍作猶豫。
而且最有趣的是,所有這一切都是離線完成的,沒有透過蜂窩網路或 Wi-Fi 來給伺服器傳送影像。一切都在裝置上進行,只需一兩秒鐘的時間。
Royzen 透過各種渠道搜刮素材,建立了自己的影像資料庫,並花費數天利用 AWS EC2 進行計算,以訓練多卷積神經網路。
相較於透過讀取條目文字和查詢亞馬遜資料庫的方式,這種方法識別出的產品數量要多得多。
它幾乎立刻就能夠識別出書籍、一瓶藥丸和其它包裝商品,同時提供了購買連結。如果你也線上,介面就會彈出維基百科的連結,不過裝置中也儲存有詳細的產品資訊。
但關於這一點必須說明的是,SmartLens 的裝機記憶體超過 500 M。
Royzen 的模型很大,因為它必須在手機中儲存所有的識別資料和離線內容。這種解決方案不同於亞馬遜給 Fire Phone(已卒)開發的產品識別引擎,或是 Google Goggles(已卒),以及 Google Photos 的掃描功能(完全比不上 SmartLens 的識別速度和準確度)。
Royzen 在一封電子郵件中寫道:「隨著帶有桌面類處理器的智慧手機的迭代,以及能夠對其(以及 GPU)進行利用的本地機器學習 API 的出現,響應快速的視覺搜尋引擎應運而生。」
但沒有一家大公司這樣做了。為什麼?
當然,App 的大小和處理器上的收費不可忽略,但它的邊緣處理和離線識別的功能不容小覷,畢竟 Royzen 才剛剛起步。
但它可能會面臨兩個問題:1. 很難賺錢;2. 搜尋質量還不夠高。
必須指出的是,SmartLens 雖然聰明,但準確性還遠遠不夠。它的識別參考幾乎總是離正確答案存在一步之遙。
譬如,它將我的一本書識別成了《White Whale(白鯨)》,不過那並不是《Moby Dick(白鯨)》。被它認作鯨脂鎮紙的其實是一把小鏟刀。
在獲得更為確信的結果前,許多條目只是簡要地閃過諸如「人」或「產品設計」等參考結果。它將一種開花的灌木鑑定為 4~5 五種不同的植物——當然,包括人類。
我的螢幕識別參考是「計算機顯示器」、「液晶顯示器」、「計算機螢幕」、「計算機」、「計算機螢幕」、「顯示裝置」等等。
遊戲控制器的識別結果是「控制」。一把鏟子被認為是一個木勺(已經夠接近了),還配了一個莫名其妙的副標題「安慰獎」。(下圖,此處應有黑人問號臉,what?!)
如果是谷歌或蘋果所釋出的獨立產品,這種表現水平(一般稱為怪誕,儘管有趣)是不可容忍的。Google Lens 響應緩慢,體驗糟糕,但它只是某個實用的 App 中的一個可選功能。
如果它釋出了一個視覺搜尋 App,將花卉識別成了人類,這家公司將被口水淹沒。
另一個是變現問題。
雖然從理論上說,你可以在拍下書籍封面的同時就即刻下單,但這並不比拍照搜尋或谷歌/亞馬遜搜尋來得更為方便。
同時,使用者仍然對此心存困惑。它能識別哪些東西?不能識別哪些?我需要它來識別什麼?它可以識別很多東西,從犬類品種到商品店面,但可能無法識別其他一些東西,例如一個很酷的藍芽音響,或是你朋友戴的機械手錶,或當地畫廊裡展出的某幅畫作的作者(不過有些可以被識別出來)。
我在使用它時覺得,我只會用它去識別一些它認為自己能夠識別出來的東西,比如花朵,但在一些它無力識別或可靠性不高的事物方面,我就會猶豫。因為我怕自己會感到沮喪。
然而,在不久的將來,人們會慢慢開始接受 SmartLens 的想法。很顯然,幾年後我們都會認為這是理所當然的。它會直接在裝置上進行分析,不需要把影像傳到伺服器上。
Royzen 的 App 肯定有其自身的問題,但在很多情況下,它表現得很好,實用性很強。
你可以把手機攝像頭對著街對面的餐廳,並在 2 秒鐘後收到 Yelp 上的評論——不需要開啟地圖或鍵入地址或名稱——這個想法是對現有搜尋正規化的一個極其自然的擴充套件。
「視覺搜尋仍然是一個利基市場,但我的目標是讓人們認識到,在未來,一個 App 就可以提供關於周圍所有事物的有用資訊——如今,」Royzen 寫道,
「然而,不可避免的,大公司最終將會推出其競對產品。我的策略是成為市場上的首款通用型視覺搜尋 App,並儘可能多地聚集使用者,這樣我就可以保持領先(或被收購)。」
然而,最讓我不滿的不是功能問題,而是 Royzen 決定如何使其變現。
雖然使用者可以免費下載它,但當開啟 App 後,立即就會收到 2 美元/月的訂閱註冊提示——甚至是在檢視該 App 的效果之前。
如果我還不知道這個 App 可以做什麼以及不能做什麼,我會在看到付費提示後果斷將其刪除,並且即使我知道自己會用它來識別哪些東西,也不可能為它永續付費。
一次性啟用收費將更為合理,並且還得有亞馬遜的推薦碼。但是,要讓從未體驗過產品的使用者支付月租,這是不可能的。我告訴過 Royzen 我的擔心,我希望他對此重新考慮。
最好還可以掃描相簿中的圖片,或者儲存與搜尋結果相關的圖片。UI 方面需要改進,比如對識別準確度的衡量,或是某種反饋,可以讓你知道它仍然處於識別狀態。這些功能至少已被提上理論日程。
最後,Royzen 的努力令我印象深刻。我在回顧這一切時感到震驚,一個人竟然可以獨自開發出這樣一款 App,完成如此複雜的計算機視覺任務,何況他還是一名高中生。
這就是那種野心勃勃的 App——企圖用一款工具創造出一家好玩的科技巨頭,像是十年前的谷歌那樣。
或許,它所代表的更像是一種好奇心,而非一個工具,而曾經的那些文字搜尋引擎也是如此。