一個高中生開發的全域影象搜尋App讓人讚不絕口, 這是谷歌和蘋果還沒做到的事情

幾年前，我十分想要一個能夠識別出任何東西的 App。事實證明，解決這個問題的困難程度遠超想象，但這沒能阻止高中畢業生 Michael Royzen 的嘗試。

他的 SmartLens App 便試圖解決這一問題，對指定物體進行識別，並獲取更深入的資訊。當然，這款 App 並非完美無缺，但多安裝一個也無妨。

之前 Royzen 找到我，我對這個想法既好奇又懷疑——迄今為止，谷歌和蘋果都雙雙失利（至少尚未釋出任何好產品），一個利用業餘時間的高中生會成功嗎？

我與他約在一家咖啡館見面，想親自體驗一下這款 App。我很驚喜，還有點困惑。

當然，這個想法很簡單：你把手機攝像頭對著某物，這個 App 就會試圖對其進行識別，它利用的是一個巨大的分類代理，但被高度優化過，是基於數千萬張影象訓練而成。

它可以連結到維基百科和亞馬遜，讓你立即瞭解有關產品的更多資訊，或者把它買了。

它能識別超過 17000 個物體——比如不同種類的水果和花、地標、工具等等。這款 App 可以輕鬆區分出（長相奇特的）芒果與香蕉，甚至能夠識別出我買的開心果。

後來我用它來識別社群裡的植物：周旋、銀蓮花、木酢漿草。它竟然把它們全部識別了出來，真的很有用，即便有時會稍作猶豫。一個高中生開發的全域影象搜尋App讓人讚不絕口, 這是谷歌和蘋果還沒做到的事情

而且最有趣的是，所有這一切都是離線完成的，沒有通過蜂窩網路或 Wi-Fi 來給伺服器傳送影象。一切都在裝置上進行，只需一兩秒鐘的時間。

Royzen 通過各種渠道搜刮素材，建立了自己的影象資料庫，並花費數天利用 AWS EC2 進行計算，以訓練多卷積神經網路。

相較於通過讀取條目文字和查詢亞馬遜資料庫的方式，這種方法識別出的產品數量要多得多。

它幾乎立刻就能夠識別出書籍、一瓶藥丸和其它包裝商品，同時提供了購買連結。如果你也線上，介面就會彈出維基百科的連結，不過裝置中也儲存有詳細的產品資訊。

但關於這一點必須說明的是，SmartLens 的裝機記憶體超過 500 M。

Royzen 的模型很大，因為它必須在手機中儲存所有的識別資料和離線內容。這種解決方案不同於亞馬遜給 Fire Phone（已卒）開發的產品識別引擎，或是 Google Goggles（已卒），以及 Google Photos 的掃描功能（完全比不上 SmartLens 的識別速度和準確度）。一個高中生開發的全域影象搜尋App讓人讚不絕口, 這是谷歌和蘋果還沒做到的事情

Royzen 在一封電子郵件中寫道：「隨著帶有桌面類處理器的智慧手機的迭代，以及能夠對其（以及 GPU）進行利用的本地機器學習 API 的出現，響應快速的視覺搜尋引擎應運而生。」

但沒有一家大公司這樣做了。為什麼？

當然，App 的大小和處理器上的收費不可忽略，但它的邊緣處理和離線識別的功能不容小覷，畢竟 Royzen 才剛剛起步。

但它可能會面臨兩個問題：1. 很難賺錢；2. 搜尋質量還不夠高。

必須指出的是，SmartLens 雖然聰明，但準確性還遠遠不夠。它的識別參考幾乎總是離正確答案存在一步之遙。

譬如，它將我的一本書識別成了《White Whale（白鯨）》，不過那並不是《Moby Dick（白鯨）》。被它認作鯨脂鎮紙的其實是一把小鏟刀。

在獲得更為確信的結果前，許多條目只是簡要地閃過諸如「人」或「產品設計」等參考結果。它將一種開花的灌木鑑定為 4~5 五種不同的植物——當然，包括人類。

我的螢幕識別參考是「計算機顯示器」、「液晶顯示器」、「計算機螢幕」、「計算機」、「計算機螢幕」、「顯示裝置」等等。

遊戲控制器的識別結果是「控制」。一把鏟子被認為是一個木勺（已經夠接近了），還配了一個莫名其妙的副標題「安慰獎」。（下圖，此處應有黑人問號臉，what？！）一個高中生開發的全域影象搜尋App讓人讚不絕口, 這是谷歌和蘋果還沒做到的事情

如果是谷歌或蘋果所釋出的獨立產品，這種表現水平（一般稱為怪誕，儘管有趣）是不可容忍的。Google Lens 響應緩慢，體驗糟糕，但它只是某個實用的 App 中的一個可選功能。

如果它釋出了一個視覺搜尋 App，將花卉識別成了人類，這家公司將被口水淹沒。

另一個是變現問題。

雖然從理論上說，你可以在拍下書籍封面的同時就即刻下單，但這並不比拍照搜尋或谷歌/亞馬遜搜尋來得更為方便。

同時，使用者仍然對此心存困惑。它能識別哪些東西？不能識別哪些？我需要它來識別什麼？它可以識別很多東西，從犬類品種到商品店面，但可能無法識別其他一些東西，例如一個很酷的藍芽音響，或是你朋友戴的機械手錶，或當地畫廊裡展出的某幅畫作的作者（不過有些可以被識別出來）。

我在使用它時覺得，我只會用它去識別一些它認為自己能夠識別出來的東西，比如花朵，但在一些它無力識別或可靠性不高的事物方面，我就會猶豫。因為我怕自己會感到沮喪。

然而，在不久的將來，人們會慢慢開始接受 SmartLens 的想法。很顯然，幾年後我們都會認為這是理所當然的。它會直接在裝置上進行分析，不需要把影象傳到伺服器上。

Royzen 的 App 肯定有其自身的問題，但在很多情況下，它表現得很好，實用性很強。

你可以把手機攝像頭對著街對面的餐廳，並在 2 秒鐘後收到 Yelp 上的評論——不需要開啟地圖或鍵入地址或名稱——這個想法是對現有搜尋正規化的一個極其自然的擴充套件。

「視覺搜尋仍然是一個利基市場，但我的目標是讓人們認識到，在未來，一個 App 就可以提供關於周圍所有事物的有用資訊——如今，」Royzen 寫道，

「然而，不可避免的，大公司最終將會推出其競對產品。我的策略是成為市場上的首款通用型視覺搜尋 App，並儘可能多地聚集使用者，這樣我就可以保持領先（或被收購）。」

然而，最讓我不滿的不是功能問題，而是 Royzen 決定如何使其變現。

雖然使用者可以免費下載它，但當開啟 App 後，立即就會收到 2 美元/月的訂閱註冊提示——甚至是在檢視該 App 的效果之前。

如果我還不知道這個 App 可以做什麼以及不能做什麼，我會在看到付費提示後果斷將其刪除，並且即使我知道自己會用它來識別哪些東西，也不可能為它永續付費。

一次性啟用收費將更為合理，並且還得有亞馬遜的推薦碼。但是，要讓從未體驗過產品的使用者支付月租，這是不可能的。我告訴過 Royzen 我的擔心，我希望他對此重新考慮。

最好還可以掃描相簿中的圖片，或者儲存與搜尋結果相關的圖片。UI 方面需要改進，比如對識別準確度的衡量，或是某種反饋，可以讓你知道它仍然處於識別狀態。這些功能至少已被提上理論日程。

最後，Royzen 的努力令我印象深刻。我在回顧這一切時感到震驚，一個人竟然可以獨自開發出這樣一款 App，完成如此複雜的計算機視覺任務，何況他還是一名高中生。

這就是那種野心勃勃的 App——企圖用一款工具創造出一家好玩的科技巨頭，像是十年前的谷歌那樣。

或許，它所代表的更像是一種好奇心，而非一個工具，而曾經的那些文字搜尋引擎也是如此。

相關文章