Kfir Matza:以色列的動作識別技術世界領先(圖靈訪談)

盼盼姐發表於2014-10-28

enter image description here

Kfir Matza是Onysus公司的CTO,Onysus是一家專業於計算機視覺技術的初創公司,該公司已經入選GEM(全球創業周)2014年的總決賽。Kfir於上世紀90年代加入以色列國防部,時任精英科技部隊的高階工程師,退役之後任職於ECI電信。他建立過兩家成功的公司,並參與建立了很多公司,其中包括BCC,這是一家從事高風險支付的網路安全公司,他曾任研發總監。

enter image description here

問:微軟在骨骼識別技術上投資巨大,而且他們也擁有海量的樣本庫。你如何收集到足夠的樣本資料來和像微軟那樣的大公司競爭?

微軟為遊戲開發者開發工具,而我們定位在一個非常不同的市場,我們提供不需要程式設計的解決方案。另外一個很大的不同在於Onysus需要的是3D攝像機,而不僅僅是微軟的Kinect。今天的市場上提供了大量的不同種類的攝像機,這樣巨大的分歧帶來了很多的相容性問題,每臺攝像機都會提供不同的深度資料。而且這些攝像機的使用範圍不一樣,有一些很長,可以捕捉整個身體,有一些很短,只能夠用做捕捉手勢。我們把不同的輸入變成統一的介面,並對不同裝置提供統一的輸出。

問:相對於大公司,你們的競爭優勢在哪裡?

相比於競爭,我們的關係更傾向於合作。我們的成功很大程度上要依賴於大公司把深度感測器成功地推向大眾。大公司花費大量的資源把動作感測器整合到裝置上,但是如果沒有內容,所有這些硬體都毫無用處,就像一個沒有app的智慧電話。

而廠商們也明白這一點,這就是我們能和因特爾和三星建立戰略合作伙伴關係的原因,我們期待更多的科技公司加入我們。因為他們對於讓內容製造者“入夥”都有強烈的需求。

問:把單獨攝像機作為輸入裝置曾幾何時被看做是效率很低的方法,但是現在很多公司都在嘗試基於軟體的動作識別技術。你認為這會是未來的趨勢嗎?這種技術的未來發展過程中還有什麼阻礙?

說得很對,市場上有很多公司提供了成功的單攝像機解決方案,比如XTR3d,Point grab,Eyesight等等。

這些解決方案很棒,它們可以給開發者們提供支援大多數裝置的能力,而不需要加入額外的硬體裝置或者考慮廠商的價格問題——不需要增加硬體裝置,他們就可以用軟體搞定問題。但是,這些網路攝像機的問題在於它們缺少能夠捕捉細小動作的準確度,這些裝置僅僅依賴於RGB資料,在沒有照明的情況下資料就變得毫無意義。所以真正起決定作用的是互動方式,並不是所有的解決方案都符合開發者的需求。

我認為在未來會出現一個融合的解決方案,便宜的低端裝置會依賴於軟體,但是較貴的裝置會加入3D攝像機。已經有越來越多的廠商把3D攝像機加入到裝置上。比如和我們有戰略合作關係的因特爾,已經宣佈在2015年第一季度會和原始裝置製造商(巨集碁,華碩,戴爾,富士通,惠普,聯想,NEC)一起實現攜帶深度攝像機的平板、膝上型電腦,以及多功能產品。

問:你們用來解釋動作和麵部表情的演算法是什麼?

因為我們支援的攝像機種類繁多,而且每種都提供了不同的輸入資料,所以我們不得不為每個動作提供多種方式和演算法。舉個例子,豎大拇指這個動作可以用深度攝像機輕易地識別出來,利用的是深度資料來找到手的關節點,然後根據位置排放來判斷手勢。但是運用網路攝像機來尋找關節,對於CPU來說要求就很高,甚至對於豎大拇指這樣的動作來說也很複雜。在這樣的情況下,我們會同時使用多重演算法來尋找熟悉的突狀物體,膚色,集中特點,等等。

問:你以前的經歷(在以色列國防部的工作)對你在動作識別科技的研究上有什麼幫助?

我的大部分知識都是在軍隊裡形成的。我在18歲的時候被招募到精英技術部隊。在軍隊裡你可以從經驗中學習;當你有個任務不知道如何完成的時候,你需要快速學習,否則就會被遣散。很幸運地是,我的戰友都是知識極豐富的人,而且不吝於分享他們的知識,這是一次很棒的經歷。我無法告訴你具體的專案,因為這些是保密的資訊,但是我可以告訴你的是,世界層次上計算機視覺領域中很多創新都是來自IDF(以色列國防部)。今天,計算機視覺和手勢識別領域的很大一部分公司都是以色列的。正是以色列公司Primesense的先鋒研究帶來了微軟的Kinect,隨後技術又賣給了蘋果。Kinect 2的技術基於飛行時間技術,而這項技術是從以色列開發者3DV System ZCam那裡來的。Google專案Tango是由以色列公司Mantis Vision的MV4D技術支援的。Pebbles互動與小米和Scandisk都有戰略合作伙伴關係。甚至因特爾的Real Sense大部分都是由以色列開發的,因為他們收購了兩家以色列相關領域的公司,Omek互動和Invision生物統計公司。更不用說今天流行的2D解決方案几乎都是來自以色列的(XTR3d, Point grab, Eyesight)。

問:Onysus的團隊成分很是混搭,你們的員工有著不同的國籍,技術以及專業。這是公司創立時的本意嗎?這樣的一家“混搭”公司有著什麼樣的優勢?

我們強烈地相信異花授粉會帶來好處,最最創新的解決方案通常都是來自混搭的專業和想法。不同背景的人思考方式不同,兩個看似相反的意見相結合會帶來更加廣闊更加豐富的觀點。有件事在我身上發生了不止一次,一個創意部的同事找到我,說出一個看似離譜的點子,就當我快把這個想法忘掉的時候,我忽然意識到這是個多麼天才的解決方案。計算機視覺,正如這個名字所暗示的,這是一門非常視覺的技術,有視覺空間智慧的設計師與程式設計師截然相反,我們擁有的更多的是邏輯數學上的智慧,當你把兩種演算法相結合,創新就開始了。我們的使用者就是設計師,這件事讓一切都更簡單了,我們的目標是雙贏。

問:你將在Top100全球軟體案例研究峰會上分享的關於3D空間互動的主題很有趣,其中提到了長期使用動作識別帶來的諸多問題,業界稱其為“猩猩手”,那麼你是如何設計基於手勢的互動的?

確實“猩猩手”是基於動作的互動方式的大問題,因為長時間使用動作來互動對使用者來說既痛苦又不舒服。並不是所有的應用都會從動作識別上獲得好處,其結果可能是非常有害的,但是在某些領域基於動作的互動方式可以極大地提高體驗。舉個例子,如果當你滿手油漬還想瀏覽烹飪書的時候,基於動作的互動可能是很理想的,但是當你想寫下食譜的時候,真的沒有必要從傳統鍵盤上脫離開來,這種情況下,動作識別的經歷對於使用者來說是非常痛苦的。根據經驗法則,如果你感覺用原有的方法做起來更順手那麼你現在就是做錯了。動作識別並不是為了要取代我們所知道的輸入方式,而是要為開發者們一直在發展的工具箱中加入另外一個維度。

問:對於“無需觸碰”的應用來說,需要使用什麼樣的設計方法?

如果要構建基於手勢的應用,你需要考慮的第一件事就是你需要用什麼樣的攝像機。如果你想要構建需要全身識別的應用,就需要長距離深度攝像機,而手勢識別需要短距深度攝像機,而面部識別可能只需要普通攝像機就可以了。另外一件需要注意的事就是不同人會用不同的方式來完成一個動作,甚至簡單的打個招呼都可以有很多方式,電腦也會解讀出不同的結果。

問:如何在不出現故障點的情況下測試故障點?

監測故障點對於基於動作的互動來說很具有挑戰性,因為並沒有現成的具體工具可以用來分析和測試這樣的媒介。比如熱圖可以用來測試應用和網站的使用者介面,因為這種方法可以顯示使用者活動並且根據滑鼠或觸碰位置來判斷大眾的興趣。但是遇到基於動作的互動的時候,整個身體都是輸入資料,所以熱圖技術就用不上了。對於我們自己的裝置來說,我們需要開發一種可以提供具體互動相關資料的分析工具。要做到這點第一步就是要跟蹤和記錄使用者的骨骼,然後用這個資料找到故障的模式,一旦我們知道什麼出了問題,修理起來就變得簡單了。


更多精彩,加入圖靈訪談微信!

相關文章