《人工智慧一定需要大資料嗎?未必!》真的麼?

青潤發表於2018-12-24

20181223日看到了一片文章,標題是《人工智慧一定需要大資料嗎?未必!》,原文連結:https://mp.weixin.qq.com/s/DkMNX6NHsuCeO_i-20lUMA。真的未必麼,這中間是不是還有什麼沒有說清楚的東西呢?文中的觀點基本上就是標題的說法。但是,未必與否,這裡是需要辨證地看的。

為什麼這麼說呢?

因為,任何資料積累到一定程度,都會變成一個結果:資料量巨大。嗯,很多年前IT業內曾經批評我十六年前的老公司沒有大資料,有的只是資料量巨大,具體是哪家公司我就不多說了。

大資料到底是什麼,這裡不想多說,寫過的人太多,青潤這裡只能說一句話:資料量大到一定程度的,並且經過格式化規範化處理後可以用於分析、挖掘和各種計算使用的資料就是大資料。

那,結果呢,人工智慧積累的資料需要幾個方面,我們用其中目前接觸相對較多的識別技術來講述一下會比較合適,瞭解青潤的人都知道,青潤再2005年第二次進入中科院做的就是人臉識別和行為分析方面的研究和產品。

識別,就需要考慮到下面幾點:

1、樣本資料的採集;

2、樣本資料的標定;

3、樣本資料的自我檢驗;

4、基於樣本資料的模型構建;

5、構建樣本的特徵碼庫;

識別過程是這樣的:

6、進行目標資料採集;

7、基於模型構建獲取的特徵提取演算法進行特徵提取;

8、進行目標特徵碼和樣本特徵碼的對比,並根據對比的異或資料得到結果;

於是基本的過程結束了,下面是增值和演進過程:

9、採集新的資料,並進行同樣模型的特徵提取,然後進行特徵對比,獲得識別結果。

10、           隨著時間的演變,每一個被檢驗目標都會發生變化,人會從小孩變成成人然後變成老人,各種材料會衰變老化(比如一些重要裝置的重要部件在發生重大事故時要檢測是不是原來的部件,是不是因為老化造成的,是不是被人為破損或者替換了的時候都需要這個),這時候,就產生了一種模型的演進演算法,也可以稱之為疲勞演算法。

11、           而為了確保目標的有效性,還有一種活體檢測技術也隨之而產生了,現在看到的各銀行和支付寶等做的讓你眨眨眼,扭扭頭,張張嘴的動作,就是為了活體檢測,但是,這其實是外行在做的活體檢測技術。2005年以前的人臉識別研究人員都知道,用眼球的反光點作為活體檢測是最有效的,而且是最不容易被破解的,或者說是無法破解的,而目前這些轉頭之類的動作只需要一張矽膠皮就可以被輕鬆破解掉。

隨著資料獲取的越來越多,原本的機器學習演算法演進成了深度學習演算法的過程,於是上面的流程也得到了改變,改變後的結果基本上都是這樣的:

1、樣本資料的採集;

2、樣本資料的標定,第二次迴圈到這裡時將採用自動標定,根據計算的驗證結果改進標定演算法;

3、樣本資料的自我檢驗;

4、基於樣本資料的模型構建;

5、構建樣本的特徵碼庫;

6、自動抓取獲得網路上的各種資料來源樣本,或者基於自己的推演得到新的資料樣本,並基於資料來源的資料完成新的模型採集過程,然後不斷自己重複上面2-6的過程;

識別過程是這樣的:

7、進行目標資料採集;

8、基於模型構建獲取的特徵提取演算法進行特徵提取;

9、進行目標特徵碼和樣本特徵碼的對比,並根據對比的異或資料得到結果;

於是基本的過程結束了,而很多新入行的所謂模式識別程式設計師不瞭解過去對目標特徵的驗證技術,於是只能考慮看上去似乎更為簡單的活體驗證手段或者他們自認為更好的演進手段,於是形成了下面的方式:

10、           採集新的資料,並進行同樣模型的特徵提取,然後進行特徵對比,獲得識別結果。

11、           而大部分公司其實不懂得需要設計疲勞演算法,因為他們的資料太新,還沒有到需要考慮疲勞衰變問題的階段,這對於他們來說,都是未來模型需要被再次重建的必然,同樣較好的疲勞演算法也是無法從opencv上直接獲得的,這也在一定程度上證明了,他們還沒有到大資料的層面,僅僅是單一層面的資料量巨大而已;

12、           而為了確保目標的有效性,還有一種活體檢測技術也隨之而產生了,現在看到的各銀行和支付寶等做的讓你眨眨眼,扭扭頭,張張嘴的動作,就是為了活體檢測;

13、           11-12的過程採用了更多的手工標定,因為他們不知道如何設計出更好的機器標定演算法,或者說,最好的標定演算法他們無法從opencv上獲得,只能採用這種原始的手工標定方式。

據青潤得到的資訊,某個某年剛剛拿到十多億美元的某人工智慧公司,某一段時間內的人工標定費用是以千萬投入來計算的,具體是哪家公司就不方便明說了。

隨著深度學習的應用,資料量越大,就越不是負擔,而是精度更高的演算法模型的實現過程,因此,大資料已經成為人工智慧的必然導向結果,而且大資料的有效資料總量越大,就意味著結果的精度越高。

當然,這種結果精度越高的有效資料總量,一定是有一定衡量方式的,絕不是什麼資料拿過來都可以用的,這一點必須區分,很多公司為了盲目吹自己是大資料而不加區分的片面強調自己的資料量巨大,這是不對的,也是一種錯誤的導向方式,換句話說,除了蹭熱點,並沒有其他任何價值,這也是需要技術人員也包括投資機構應該看明白的地方。



今天是西方的聖誕節,表達一個個人觀點,任何節日都可以過,但是,儘量讓節日過得有些意義,不要糟蹋東西就好。

本文圖片是2005年青潤拍攝的光斑圖用來做影象分析處理。

相關文章