大資料、人和機器智慧演化

freshairpeng發表於2014-03-25

通常的電子在矽片裡面的運動完全是雜亂無章的。“量子自旋霍爾效應”找到了電子自轉方向與電流方向之間的規律,利用這個規律可以使電子以新的姿勢非常有序地運動,“就像高速公路,分車道里行駛的車輛一樣”,張首晟教授說。“這樣能量耗散會降到很低。”這一物理發現有可能給未來的資訊革命帶來重大影響,電腦甚至量子計算都將隨之發生巨大改變。張首晟教授也提出:“可能在十年後目前的半導體技術潛力用完之時,會出現基於量子自旋霍爾效應的新一代電腦。”

正如在《復甦》(renewal)一書中,特拉維斯·吉布斯提出的,“遺傳,就是要我們記住那些已經奏效的東西。”張首晟也認為,“人之所以能夠具備智慧,是通過幾百萬年的進化。今天大腦那麼聰明,其實也是經過大資料的訓練。計算機沒有發展那麼長的時間,只能用整個空間的分佈來縮短它進化的時間。現在通過大資料和機器學習,我們可以加速的實現這個進化。”

張教授認為,人類的大腦,因為它的儲存量到底不是那麼大,所以它對資訊、資料有個篩選的過程,大腦是做的特別好。“其實我們人忘記事情,是很重要的功能。今天對於大資料,如何對湧進來大量資料進行預處理也是關鍵。”張教授說。“事實上因特網現在要做的事情,很重要的也是對於知識的排序和管理。”他舉例說,谷歌之所以成功,最早期開發的pagerank功能很重要,它就是一個排序的功能。“今天對大資料,對知識,怎麼對它進行有效地管理,也是最重要的事情。可能維基百科通過人工在做的一些,可能還需要更深層,比如說知識圖譜,谷歌的pagerank只是一維的評價。”張教授說。

為什麼要管理和整合這些資料,張教授說:“2012年,我在史丹佛專門開的一門課上,我曾講了一個挺有趣的故事。我說2012年,正是預言的‘世界末日’,聯想到了諾亞方舟的故事。諾亞方舟當時是洪水,現在大資料帶來很多好處,同時也像一場大的洪水。你一定要在那麼多的資料裡面,通過它總結出最高的智慧(知識),還要能夠有個智慧的排序。所以,現在碰到最有趣的問題就是怎麼自動的來整合、管理這些資料。”

張首晟認為,機器學習(deep learnnig)具有很大得空間。他提出,最近一些主要的發明,都是在這個演算法上的一些發明。正如人的學習具有不同的抽象的層次,機器也是一樣的。比如機器下棋為什麼難?按理說如果有一個計算機,我就可以將所有步驟的可能性全算出來,但是這些計算其實是指數增長的。隨著棋盤的大小,複雜性也是指數的增長。即便今天,我們計算機的能力這樣增長,遇到指數增長的問題,我們還是要找到一些非常巧妙,比較近似的,但是基本上對這個問題解決的比較好的方法。

就像“谷歌翻譯”就的確是一個非常重大的發明,張教授說:“本來學自然語言,都是要有很多專家對語言的理解。現在一個數學模型做完了之後,谷歌通過掃描,把幾乎所有的圖書資料儲存過來,機器通過程式慢慢自己分析這個語法。計算機看了之後,有了這個感覺之後有這個語法,有這個語法的概念在後面。”(這也是大資料全量資料和相關性的體現。)

“本來機器翻譯就是有兩派不同的思潮,有一派的思潮就是說我要把語法、知識怎麼灌輸到機器裡面去;現在就是谷歌說忘掉語法,通過寫一個好的學習程式,讓機器看那麼多的東西,讓它自動總結出這個語法的概念。”張教授認為:這個時代之所以那麼激動人心,就是我們兩件事情在同時做。一個在理解人的腦子,還有一個是想通過大資料,擴充人類的智慧。機器和人互相反饋,也許能催生新的科學大發現。

最簡單的,他距離說就像自己做研究的時候,最想要的就是計算機能夠根據自己以前看的論文,根據看文章的習慣,自己寫的論文,以及做的筆記,可以到全網路上去找,計算機知道他理解問題的風格,知道他對什麼東西感興趣,如果能夠經常給他一些好的文章或論著,反饋給他,他我就可能做出更多的成果。事實上通過這樣的例子,張首晟覺得人的智慧和機器的智慧是可以互動的。

甚至人和機器的智慧還能互相提升,張首晟同樣以谷歌的例子,闡釋和人和機器怎樣能夠在智慧提升上達到一個雙贏。他說谷歌圖書擁有很多的書。但是在掃描這麼多書的時候,就會有一些錯誤,機器怎麼也辨識不出來,這是一個問題;另外還有一個看似截然不同的問題,就是很多人會通過計算機去攻擊一些網站。因而說我們去郵箱,或者銀行賬號登入的時候,就可能會讓你填幾個驗證碼,這些驗證碼最好要是計算機認不出來的東西,只有人才能認出來。卡梅隆大學就想出一個辦法,把這兩個東西放在一起:就是在谷歌圖書掃描的時候,發現有一些認不準的,它就放到諸如銀行頁面登入驗證的地方讓人來認,本來這個問題一個是矛,一個是盾,現在兩個東西放在一起就解決了這個問題。同時給出兩個,一個是計算機本來已經知道的,故意模糊化一下,;還有一個谷歌在掃描書的時候也認不準的,最終對比大家提交的答案,大部分人相同的可能就是正確的。這個其實是一個很好的例子。兩個難題通過這種大資料方式得到了一種相對簡單的,比較好的解決方案。

目前hadoop真是太火了,做了這木多年的java,看來大資料時代已經是必然要來臨了,還好前不久開始接觸,越發覺得hadoop有用,希望大家一起進步,建了一個hadoop的網站和論壇,希望大家一起過來交流。。                    

               www.bihadoop.com       http://www.bihuman.com/bbs/forum.php

BIhadoop每月兩次的交流試聽活動一直在進行中,本月28hadoop   

內容:用MR實現資料探勘

每月活動通知都在論壇聚會交流帖子

Hadoop五人精英班,10大核心技術,五大明星講師,8hadoop經驗積累,不做更好,只為hadoop5人精品培訓班,追求卓越而生。。。

報名電話:15116995573   2014年一月四日開班     www.bihadoop.com

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/14766526/viewspace-1129486/,如需轉載,請註明出處,否則將追究法律責任。

相關文章