資料驅動生活,演算法統治世界——QCon大資料論壇觀感

楊靜lillian發表於2014-04-28

enter image description here

前兩天第一次參加QCon北京2014大會,深切感受到一種另類的極客文化。

首先,第一天的大會主題演講,就是三個老外主講。第一個上臺的老外,講如何分析火星探測的資料;第二個老外雖然講的比較貼近實際,是金融時報網站應用架構的問題,但是他的長相卻活像火星人;第三個老外的演講題目是《大規模腦計算——操控腦,繪製腦地圖》。會議提供了同聲傳譯耳機,成千的程式設計師將會場塞滿。

enter image description here

第二天有英特爾中國研究院院長吳甘沙出品的《大資料處理與大資料應用》專題,所以會場也是連過道和地毯上都塞滿了程式設計師。而且,此會議不設VIP席,先來的普通聽眾就可以直接坐在第一排中間,而後來的重量級嘉賓也只能在過道站著或者找個小凳在邊上坐著。聽眾隨來隨走,充分體現了網際網路行業的平等與自由精神。

enter image description here

吳甘沙將這一天的大資料論壇主題定為“資料驅動生活,演算法統治世界”,彰顯了程式設計師們用演算法撬動地球的野心與實踐路徑。從大資料專題的演講內容看,現在遠不止IT業,生物、醫學等領域都在運用大資料來探索生命的奧祕,用演算法創造和改變世界。

enter image description here

來自霍華德·休斯醫學研究所的Jeremy Freeman是一位神經學科學家(封面大圖就是他),平時的工作也是跟很多大資料打交道,他會研究小鳥、老鼠身上的神經元,將這些神經元抽取出來,進行視覺化研究。他希望能夠找到一些規律,讓這些規律用在人類的大腦上。他們選擇了斑馬魚做視覺化研究,因為斑馬魚看起來是透明的,它的眼睛就好像兩個點一樣,使用light-sheet技術可以探索斑馬魚的大腦結構。

對於會發光的神經元,他們採用了一種叫做light sheet的光學儀器,能夠同時記錄10萬個神經元的發光情況。上圖即是該儀器採集的一秒鐘內魚腦的不同工作狀態,發光處為正在工作的神經元。圖中顏色是代表神經元的活動,最終是形成一個動態的神經元形態。重要的是每一個追蹤的資料都是三維的,是有針對性的,顏色、亮度和位置都是針對具體的神經元,可以把斑馬魚身上的每一個神經元都用圖形表示出來。綠顏色的是眼睛,非常明顯的,綠顏色先出來,因為眼睛是先受到訊號刺激,然後是藍顏色、紅顏色、紫顏色。藍顏色稍微有些延遲,因為是斑馬魚腦中的位置。眼睛肯定是先收到訊號的,然後才是藍顏色大腦的部分收到訊號。這些都叫做動作反應區。受到刺激以後,斑馬魚就要開始游泳了。在這個刺激之後,根據繪圖,可以發現時間軸和動作反應的大小、速度和位置形成的函式圖象。

enter image description here

他們用類似的研究方法和分析方法,加上不同神經元的活動方向,每一次實驗都是應對著一個具體的刺激訊號,以不同的方向進行的。通過這種分析,可以得出大腦的空間和時間的圖象。Jeremy Freeman說:“對於我們來講,線上的資料分析一定是未來的發展趨勢。因為最終我們希望能夠把大腦的反應活動和動物的行為關係圖繪製出來,也希望可以瞭解它的功能以及實時的函式圖象。”

用傳統的並行演算法MapReduce做透明魚神經元的大資料分析不是很靈活,所以Freeman嘗試用開源演算法Spark來做,得出的結果非常酷炫。上圖左邊是斑馬魚神經元活動的空間模式,右邊是神經元活動的時間模式。做出來一個360°旋轉的視覺化神經元活動3D動畫。

雖然斑馬魚的神經元不能跟人類相提並論,但大規模和分散式的Spark演算法能把它的實時神經活動一覽無餘地呈現出來。有人還得出Spark將終結MapReduce的結論。Freeman總結說,未來的挑戰在於Spark做深度學習還需大量的資料來源。

enter image description here

緊接著Freeman登場的是華大基因的研究員陳鋼,他的演講可以說撼動了我的世界觀。他說以往人類基因組用30億美元測出的人類基因組,現在用1000美元就可以進行基因測序。“忘掉什麼轉基因吧。轉基因還是用自然基因拼接的,但是現在生物科技已經可以直接用計算機程式改寫基因甚至設計基因了!還有門專業叫做‘基因編輯’。”

enter image description here

陳鋼介紹,計算機已經可以合成人工生命,現在做到的,是用計算機設計一個基因,然後將人工設計的基因植入酵母體內,人造的新物種就誕生了——設計者還在這個基因裡寫了他們的名字。於是現代生物技術把上帝拋在一邊,開始創造新物種。轉基因與之相比該算小兒科!

陳鋼介紹華大基因在用天河一號和天河二號超級計算機跑大資料。在基因組分析中,GPU應用比較多,其中天河一號用GPU給基因組做聚類分析。他們現在也在嘗試用阿里的飛天5000跑資料。

目前谷歌投資了不少生物基因公司,華大公司近年也得到較大規模融資。他總結說,現在生命科學也是IT業在推動。

enter image description here

聽完吳甘沙組織的這個大資料專題,深受震撼。原來不僅IT業的程式設計師在架構虛擬世界,而且生物醫學界的科學家們也在運用大資料分析大腦,分析基因,並且在用不斷迭代更新的演算法來設計新基因,創造合成生命。

在真實世界、網路虛擬世界之外,未來可能還會出現人工合成的世界。在QCon的會場,真切感受到來自真實世界以外的兩個世界的衝擊。很明顯,虛擬世界與合成世界或許會快速融入真實世界,佔有的權重也可能越來越高。

大資料已經在驅動人類的現實生活,未來,演算法真的會統治世界麼?讓我們拭目以待。

相關文章