大家應該還記得《黑客帝國》裡面Leo躲避槍林彈雨的高難度動作,這部電影,充滿了大資料與人工智慧的色彩。演算法師通過對資料庫的標記、對資料庫的檢測、編排,甚至對敵人發出攻擊,當時看起來相當科幻的鏡頭,如今已經是被廣泛運用的技術。
所謂大資料,即是在從各種各樣型別的資料中,快速獲得有價值資訊的能力。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。
從亞馬遜的比價推薦,Nefilix公司對《紙牌屋》受捧的成功策劃、微軟紐約研究院的經濟學家David Rothschild對奧巴馬到奧斯卡到NBA資料的精準預測,已經充分證明了這不是一項噱頭技術。
大資料有四個明顯的優勢:第一,資料體量巨大。從TB級別,躍升到PB級別;第二,資料型別繁多。前文提到的網路日誌、視訊、圖片、地理位置資訊等等。第三,價值密度低。以視訊為例,連續不間斷監控過程中,可能有用的資料僅僅有一兩秒。第四,處理速度快。
人工智慧是一個非常複雜的方向,也是一個跨學界的計算機學科,涉及到其他方面的知識,主要內容在於計算機學習人類的自然語言處理。我們無需去遐想如智慧終結者這樣科幻的畫面,那是科學家的要研究的事。現實生活中,我們已經看到越來越多的大資料與人工智慧結合的產品,如蘋果的Siri,它包含語音識別(Speech Recognition),是自然語言處理(Natural Language Processing)的一部分。在實際的應用中,起到了不少作用,包括智慧手機上的服務調配,能解決使用者日常的需求。
那麼這是否大資料與人工智慧的結合的切合點?我們來看看簡單原理:
在《大資料:改變我們生活、工作、思考的革命》一書中,作者維克多?梅耶提到,現在的電腦系統是根據編寫程式時明確要求它們遵循的規則來進行運算的。因此,當一個結果偶爾無可避免地出錯的時候,我們可以回過頭Recode。無論電腦程式碼如何複雜,任何程式碼都是可以追中並理解運算的基礎。
但大資料的追蹤變得困難許多。首先演算法預言的基礎可能會複雜得讓常人難以理解。谷歌翻譯在判斷一個單詞的翻譯方法卻動用了數十億頁的翻譯資料。 這種基於海量資料大量的統計運算,使得人們幾乎不可能追蹤演算法具體的因素。同時,由於大資料的規模體量,其運作的規模也超乎我們的想象。谷歌分辨幾個搜尋關鍵詞和流感的關聯是測試四億五千萬個數學模型的結果。
如果要說服客戶使用這套技術,便需要演算法師來幫助調整,從事這個職業的人,都需要哪些要求?
首先,這些專業人士是電腦科學、數學和統計學方面的專家。日常工作中,他們會檢查大資料的分析和預報。他們會評價資料來源,分析預報,作出底層的演算法模型,當人們需要檢測演算法的原理,他們會調出演算法的結果、統計方法及資料庫。簡單說,演算法師擔當的是一個篩選資料的職能。
計算機發展至今,積累的龐大資料庫需要有人對其進行編排組織,給以針對性地利用。在這裡演算法師又分為外部演算法師與內部演算法師。外部演算法師可以在政府需要的時候,比如法庭發出命令或頒佈規章,以中立審計師的身份檢查大資料預報的準確性或合理性。演算法師可以為大資料公司提供服務,給予專業的審計服務。
內部演算法師在機構的內部監察大資料活動。他們不僅關注企業的利益,還關注被企業的大資料分析影響到的人的利益。他們監督大資料操作,任何人覺得自己被該機構的大資料預告傷害到的時候,內部演算法師是他們第一個聯絡的人。他們在資料公佈前檢查分析的完整性和準確性。要完成頭兩個任務,演算法師必須在他們供職的企業內享有一定程度的自由和中立性。總而言之,內部演算法師是企業為了維持公眾信任而生的職業。
對於演算法師這份職業需求,最直接的原因是,大資料的領域還未能建立起新的規範準則約束企業。演算法師通過設計一套系統,為社會解析對個人資料等安全上的擔憂設立保障,對於這份開啟黑匣子的職業,有人感興趣嗎?