一、關於此書
看完了《矽谷之謎》之後,室友肖老闆立即向我推薦了這本《智慧時代》,當然他也買了,於是乎我就拿來看了。作者仍然是無所不通的吳軍博士,Google早期員工之一,原騰訊副總裁,當前Google中日韓文搜尋演算法的主要設計者矽谷大咖,是一個還不錯的攝影愛好者,一個古典音樂迷,喜歡享受高質量的影視。平時偶爾會修理園子,甚至做點木匠活,每年還會旅遊很多次。
羅輯思維的羅胖曾經這樣評價吳軍博士:“吳軍博士是一個時間管理方面做到極致,同時又充滿生活樂趣的人”。記得柴靜在《看見》一書中說道,她的老師陳氓說道:“成功的人不會幸福,因為他只能專注一個事,你不能分心,你必須全力以赴工作,不要謀求幸福”,而吳軍博士恰恰正是為了打陳氓老師的臉的(哈哈),而這種狀態其實也是我所追求的。
說來慚愧,我的研究生專業是計算機,研究方向是雲端計算,照理說應該對大資料有所研究。但是,研一就被老師派到校外去做.NET應用開發了(哈哈,感覺一下就low了好多),也就有了我現在在部落格園的活躍,啊哈哈。雖然自己在研究生階段學習了一些Hadoop的技術,也有了一些感性認識,但畢竟不完整。如果你對下面幾個問題感興趣,那就一起閱讀一下這本書吧:
在南卡羅來納州的多切斯特縣,警察是怎麼通過智慧電錶抓住一個在自家種大麻的人?
亞馬遜為什麼會把男性護膚品和古典音樂一同推薦?
塔吉特連鎖百貨店是如何提前於家長知道正在上高中的女兒已經懷孕的?
如果你想知道上面這些問題的答案,那麼就去讀一讀這本《智慧時代》吧。好了,書託這個國際慣例就到此結束啦。
二、精華筆記
0.推薦序
- “用不確定的眼光看待世界,再用資訊來消除這種不確定性”,是大資料解決智慧問題的本質。
- 世界的不確定性來自兩個方面,一是影響世界的變數太多以至於無法用數學模型來描述;二是來自客觀世界本身:不確定性是我們所在宇宙的特性。
- 機器智慧革命的發生來自大資料量的積累達到質變的奇點。→從這個角度看,機器學習同人類學習並沒有什麼本質的不同
1.資料-人類建造文明的基石
① 資料最大的作用在於承載資訊,但並非所有的資料都承載了有意義的資訊。資料本身是人造物,因此他可以被隨意製造,甚至可以被偽造。
② 對資料和資訊進行處理後,人類就可以獲得知識。知識比資訊更高一個層次,也更加抽象,它具有系統性的特徵。
eg.測量星球的相對位置和對應的時間,就得到了資料;通過這些資料得到星球運動的軌跡,就是資訊;通過資訊總結出開普勒三定律,就是知識。
③ 相關性是使用資料的鑰匙。很多時候,我們無法直接獲取資訊,但是我們可以將相關聯的資訊量化,然後通過數學模型,間接地得到所要的資訊。
eg.Google利用各地使用者搜尋和流感有關的關鍵詞的趨勢變化,預測疫情的傳播情況
④ 資料驅動方法:只要資料量足夠,就可以用若干個簡單的模型取代一個複雜的模型。因為它是先有大量的資料,而不是預設的模型,然後用很多簡單的模型去契合資料。雖然這種資料驅動方法在資料量不足時找到的一組模型可能和真實的模型存在一定的偏差,但是在誤差允許的範圍內,單從結果上看和精確的模型是等效的。它是大資料的基礎,也是智慧革命的核心,更重要的是,它帶來一種新的思維方式。
⑤ 在今天的IT領域,越來越多的問題可以採用資料驅動方法來解決。具體講,就是當我們對一個問題暫時不能用簡單而準確的方法解決時,我們可以根據以往的歷史資料,構造很多近似的模型來逼真真實情況,這實際上是用計算量和資料量來換取研究時間。它的最大優勢在於,可以在最大程度上得益於計算機技術的進步。
2.大資料和機器智慧
① 圖靈測試:讓一臺機器和一個人坐在幕後,讓一個裁判同時與幕後的人和機器進行交流,如果這個裁判無法判斷自己交流的物件是人還是機器,就說明這臺機器和人有了同等的智慧。
② 人工智慧這個名詞嚴格地講在今天有兩個定義:
第一個是泛指機器智慧,也就是任何可以讓計算機通過圖靈測試的方法,包括資料驅動方法;
第二個是狹義上的概念,即20世紀五六十年代特定的研究機器智慧的方法(首先了解人類如何產生智慧,然後讓計算機按照人的思路去做)。
③ 全世界各個領域資料不斷向外擴充套件,漸漸形成了另外一個特點,那就是很多資料開始出現交叉,各個緯度的資料從點和線漸漸連成了網,或者說,資料之間的關鍵性增強,在這樣的背景下,就出現了大資料。
④ 大資料的特徵 : 體量大、多維度、全面性。
Q:為什麼使用Big Data而不是Large Data ?
A:Big與Large等近義詞的差別在於,Big更強調的是相對小的大,是抽象意義上的大,而Large和Vast等常用於形容體量的大小。使用Big更重要的是它傳遞了一種資訊—大資料是一種思維方式的改變。
⑤ 我們對大資料重要性的認識不應該停留在統計、改進產品和銷售,或者提供決策的支援上,而應該看到它(和摩爾定律、數學模型一起)導致了機器智慧的產生。而機器一旦產生和人類類似的智慧,就將對人類社會產生重大的影響。
3.思維的革命(吳軍博士開始講歷史了)
① 托勒密方法論的核心思想:首先,需要一個簡單的元模型,這個模型可能是假設出來的,然後用這個元模型構建複雜的模型;其次,整個模型要和歷史資料相吻合。(動態規劃管理學的理論方法和托勒密方法論一致)
缺陷: 一是整體模型很複雜;二是確定性假設,模型一旦產生,就是確定的和不會改變的。
② 笛卡爾的科學方法論:大膽假設,小心求證。
③ 牛頓的機械思維:一是世界變化的規律是確定的;二是因為有確定性做保障,因此規律不僅是可以被認識的,而且可以用簡單的公式或者語言描述清楚;三是這些規律應該是放之四海而皆準的,可以應用到各種未知的領域指導實踐。→工業革命就是機械思維的結果
④ 世界的不確定性來自兩個方面:一是當我們對這個世界的方方面面瞭解的越來越細緻後,會發現影響世界的變數其實非常多,已經無法通過簡單的辦法或者公式算出結果,因此我們寧願採用一些針對隨機事件的方法來處理他們,人為的把他們歸位不確定的一類。二是不確定性的第二個因素來自客觀世界本身,它是宇宙的一個特性。
⑤ 資訊量與不確定性有關:假如我們要搞清楚一件非常不確定的事,或是我們一無所知的事情,就需要了解大量的資訊。相反,如果我們對某件事已經有了較多的瞭解,那麼就不需要太多的資訊就能把他搞清楚。所以從這個角度看,可以認為,資訊量的度量就等於不確定性的多少,這樣夏農就把熵和資訊聯絡起來了。→夏農真是碉堡了!
重點:用不確定性這種眼光看待世界,再用資訊消除不確定性,不僅能夠賺錢,而且能把很多智慧性的問題轉化成資訊處理問題,具體說,就是利用資訊消除不確定性的問題。
⑥ 夏農老人家的傑作:第一定律(將原始信源符號轉化為新的碼符號,使碼符號儘量服從等概分佈,從而每個碼符號所攜帶的資訊量達到最大,進而可以用盡量少的碼符號傳輸信源資訊。)和第二定律(資訊的傳播速率不能超過通道的容量)。
最大熵原理:當我們要對未知的事件尋找一個概率模型時,這個模型應當滿足我們所有已經看到的資料,但是對未知的情況不要做任何主觀假設。
⑦ 現代通訊手段的本質:就是以相對低廉的成本獲得人脈,而媒體行業的不斷進步,本質上是不斷地在為企業拓寬對外連線的寬頻,使得它們做生意越來越方便。
⑧ 大資料的科學基礎是資訊理論,而它的本質就是利用資訊消除不確定性。
⑨ 大資料時代的思維方法:從大量資料中直接找到答案,即使不知道原因。這一方面給了我們一個找捷徑的方法,同時我們不會因為缺乏勇氣而被難倒;另一方面我們是否能接受這種不知道原因的答案。
4.大資料與商業
① 大資料在商業活動中從細節到整體再從整體到細節的雙向流動,使得我們不僅能夠利用大資料對商業進行整體提升,更能夠精確到每一個細節。
② 一項技術帶動整個社會變革的事情,通常遵循一個模式:
新技術+原有產業=新產業
(新技術: 從蒸汽機、電、摩爾定律到大資料、機器智慧)
③ 在大資料時代,IT軟體和服務業依然會是IT領域最好的行業,而且這個趨勢更加明顯。提供服務雖然不像銷售產品一次能掙到比較多的錢,但是細水長流的技術服務最終會給這些服務的提供者帶來更長久的生意、更多的利潤。未來產品的服務水平不完全取決於廠商對它的重視程度(如服務態度)和相關技術,而更多依靠智慧化。未來,商家將在資料層面和智慧化方面展開競爭。
④ 在今天的大資料和機器智慧時代,雖然每一個公司都得益於資料的使用以及機器智慧帶來的好處,但這並不意味著每家公司都要聘請資料科學家或者機器智慧方面的專家。更切合實際的是,他們付費使用第三方的服務。在未來我們可以看到,大資料和機器智慧的工具就如同水和電這樣的資源,由專門的公司提供給全社會使用。
5.大資料和智慧革命的技術挑戰
① 大資料時代,在收集資料時常常沒有預先設定的目標,而是先把所有能夠收集的資料收集起來,經過分析後,能夠得到什麼結論就是什麼結論。這樣就避免了取樣之苦,因為大資料常常以全集作為樣本集。
② 大資料平行計算的難題:一是任何一個問題總有一部分計算是無法並行的,這類計算佔比越大,並行處理的效率越低;另一個影響平行計算效率的因素在於無法保證每個小任務的計算量是相同的。
③ 解決大資料實時處理的問題,就要從根本上改變系統的設計和演算法。
④ 機器智慧的關鍵—資料探勘。一是對資料過濾和整理;二是進行機器學習,機器學習是一個不斷迭代、不斷進步的過程,即“期望值最大化”—只要事先設定一個學習的目標,這些演算法就會不斷地優化模型,讓它越來越接近現實情況。→ETL+ML
⑤ 資料安全技術面臨問題:一是保證使用者資料不損壞、不丟失;二是保證資料不會被偷走或者盜用。
解決的方法:一是從檔案設計和作業系統設計上加以改進;二是利用大資料本身的特點,來保護大資料的資訊保安(如固定資料操作流程)。
⑥ 大資料時代保護隱私的技術:一是從收集資訊的一開始就對資料進行一些預處理,預處理後的資料保留了原來的特性,使得資料專家能夠處理資料,但卻讀不懂資料的內容;二是雙向監視,讓侵犯隱私的人必須以自己的隱私來做交換。→我個人比較期待第二種雙向監視的方式!
6.未來智慧化產業
① 未來的農業:在引入機器智慧後,農業將以嶄新的形態出現(以色列利用高科技改善農業灌溉)。
② 未來的體育:利用大資料指導訓練,分析和總結優秀運動員的動作與技術,糾正其他運動員的動作(NBA金州勇士隊利用大資料建隊)。
③ 未來的製造業:機器智慧滲透到產品製造和銷售的各個環節時,整個製造業將重新洗牌,未來的競爭要靠從設計到銷售全過程的智慧化水平。
④ 未來的醫療:降低醫療成本、解決醫療資源短缺、製造業革命、預防衰老及延長壽命
⑤ 未來的律師業:自然語言處理軟體處理法律檔案,提高律師工作效率,降低訴訟成本。
⑥ 未來的記者和編輯:計算機能提高新聞行業的效率,同時會讓記者和編輯的工作種類萎縮。
7.智慧革命和未來社會(擁抱革命,爭當2%的受益人)
① 智慧社會體現在方方面面,但概括起來,就是讓我們的生活變得更加方便,同時社會資源的利用率極大提高。要做到這一點,重要的是讓整個社會精細化。
② 精細化社會:利用區塊鏈(Block Chain)追蹤每一次交易(比特幣、追蹤商品從生產到銷售、流通的每一個環節),從標準化到個性化的服務(用藥)
③ 大資料、移動網際網路(萬物聯網技術)和機器智慧三者疊加到一起後,我們不再有隱私可言;同時大資料會帶來一個威脅,它在無形中會製造出一個老大哥。→ Big Brother is watching you!
④ 在智慧時代,不是每個人都要去機器智慧的研發製造企業或者去資料公司找工作,而是大家要接受一個新的思維方式,利用好大資料和機器智慧,加入到智慧革命的浪潮中,成為那2%的受益者。
三、這是最好的時代,也是最壞的時代
閱讀《智慧時代》最大的感受莫不在於書中引用的狄更斯的《雙城記》第一句:“這是最好的時代,也是最壞的時代”。回望歷史,人類所經歷過的三次重要革命:19世紀末始於英國的工業革命、20世紀末始於美國和德國的第二次工業革命以及二戰後以摩爾定律為標準的資訊革命,每一次的革命都對當時的社會產生了巨大的衝擊,他們或多或少都經歷了大約半個多世紀甚至更長的時間才能被消化掉。
我們至今仍然處在資訊時代的高峰年代,我們見證了蘋果公司的賈伯斯、微軟帝國的比爾蓋茲、戴爾公司的邁克爾戴爾、Google公司的拉里佩奇和謝爾蓋布林等人,他們在自己年富力強時幸運地趕上了資訊革命的大潮,站在了浪潮之巔。我們也見證了BAT在中國的巨無霸模式發展,也見證了在中國應用“新技術+原有產業=新產業”的諸多實踐案例,它們讓我們的生活變得更加方便,不禁感嘆:自己處在了最好最方便的時代,有了資訊,有了網際網路,我們也就有了一切。
資訊時代還沒結束,以大資料和機器智慧為趨勢的智慧革命又已經來臨,吳軍博士說:“大資料和機器智慧的趨勢一旦形成,就不是人力可以阻擋的”。我們也看到雖然特斯拉的馬斯克和微軟的蓋茨嘴上說不要,身體卻很誠實(都花了重金投入到機器智慧領域的研發)。但是,智慧革命所要替代的是我們人類最自豪的部分—大腦!!!在過去,機器替代的只是人的手,而智慧革命的結果是讓計算機替代人去思考,或者說靠計算能夠得到比人類思考更好的結果,能過更好地解決各種智慧問題。這時,或許我們會在某天醒來突然發現,好像已經沒有什麼地方需要我們去做了。當全社會各行各業的從業人數都因為機器智慧而減少時,全世界幾十億勞動力怎麼辦?我們又不禁感嘆:自己處在了最壞的時代,有了計算機,有了機器智慧,再也不需要人類工作了,我們又拿什麼養活自己和家人?
此外,大資料和機器智慧的發展也導致了目前我們處在一個無隱私的社會,正如吳軍博士所說 “在今天和未來,當大資料、移動網際網路(萬物聯網技術)和機器智慧三者疊加到一起後,我們不再有隱私可言”。因為隱私被洩露,我們或許常常會在淘寶購物時受到假貨,機票總是比別人貴10%,可能沒有醫院會接收我們住院,更可惡的是各大保險公司有權利拒絕一位未來可能得重病的投保者(各大保險實際上掌握著投保人過去多年的身體狀況資訊,再加上對資料的分析和挖掘)。回頭想想,我們隨時隨地地在享受網際網路資訊時代帶來的方便的同時也在無時無刻地主動的隱私洩密,從可穿戴式裝置到帶有GPS的相機,再到與Wi-Fi相連的各種智慧電子產品,不自覺地就記錄下了我們詳細的行蹤和生活資訊,並且提供了服務商。究其源頭,還是我們自己在不設防的情況下把資訊洩露出去的。
書中提到,在歷次技術革命中,一個人、一家企業,甚至一個國家,可以選擇的道路只有兩條:要麼進入前2%的行列,要麼被淘汰。抱怨是沒有用的。因此,回到這句話“這是最好的時代,也是最壞的時代”,資訊時代餘波未盡,智慧時代又來了,機器人跟人類搶飯碗,社會需要的人則會越來越少,很多人都會被淘汰。借用吳軍博士的話,任何一次技術革命,最初受益者都是發展它、使用它的人,而遠離它、拒絕接受它的人,在很長的時間裡都將是迷茫的一代。在智慧革命即將到來之際,作為普通人和企業都應該擁抱它,讓自己成為2%的受益者,而我們IT從業人員更需要在這樣的環境裡學會生存,因為這是最好的時代,也是最壞的時代!
長長的分隔線後,順便打個廣告,我司招聘大資料開發工程師啦,座標成都天府軟體園,希望有大資料工作經驗的你的加入!有興趣就給個簡歷吧,Edison_X_Zhou@manulife.com
- 職位誘惑:
外資金融,六險一金,帶薪假期,彈性時間
-
職位描述:
Job Summary工作內容:
與Product Owner和專案經理進行需求和專案討論,提供技術和業務的解決方案
根據實際業務需求,負責公司大資料平臺及應用系統的架構設計與開發,技術改進與效能優化
指導和培訓開發人員,解決系統開發、執行中出現的各種問題,同時保證交付質量
建立大資料智慧分析工作的流程、規範和方法
參與和幫助團隊的敏捷實施和持續改善
積極學習和掌握保險相關的業務和系統知識
完成主管安排的其他工作
Job Requirements (Knowledge/Skills/Competencies) 任職資格:
計算機相關專業本科及以上學歷,4年以上工作經驗,其中包含2年或以上的大資料開發實施經驗
精通Java語言,熟悉常見應用框架(如Spring、MyBatis等)和設計模式
熟悉Linux環境,能夠熟練使用至少一種指令碼語言(如Shell、Python等)
熟悉Hadoop/Yarn/Hbase/Hive//Flume/Spark/Kafka等常用大資料元件
熟悉MS SQL Server/Oracle/MySQL/Redis/MongoDB等常見儲存和快取系統
熟悉 Git 等程式碼版本控制技術
較強的分析和解決問題能力,對攻關疑難問題具有濃厚興趣
良好的團隊合作精神、溝通能力和學習能力
有大資料平臺建設經驗者優先錄用
有金融行業背景經驗更佳
有Web開發經驗更佳
-
工作地址