大資料:正在到來的資料革命

編輯推薦

大資料戰略,重新洗牌全球格局:美國,再一次領跑世界;中國,卻很可能再失良機而渾然不知!中國迷局如何解開?最具海歸視野、16年中美職業生涯的作者,從太平洋對面看到中美兩國的差距,披露大量美國真實案例,為華文世界開啟一個重要的話題,寫成一本意在興邦治國的戰略之書,圖文並茂,老百姓也看得懂。

媒體推薦

在極權的國家,他們手上擁有足夠的資訊,足以利用這資訊,掌握每一個人的日常生活;“老大哥”的影子,可以無所不在……塗子沛先生《大資料》這部書,清楚地敘述了資訊時代對我們生活的影響與社會的控御力。他討論的範圍方方面面、極為廣泛。我們要對塗子沛先生致敬與致謝,因為他為華文世界提出一個重要的話題。
——許倬雲(史學大家、匹茲堡大學歷史系榮譽講座教授)在很多領域,中國政府和中國的企業都有雄心勃勃的計劃,這引起了全世界的關注,這些雄心和計劃,現在應該擴充到大資料的領域。塗子沛先生的《大資料》這本書,將在這個重要的領域,為中國政府和企業的努力提供引導和幫助。
無論是對中國政府,還是就中國的商業組織而言,《大資料》都是一本重要的書。
——托馬斯•H•達文波特(哈佛大學商學院訪問教授、巴布森學院總統傑出獎教授、全球頂尖的管理諮詢大師)

《大資料》這本書講述了資料技術浪潮的興起過程,回顧了近一個世紀以來美國作為一個世界強國的開放歷史,氣勢磅礴。從書中可以看到,美國的發展動力,正是開放和創新。我們正在向個性化的智慧網際網路時代邁進,計算力的擴充套件正在不斷加速,資料將成為我們最強大的創新動力。
——楊敘(英特爾全球副總裁、中國區總裁)

《大資料》從奧巴馬建設“前所未有的開放政府”出發,描寫了半個多世紀以來資料對美國社會政治、商業、文化等方方面面的影響,談及了1930年以來歷任美國總統,可謂波瀾壯闊。塗子沛作為科技業的精英,並沒有將自己眼光和生活侷限於技術之上,他對美國社會的獨到觀察和理解、對華人社群工作的積極參與和貢獻,都是促成本書成為一本佳作的重要原因。
——薛海培(奧巴馬總統大選亞裔事務顧問、美國華人全國委員會會長、鳳凰衛視時事評論員)

《大資料》是一本視角獨特、取材新穎、別開生面的好書。它以資料為軸線,描繪了美國走過的開放創新曆程。從該歷程中我們看到,資料探勘是一種知識生產過程,從中產生創新,產生管理,產生推動社會變革的理論與實踐。更有意思的是,美國政治的發展,公民權利的實現,以及各種自由與福利的保障,都和對資料的創造性應用密切相關。這對已經步入資訊時代的中國,尤其有借鑑意義。趨勢所在,資料乃大。塗子沛先生的專業性分析和介紹,是一項創造性的工作。
——郭巍青(中山大學政治與公共事務管理學院教授)

大資料具有催生社會變革的能量。但釋放這種能量,需要嚴謹的資料治理、富有洞見的資料分析,以及一個激發管理創新的環境。塗子沛的《大資料》這本書總結了美國的經驗和實踐,併為中國提出了一個路線圖。我為他的成就感到驕傲。這本書完整地融合了技術、政治、商業三個角度,體現了我們學院師資教學的獨特優勢。我相信本書會在中國激發新的思想和討論,幫助中國迎接大資料的挑戰。
——Ramayya Krishnan(卡內基梅隆大學海因茲學院及資訊管理學院院長、終身教授)

通過歷史故事的講述,用近似新聞評論的筆法,《大資料》這本書以美國為例介紹了由經驗管理到資料管理這場正在發生的革命性變革,通俗形象地講清楚了科學的道理,實屬難得。這對學者們擴大視野,對管理幹部深化科學發展觀的認識,都有十分重要的價值。
——薛華成(中國管理資訊系統的主要開創者、澳門科技大學行政與管理學院名譽院長)

《大資料》這本書揭示了資料在未來社會中的革命性作用。大資料將是下一個社會發展階段的“石油”和“金礦”。無論是個人、企業還是國家,誰能更好地抓住資料、理解資料、分析資料,誰就能在下一波的社會競爭中脫穎而出。關於資料的知識,將成為個人知識結構中的必備要素和基礎。
——施伯樂(復旦大學計算機研究所所長、上海(國際)資料庫研究中心主任)

子沛兄的《大資料》這本書,幫助我們形象地瞭解資訊自由、技術創新與社會進步的關係。我最感興趣的是美國資訊自由制度建立的過程。它讓我看到,一個社會、一種文化,是如何通過自省式的努力,認清比自身存在更本源的客觀規律。這種制度一旦建立,就如同開啟了控制某個基因群組的開關,後面所呈現的演化,雖然眼花繚亂,反而顯得平淡無奇、順理成章了。
——趙嘉敏(東西網總裁、譯言網創始人之一)

18世紀啟動的工業革命為人類創造了巨大的財富,也極大地推動了社會變革。20世紀中啟動的資訊革命對人類社會也將產生巨大的衝擊,而這個程式剛剛開始。塗子沛先生所著的《大資料》一書,用有趣的故事帶我們回顧資訊時代的里程碑,使我們透過未來的變幻不清的迷霧,展望和暢想資訊革命的大趨勢。
——董潔林(蘇州大學企業創新和發展研究中心主任、教授)

《大資料》值得仔細閱讀與思考。要讓資料更好地說話,既依賴於資料科學與技術的發展,更需要政府、機構和公民的資料意識的不斷提高。
——汪小帆(上海交大電子資訊與電氣工程學院教授)

資料科學正在成為一個新興的學科和領域。塗子沛先生的《大資料》這本書,為我們揭示了大資料浪潮發生的前因後果,以及這種技術進步對政治、經濟、文化的種種影響。希望讀者從本書中獲益,以積極的態勢應對中國的大資料挑戰。
——張暉(卡內基梅隆大學計算機系終身教授)

作者簡介

塗子沛,知名專欄作家、資訊管理專家,先後為《南方都市報》、《IT經理世界》、艾瑞網等多個報刊網站撰寫專欄,網易、財經網名博博主。畢業於華中科技大學、中山大學和卡內基梅隆大學。赴美留學之前,曾在省、市、縣幾級政府的不同部門磨礪10年,做過職業程式設計師,擔任過公安邊防巡邏艇的指揮官,也從事過政府統計工作。現為美國某軟體公司資料中心的主任。除了工作、寫作,還熱心公益,是匹茲堡華人社群的領袖。

目錄

序言一 大資料:為華文世界提出一個重要話題 許倬雲
序言二 中國的雄心應該擴充到大資料領域 托馬斯•H•達文波特序幕 新總統的第一天
一人一票:把“黑”人送進“白”宮
大國新政:陽光是最好的防腐劑

上篇 帝國風雲
第一章 歷史爭戰《資訊自由法》
第四股力量:知情權的起點
國會議員:孤獨的戰爭
白宮當家人:一個妥協者和機動者
政府VS. 社會:舊劇情重現新時代

第二章 資料帝國的興起
摩爾定律:全世界半個世紀的發展規律
最小資料集:上升到立法高度的開路先鋒
民意幾時有:選票催生的創新
普適計算:計算機本身將從人們的視線中消失
“大資料”戰略:爭奪全世界的下一個前沿

第三章 資料治國
循“數”管理:平安大道怎樣鋪
資料“驗”平權:民權史上的碑石
資料“打”假:最大的爭議就是福利濫用
CompStat:街頭警察的創新傳奇

第四章 商務智慧的前世今生
起源:從資料到知識的挑戰和跨越
結蛹:資料倉儲之厚積薄發
蠶動:聯機分析之驚豔
破繭:資料探勘之智慧生命的產生
化蝶:資料視覺化的華麗上演

中篇 法則博弈
第五章 帝國的法則
收集法則:減負,為人民減負
使用法則:隱私,文明社會的共識
釋出法則:免費,人民已經交稅
管理法則:質量,網際網路時代的根本

第六章 《資料質量法》的困局
產業界“俘虜”政府:資料背後的政經戰爭
美式“旋轉門”:權、名、利大串場
“摻沙子”法案:國會對付總統的獨門祕器
環保“風險門”:公共利益常常無人代表
集體行動的邏輯:人人都想“搭便車”
三權之歧:什麼是真正的“和諧”

第七章 全國隱私風波
《一九八四》:零隱私的恐懼
大資料就是“老大哥”:中央資料銀行之爭
百年糾結:統一身份證
“9•11”大拐點:以反恐的名義向左轉
萬維資訊觸角計劃:追蹤恐怖分子的“資料腳印”
6 種改變政府的力量:山姆大叔大退讓

下篇 公民故事
第八章 資料開放運動
一個新的世界:從軟體開源到資料開放
總統的雄心:公共財政支出透明
資料民主:印裔資訊長的崛起
Data.Gov:從旗艦初航到保“數”運動
大眾創新:航班延誤之候機經濟學
第九章 試金石:白宮訪客記錄
總統在見誰:大醫改中的“小”插曲
全體美國人的房子:白宮
步步妥協:總統與草根的對決
從白宮安保到政治監督:執著的公民改變世界

第十章 礦難中的歌聲和資料
集體行動的號角:你站在哪一邊
可以避免的悲劇:資料揭示的全景式真相
預設公開推定:和礦難賽跑的原則
唯一的道路:民主時時都要“爭”

外 篇 天下趨勢
視界一 大趨勢
資料權:大不列顛的碩果
大合流: 國際開放聯盟
雲端計算:新的航向
再造網際網路:從網頁相連到資料相“聯”

視界二 大挑戰
逐鹿政壇:得資料者得天下
資料競爭:企業贏之道
下一波浪潮:從大資料到大社會

尾聲 挑戰中國:摘下“差不多先生”的文化標籤

大事記 20世紀大蕭條後美國資訊開放、技術創新之路
譯名錶 美國政府機構ABC
後記 搭建“大資料”的世界

序言

序言二 中國的雄心應該擴充到大資料領域
托馬斯·H·達文波特
無論是對中國政府,還是就中國的商業組織而言,《大資料》都是一本重要的書。大資料及其分析,將會在未來10年改變幾乎每一個行業的業務功能。任何一個組織,如果早一點著手大資料的工作,都可以獲得明顯的競爭優勢,正如早期在“小資料”時代脫穎而出的競爭者一樣,如第一資本金融公司、前進保險公司、萬豪酒店等等。時光荏苒,現在到了抓住大資料機遇的時候了。
大資料之所以產生,是因為今天無處不在的感測器和微處理器。我們正在邁進普適計算的時代。其實,所有的機械或電子裝置都可以留下資料痕跡,這些痕跡表明了它的效能、位置或狀態。這些裝置和使用它的人,通過網際網路互相交流,又形成了另外一個龐大的資料來源。當這些資料和來自其他媒體、無線或有線電話、有線電視、衛星等等來源的資料相結合的時候,更加顯得龐大無比。
這些資料可以被使用,這意味著我們可以把所有的商業或組織活動都視為大資料的問題。如今的製造業,大多數機器上都已經安裝有一個或多個微處理器,已經進入了大資料的狀態。消費營銷行業,無數顧客的交易觸點和網上點選的流量,也成了大資料的問題。谷歌甚至認為其無人駕駛汽車也是一個大資料的問題。
世界各國的政府也開始認識到,他們坐擁海量資料,這些資料都有待分析。在亞洲國家的政府,也出現了大資料戰略以及基於資料分析的方案和倡議。去年,新加坡成立了德勤資料分析研究所(DAI),這個新的機構是由新加坡政府經濟發展委員會資助成立的。德勤資料分析研究所的目標,就是引領政府和企業對於資料的研究和應用。新加坡政府還資助了幾所大學開展大資料和資料分析的研究活動。
任何一個組織,要抓住大資料的機遇,就必須做好幾個方面的工作。從技術角度來看,首先要收集並且開發特定的工具,來管理大規模並行伺服器產生的結構化和非結構化資料,這些資料,可能是自己專有的,也可能來源於“雲”。其次,每一個組織都需要選定分析軟體,用它來挖掘資料的意義。但可能最重要的是,任何組織都需要人才來管理和分析大資料。這些人被稱為“資料科學家”,他們集黑客和定量分析員的優勢和特長於一身,非常短缺。聰明的領導人,將想方設法留住這類人才。
不少公司都意識到了這種難得的機遇,現在已經採取了行動。例如,通用電氣將投資15億美元在舊金山灣區建立一個全球軟體和分析中心,作為其全球研發機構的一部分。這個中心擬僱用至少400名資料科學家,現在已經有180名各就其位了。通用電氣在全球擁有超過1萬名工程師從事軟體開發和資料分析工作,通過共同的分析平臺、訓練、領導力培訓以及創新,他們的努力得以協調合作。通用電氣對於大資料的研究活動,相當一部分集中在工業產品上,例如機車、渦輪機、噴氣發動機以及大型能源發電設施。
對任何一個試圖通過大資料獲得成功的組織來說,通用電氣的投資規模和雄心都是一個榜樣。在很多領域,中國政府和中國的企業都有雄心勃勃的計劃,這引起了全世界的關注,這些雄心和計劃,現在應該擴充到大資料的領域。塗子沛先生的這本書,將在這個重要的領域,為中國政府和企業的努力提供引導和幫助。

後記

後記:搭建“大資料”的世界
2008年12月,我剛從卡內基梅隆大學畢業,就碰上了美國的金融危機,被捲進了失業大軍。
兩年多的留學生活,既緊張又辛苦,結果卻沒工作,不免鬱悶。但“宅”在家裡,卻有了和女兒一起玩耍、抒情詠志的時間。我開始寫部落格,記錄自己在異國他鄉的生活和感受。後來,一篇文章被中山大學的郭巍青教授讀到,經他推薦,發表在2009年9月的《時代週報》上。
沒想到,一個嶄新的寫作空間,就此豁然開啟。
此後,我陸續接受了《新快報》、((南方都市報》、艾瑞網等報紙網站的邀約,寫了近一年的專欄。期間,郭巍青教授、《新快報》的楊震編輯、《南方都市報))的鄧志新編輯和《時代週報》的彭曉芸編輯都對我的寫作有過幫助,令我受益匪淺。
但促成本書最重要的原因,是我們這個時代的迅猛發展,以及我在其中的職業經歷。
1996年,作為計算機專業的畢業生,我的第一份工作是資料庫程式設計師。後來擔任了邊防巡邏艇的指揮官,從事過政府部門的統計工作。但沒想到,在美國的工作,又和資料、政府發生了關係。我所在的美國公司,是政府合同商,致力於為各級政府部門提供資料解決方案。我的新職位,和十幾年前在中國的第一份工作極為相似,但所使用的技術已經無法同日而語。通過和一個又一個專案的“親密”接觸,我真真切切地“透視”到資料在美國政府和企業當中的重要作用。在深入瞭解其成因、背景和趨勢的過程中,我常常被資料的力量和美感所震撼。
我將這種新的特點和趨勢概括為“大資料時代”的“循數管理”和“資料競爭”。
作為一名曾經在中國工作過10年的公務人員,我知道,這種管理方法和競爭態勢還不為我們的政府、企業和大眾所熟悉。
這觸發我產生了一個系統的中文寫作計劃。
就在我決心暗下之時,我的職業發展突然峰迴路轉:2010年下半年,被公司提拔成技術部門的主管。在美國帶隊伍——立刻又成為一個挑戰。為了做好本職工作,我無暇他顧,本書的設想,甚至專欄寫作,都被迫擱置。
次年3月,在回國期間,我和東西網的張文武總編提到了這本書的構思。他聽後眼睛一亮,說這是一本好書,建議我快快寫出來。
他的眼神,又撥動了我心底那根弦。加上新崗位的工作慢慢駕輕就熟,寫作的計劃,於是重上日程。
從2011年6月起,全書歷經8個月。這8個月當中,我幾乎斷絕了一切的社交、娛樂和休閒,投入了全部的業餘時間。如精衛填海、烏鵲銜枝,每晚夜深人靜之時,我就坐在書桌和電腦前,一點一點搭建“大資料”的世界。無論白天黑夜,一有空,謀篇佈局、遣詞造句的問題就在腦中盤旋。記得好幾次,下班回家,過了家門的路口,還渾然不覺,一直把車往前開,最後繞了個大彎才調頭回來。
本書的完成,首先要感謝我在華中科技大學的同窗王怡河。雖然都是理工科出身,但在校期間,我們就對文、史、哲很感興趣,常常聚在一起討論國家和社會的問題。怡河博聞強記,對我的寫作,給予了很大幫助。本書的每一篇章,他都是第一讀者,一些精彩片段,凝聚有他的智慧。摯友張炳劍也曾閱讀過部分章節,提出過很好的意見。我還要感謝KIT Solution軟體公司的總裁張小彥博士。小彥在美國工作、生活了30多年,對美國的政治、經濟、文化都有深入的體察和了解。與他的日常交流和思想碰撞,是我寫作靈感的重要來源。
廣西師範大學出版社的曹凌志主編、王家勝編輯對本書的編輯和出版傾注了心血。戚麗豔、肖準對個別文字和圖片的翻譯有貢獻。楊文卓、王璽等好友曾關心過本書的寫作。在這裡,無法列出所有我心存感激的人員。我在34歲的時候,下決心負笈海外,中山大學的周超教授、華中科技大學的梁木生教授都曾在我人生的這個關鍵點上對我指點、關心、鼓勵良多。
除了辛苦和感激,在我的心裡,還堆積了愧疚。
這8個月中,記不清有多少次,5歲的女兒奕奕拿著玩具、來到我的書房門口,輕聲地問:
“爸爸,你可以跟我一起玩嗎?”
我總是保持統一的口徑,轉過身、硬著心腸回答說:
“爸爸在工作,沒時間……”
帶著失望的表情,她快怏地離開。
一個週末的下午,大雪初晴。我坐在電腦前修改最後一個章節。起身休息,踱步到視窗,忽然看見女兒和太太倆人正在給我停在院子中的車清掃積雪。奕奕的身高,剛過車頭,她穿著大衣、戴著手套,站在厚實的雪地中,一下一下揮動著小鏟。隔著玻璃窗,我聽不到聲音,第一反應是抬腳下樓,一轉念,又不忍打擾這個畫面。我靜靜地靠在視窗,看著紅色的車身慢慢從白色的積雪當中露出來,心,像被撫摸了一樣,感到特別的溫暖。 我知道,很多事難以周全。我期望這本書,能為他人帶去知識和視野。
旅居海外的經歷,讓我深深感到,美國,是一個值得中國人認真學習的國家。所謂的“中國崛起”,我認為現階段還是要證明我們有正確的學習態度和敏銳的學習能力。不要有橋不走,硬要下河摸石頭。
要學習、要上路,這是中國的當務之急。我們的進步,應該以全世界的文明為基礎。在這個過程中,中國需要對西方世界客觀的觀察者、理性的思考者和開放的分享者。
海外的華人、留學生擁有這樣的歷史機遇。我也願把這作為自己的座標,為國家的進步盡綿薄之力。
為了確保本書引用的資料和資料準確,我查對了很多資料。語言表達上,也做了反覆的修改。儘管如此,肯定還有錯漏和不足。感謝您的閱讀,也歡迎您的意見和評點,以備再版時修訂完善。
塗子沛於美國匹茲堡
2012年2月28日

文摘

【尾聲】挑戰中國:摘下“差不多先生”的文化標籤 塗子沛
“而最大的毛病,則是西歐和日本都已以商業組織的精神一切按實情主持國政的時候,中國仍然是億萬軍民不能在數目字上管理。……一旦某一個國家能在數目字上管理,到底使用何種數字,尚可以隨時商酌,大體上以技術上的要求作主,不必籠統的以意識形態為依歸了。”
——黃仁宇(1918—2000),美籍華裔歷史學家,1991年
在論述完大資料時代的趨勢以及這個時代給個人、企業和社會帶來的諸多挑戰之後,本書應該可以畫上句號了。但在結束之前,作為一名中國人,還是按捺不住,要絮叨幾句我們中國在這個大時代當中所處的位置。
資料表明,今天的中國,是一個人口大國、網際網路大國、手機大國,但卻恰恰還不是一個資料大國。2011年,麥肯錫公司以2010年度各國新增的儲存器為基準,對全世界大資料的分佈作了一個研究和統計,中國2010年新增的資料量約為250拍,不及日本的400拍、歐洲的2000拍,和美國的3500拍相比,更是連十分之一都不到。
和美國相比,中國擁有資料量的絕對值較小,這在情理當中。本書第三章曾談到,美國的聯邦政府,是一個資料帝國,它的資料主要有三個來源,一是業務管理的資料,二是民意社情的資料,三是物理環境的資料。這三種資料的積累,並不是一蹴而就的,在其漫長的發展過程中,有其重要的里程碑,例如1940年羅斯福引進的民意調查、1962年啟動的海浪監測計劃和1973年誕生的最小資料集。
而中國類似進步的取得,都是進入21世紀之後才發生的事情。2003年,中國開始著手製定醫療系統的最小資料集,3年之後,中國衛生部出臺了第一版中國醫院最小資料集的標準。也是在2003年,中國創立了第一個全國性的大型社會調查專案,開始對社會的發展和變遷進行全方位、綜合性、縱貫性的問卷訪談調查。這個調查叫做“中國綜合社會調查”,是由中國人民大學發起的,中國人民大學隨後還按照國際標準成立了“中國社會調查開放資料庫”,向全社會開放調查的結果和資料。2006年9月,在幾經周折之後,國家統計局正式成立了社情民意調查中心,這是中央政府第一個、也是目前唯一一個專司社情民意調查的單位;至於對物理環境資料的採集,更是2010年前後才見到若干零星的報導。
因此,從歷史發展的角度來看,中國擁有的資料量較小,可以理解;但另一方面,立足現實,中國的人口、網際網路的使用者、手機的持有量都位居全世界第一,2010年全年新增的資料量卻尚不及美國的十分之一,也大大出人意料。
2011年,中國擁有4.8億的網際網路使用者,幾乎是美國的兩倍;擁有近9億部手機,是美國的3倍。網際網路和手機,都是產生資料的重要來源。在中國,儲存器的價格也已經和國際接軌、相對便宜。在認真考察了這些因素之後,就不難發現,中國缺乏的不是可供收集的資料,也不是收集資料的手段,而是收集資料的意識。
中國人資料意識的淡薄,由來已久,甚至可以稱之為國民性的一部分。
19世紀中葉,中國的大門被西方的堅船利炮開啟。由於科學落後、文化封閉,此後的百多年來,中國人飽受屈辱。在落後、捱打的痛苦掙扎中,中國人開始慢慢睜眼看世界,反省自己與西方的差距,在這個過程當中,也有思想先賢對國民“資料意識”方面的問題進行反省、批判和鞭笞。
中國近現代著名的思想家胡適就對中國人“凡事差不多、凡事只講大致如此”的習慣和作風深感憂慮。1919年,他寫下著名的《差不多先生傳》,活靈活現地白描了中國人取道中庸、不肯認真、甘於糊塗、拒絕精準的庸碌形象:
你知道中國最有名的人是誰?
提起此人,人人皆曉,處處聞名。他姓差,名不多,是各省各縣各村人氏。你一定見過他,一定聽過別人談起他。差不多先生的名字天天掛在大家的口頭,因為他是中國全國人的代表。
差不多先生的相貌和你和我都差不多。他有一雙眼睛,但看的不很清楚;有兩隻耳朵,但聽的不很分明;有鼻子和嘴,但他對於氣味和口味都不很講究。他的腦子也不小,但他的記性卻不很精明,他的思想也不很細密。
他常常說:“凡事只要差不多,就好了。何必太精明呢?”
……
後來他在一個錢鋪裡做夥計;他也會寫,也會算,只是總不會精細。十字常常寫成千字,千字常常寫成十字。掌櫃的生氣了,常常罵他。他只是笑嘻嘻地賠小心道:“千字比十字只多一小撇,不是差不多嗎?”
有一天,他為了一件要緊的事,要搭火車到上海去。他從從容容地走到火車站,遲了兩分鐘,火車已開走了。他白瞪著眼,望著遠遠的火車上的煤煙,搖搖頭道:“只好明天再走了,今天走同明天走,也還差不多。可是火車公司未免太認真了。八點三十分開,同八點三十二分開,不是差不多嗎?”他一面說,一面慢慢地走回家,心裡總不明白為什麼火車不肯等他兩分鐘。
……
他死後,大家都很稱讚差不多先生樣樣事情看得破,想得通;大家都說他一生不肯認真,不肯算賬,不肯計較,真是一位有德行的人。於是大家給他取個死後的法號,叫他做圓通大師。
他的名譽越傳越遠,越久越大。無數無數的人都學他的榜樣。於是人人都成了一個差不多先生。——然而中國從此就成為一個懶人國了。
黃仁宇,是著名的華人歷史學家,他參加過抗日戰爭,後來在美國學習、研究、深造,成為學貫中西的一代大家。他在晚年時發表了一系列的著作探討中西方社會的異同。他認為:
“資本主義社會,是一種現代化的社會,它能夠將整個的社會以數目字管理(Mathematically Management)。”
數目字管理,即以事實為基礎、以資料為核心的精確管理。
黃仁宇總結說:“中國過去百多年來的動亂,並不是所謂道德不良,人心不古,也不是全部軍人專橫,政客搗亂,人民流離”,而是因為中國未能像西方那樣實行“數目字管理”的現代治國手段。他還認為:“一旦某個國家能在數目字上管理,到底使用何種數字,尚可以隨時商酌,大體上以技術上的要求作主,不必籠統的以意識形態為依歸了。”
一句話:中國的落後,根源之一正是缺乏以資料為基礎的精確管理;而未來中國的進步,也有賴於建立這種精確的管理體系。
除了中國人自己思想家的反省和批評,西方世界對我們中國人漠視資料的特點也洞若觀火。
阿瑟•史密斯(Arthur Smith)是一位美國的傳教士,他於1872年來到中國,在中國的普通社群生活了54年,隨後著書立說,成為名動一時的中國文化研究專家。1894年,史密斯出版了《中國人的性格》一書,該書在中國社會、國際社群都產生過很大的影響,一度被公認為研究中國人最權威、最詳盡的著作之一,被翻譯成很多個國家的文字。
史密斯認為,中國人,是一個“漠視精確、思維含混”的民族,他在書中寫道:
“中國人完全能夠像其他民族一樣學會對一切事物都非常精確——甚至更加精確,因為他們有無限的耐心——但我們必須指出的是,他們目前還不重視精確,他們還不知道精確是什麼。如果這一看法是正確的,那麼就可以有兩條推論:其一,在我們考查中國歷史檔案時,必須考慮到中國人漠視精確這一特性。我們採用中國人所提供的數字和數量很容易使我們自己受騙,因為他們從來就不想精確。其二,對於中國人所提供的冠以‘統計數字’以抬高其權威性的各種材料,必須留有很大的餘地。”(《中國人的性格•漠視精確》)
作為一名留學生,長期在美國學習、工作和生活,我也深感到,和美國人相比,中國人確實缺乏“用資料來說話”的素養。中國的語言表達方式中“重定性、輕定量”的特點非常明顯,口語中經常使用“大概”、“差不多”、“少許”、“若干”、“一些”等等高度模糊的詞語。我身邊的一位攻讀博士學位的朋友,曾經給一位美國教授提供過一份中國菜的烹調方法,但其中關於“鹽少許”、“酒若干”、“醋一勺”的提法,令這位美國教授抓耳撓腮、不知所措。我事後自問,也確實感到這種提法,完全是跟著感覺走,讓人無從下手。此外,和美國資料資源的豐富、開放相比,不少中國留學生對於國內的資料匱乏有切膚之痛。寫論文、做研究,如果能選一個自己熟悉的中國話題,於國於己,都更有意義。可選的話題不少,但常常因為一數難求,多數選題都逃不出夭折的命運!有些資料國內確實沒有,有待收集;還有些資料水分太大,經不起推敲和檢驗;再有的,被有關部門貼上了“機密”的標籤,平民百姓無緣相見。
黃仁宇還對中國人缺乏“資料精神”的根源做了剖析,他認為:在中國傳統的學問——理學或道學當中,一直都分不清倫理之“理”與物理之“理”的區別。這兩個“理”混沌不分的結果,是中國人傾向於粗略的主觀定性、排斥精確的客觀定量,從而養成了重形象、重概括、輕邏輯、輕資料的文化習慣。這種文化習慣,使中國人長期沉浸在含蓄、模糊的審美意識當中,凡事只能在美術化的角度來印證,滿足於基於相似的“模糊聯想”,止步於用邏輯來分析、用資料來證明,最終將表象上的相似,當做本質上的相同。
但歐洲在中世紀之後,就將“倫理之理”與“物理之理”這兩個“理”劃分得很清楚了。
黃仁宇的看法,並不是一家之言。現代著名思想家漢娜•阿倫特(Hannah Arendt)也曾經對比過中國人和西方人在思維方法上的不同。她的結論是:西方人是“詞語思維”,中國人則是“形象思維”,而形象思維不是一種基於邏輯的推理性思維。
歸根到底,中國人對資料的漠視,緣於一種文化上的缺欠:隨意、盲目、不求甚解、理性不足。
因為這種文化上的不足,科學最終在西方國家起源,當然不足為奇,中國人100多年來只能跟在別人身後亦步亦趨,也是應得的命運。
除了資料的收集和使用,中國在大資料時代需要面對的挑戰,還有資料的開放。
如果說收集資料是一種意識,使用資料是一種文化、一種習慣,那是否開放資料則是一種態度。
正如本書前文所描述的,網際網路上的資料開放,其開放的物件不僅僅是一個國家的人民,而是全世界的人民。這種開放,是無法阻擋的。中國人,只要願意,就可以登陸其他國家的開放網站,下載他們的公共資料,分析他們的財政開支細目,考察他們的房屋交易價格,甚至參與他們對公共事務、社會事務的批評和監督。即使作為外國人,在這個全球化的時代,中國人也可以感受到資料開放給全人類帶來的種種便利和實惠。而這些便利和實惠,正在成為資訊時代世界各國一項基本的公民權利。
由於網際網路的發明,“開放”已經成為人類社會一個不可逆轉、不斷加速的社會思潮。如雨果所說:你可以阻擋一支入侵的軍隊,但你無法阻擋一種思想。在這個浩浩蕩蕩、不斷前進的世界大潮當中,我們將發現,中國如果不跟上,我們的處境將會越來越微妙、越來越尷尬、越來越孤立。
收集資料、使用資料、開放資料,都是大資料時代我們中國人需要一一面對的挑戰。
這三大挑戰,沒有一個不是任重道遠。但這些挑戰,也是我們在大資料時代徹底摘掉“差不多先生”文化標籤的重大歷史機遇。如果在這個資料意義凸顯的時代,我們還抓不住這些歷史機遇,繼續漠視資料、拒絕精準、故步自封,等待我們的,還將是一個落後的100年。【大資料就是“老大哥”:中央資料銀行之爭】
“我們有很多小的、獨立的資訊記錄系統。這些系統,就單個而言,它們可能無關痛癢,甚至是很有用的、完全合理的。但一旦把它們通過自動化的技術整合連線起來,它們就會漸漸蠶食我們的個人自由。這才是真正的危險。”
——美國隱私研究委員會,1977年
1965年,人類的計算模式還僅僅處在第一個階段——主機時代,這種危險和擔心就開始初現端倪。
那個時候,現在白宮的行政管理預算局(OMB)還叫預算局。
預算局提出了一個簡單、大膽、在當時堪稱革命性的創新計劃。
該局建議,聯邦政府應該成立一個統一的“資料中心”,把政府部門所有的資料庫連線、集中、整合起來,建立一個大型的資料庫。預算局相信,這不僅能節約硬體成本,還能提高資料管理、查詢和統計的效率;此外,通過部門之間的資料對接和整合,還可以提高資料的準確性和一致性,減少資料的錯誤。
預算局甚至為這個計劃提出了具體的實施方案:人口普查局、勞工統計局、稅務局以及社保局等4個資料密集型部門先行一步,首先將資料庫連線起來,其他各個部門的資料庫逐步納入,最終的目標是,以公民為單位,為全國每一個人建立一個資料檔案,這個檔案將包括每一個人教育、醫療、福利、犯罪和納稅等等一切從搖籃到墳墓的資料記錄。
預算局將這個大型資料庫稱為“中央資料銀行”。
普林斯頓大學的高等研究院(IAS)是全世界最頂尖的研究機構之一,它的特點,是可以不屈從任何行政的任務和資金的壓力,自主開展純粹的科學研究。時任該研究院主任的是凱森教授(Carl Kaysen),他盛讚這是一個劃時代的計劃。凱森發表了專門的可行性報告,指出統一管理不僅能節省運營成本、提高資料的準確性和查詢的效率,還將更好地保障資料安全。
聽起來有百利而無一弊,中央資料銀行的計劃得到了行政圈、學術界的一致響應。
經過一年的論證,1966年,聯邦政府正式向國會提交了“中央資料銀行”的方案,請求撥款、開工,開創新的資料管理篇章。
新聞界也開始報導聯邦政府的這個創舉。
但沒想到,新聞界的報導引起了強烈的社會反彈。這種反彈,最後導致了這個計劃的流產。
1967年1月,《紐約時報》發表了著名記者、隱私權專家帕卡德(Vance Packard)的文章《不能告訴計算機》,他寫道:
“當政府把我們每一個人的資訊和日常生活的細節都裝進一箇中央級的資料銀行,我們將受控於坐在電腦機器前面的那個人和他的按鈕。這令人不安,這是一種危險。”
美國公民自由聯盟(ACLU)是一個成立於1920年、位於紐約的公益組織,它的目標是利用法律的手段維護公民的權利,隱私權正是ACLU關心的重點。對於中央資料銀行的計劃,ACLU強烈反對,並發表了一系列的宣告和調查。
哈佛大學也對這個計劃開展了專門的民調,其調查的結果表明,56%的美國人擔心自己的隱私會受到侵害,明確反對這個計劃。
一時間,曾經贏得了各方讚譽的資料銀行計劃在國會的討論中陷入了泥沼。
此後,美國國會對此召開了一系列的聽證會。1968年,眾議院隱私委員會發布了一份報告,作出結論說,該計劃無法保證公民的隱私不會受到侵害,不予批准。
但這只是一箇中斷,甚至僅僅只是一個開始。此後的幾十年,隨著資料庫越來越多,類似於“中央資料銀行”的計劃不斷改頭換面,在國會發起衝刺。美國各界對其的討論也從來沒有間斷過,並形成了涇渭分明的兩派。
支援的一派以經濟學家和技術專家為主,這個陣營認為,現代經濟依賴於大規模的資料整合和交換,統一整合的中央資料庫,將提高經濟效率,方便大眾的生活,是現代社會發展的必然,是社會進步的不二選擇。
反對方自然是隱私至上的信奉者。他們認為,在資訊時代,無論是個人的日常消費等瑣碎小事,還是事關健康、教育的重大決策,都會在各種各樣的資訊系統當中留下“資料腳印”。這些“資料腳印”,儲存在不同的系統中,可能無傷大雅。但如果建立起中央資料銀行,通過資料整合和資訊加總,就可以再現一個人生活的軌跡和全景,各個系統之間的資料可以彼此印證、互相解釋,個人隱私就無所遁形。
隱私學學者認為,這種資訊加總和資料整合,無異於一種監控,準確地說,是一種“資料監控”(Dataveillance),其對個人隱私權的侵害,無異於《一九八四》中的電幕。進入大資料時代之後,甚至有專家提出:大資料就是老大哥!(Big Data is Big Brother)

【百年糾結:統一身份證】
“我們的立場是:現在或者可預見的將來,在美國都不應該建立統一的身份證。就嚴格的定義來說,社會安全號不能算是身份證,它最多隻能算一個近似的身份標識。”
——聯邦政府衛生、教育和福利部部長諮詢委員會的報告《資料記錄、計算機和公民權利》,1973年
近幾十年以來,美國也對統一身份證這個問題做過很多次民意調查,但除了珍珠港事件之後的曇花一現,每次都是反對意見佔了絕對上風。1942年,民意調查的創始人喬治•蓋洛普曾經在《紐約時報》上對統一身份證這個問題做過一個很好的總結。他認為,統一身份證是管理社會、控制公民的一種手段,在美國,這種手段被視為是警察國家的做法,是集權社會的象徵,是違反美國精神的。當然,蓋洛普也承認,統一身份證有利於警察打擊犯罪、加強國家的安全,特別是在應對恐怖襲擊、自然災害等等突發事件當中,統一身份證將大大方便政府對社會的管理和控制。
統一身份證也多次成為總統大選的辯論話題。前文提到的紐約市的市長朱利安尼,曾經是2008年大選期間知名度最高的候選人,他表態支援全國統一身份證,隨後遭到了其他多位候選人的攻擊,這些候選人認為:沒有任何理由去犧牲公民實實在在的自由以換取“可能會好一點”的國家安全。

【總統的雄心:公共財政支出透明】
“聯邦政府掌握和維護的資訊是整個國家的資產和財富。”
——奧巴馬,2009年1月21日
“如果我們坐等他人,那改變就不會到來。我們自己——就是我們一直在等的人,我們自己——就是我們所要尋求的改變。”
——奧巴馬,競選總統時的演講,2008年2月5日
正是在陶伯拉釋出第一個資料開放網站TrackGov.us的同年,2004年11月,奧巴馬贏得了聯邦參議員的選舉。
次年1月,他躊躇滿志,從芝加哥飛往了華盛頓。
有理由相信,初起乍興的資料開放運動,也進入了他的視野。
因為,作為聯邦參議員,奧巴馬就任之後成功推出的第一份法案,就是一份有關資料開放的法案。
美國國會參議員的任期,是6年一屆。奧巴馬在參議員的位置上,只幹了3年多。根據TrackGov.us網站上釋出的資料,在他短暫的參議員生涯當中,奧巴馬作為第一發起人提出過137個法案,但最終成為法律的,卻僅僅只有2個。奧巴馬還作為合署人和其他議員共同發起過600多個法案,最後通過的也屈指可數。
奧巴馬成功交出的第一份答卷,是2006年4月作為主要合署人和共和黨參議員科伯恩(Tom Coburn)聯合推出的《聯邦資金責任透明法案》(FFATA),這個法案後來產生了廣泛的影響,也被稱為《科伯恩—奧巴馬法案》。
這個法案要求聯邦政府向全社會開放所有公共財政支出的原始資料,這些資料,包括政府和私營機構的購買合同、公共專案的投資、直接支付以及貸款等等明細。其基本理念和TrackGov.us是一樣的:建立一個完整的、專業的公共支出資料開放網站,以統一的格式提供可以下載的資料,以供公眾查詢使用。
奧巴馬是民主黨員,科伯恩屬共和黨,作為一個跨黨提案,該法案在參眾兩院都高票通過,2006年9月,經小布什簽署後,成為法律。2007年,根據該法的規定,網站USAspending.gov上線釋出,成為美國聯邦政府釋出公共支出資訊的入口網站。
USAspending.gov是個巨大的資料開放網站,可以對聯邦政府2000年以來高達3萬億的政府資金使用情況以及30多萬個政府合同商所承包的專案進行跟蹤、搜尋、排序、分析和對比,其資料每兩週更新一次。網站上線之後,受到了社會各界的極大好評,獲得了“政府搜尋引擎”(Google for Government)的美譽。
當然,這個法案的產生和通過,並不僅僅是奧巴馬和科伯恩兩人力推的結果。
公共支出資料的開放,真正的先行者,還是美國民間的普通公民。
USAspending.gov網站建立的背後,更有一段國會、政府和公益組織3方攜手合作的佳話。
上文說到,開放資料的運動興起之後,首先直指公共資料。有一批社會活動家和公益組織,多次召開民間會議,發起遊說活動,督促政府開放公共資料,政府財政支出的資料正是其中的焦點。
“OMB監督”(OMB Watch)就是這其中最執著、強力的行動者之一。這是一個位於華盛頓的公益組織,由加里•巴斯(Gary Bass)於1983年創辦。“OMB監督”以監督政府的預算、稅收和工作績效為己任。它的直接監督物件是總統行政辦公室下屬的行政管理預算局,該局簡稱為OMB,這也是該組織之所以命名為“OMB監督”的原因。
美國的聯邦政府其實很早就開始公開發布公共支出的資訊,但這種釋出是零散的、不繫統的,其釋出形式可能是新聞發言、文字簡報,也可能是電子資料,很不統一。2005年,巴斯意識到,如果能將聯邦政府全部的開支資料統一發布在同一個網站,全社會就可以更好地查詢、研究和監督聯邦政府的開支和預算。
巴斯後來為這個專案發起了專門的社會募款活動。通過籌款集資、整理資料、開發網站、接洽政府等一系列的工作,2006年,“OMB監督”(OMB為美國總統行政辦公室下屬的行政管理預算局)推出了美國首個公共支出的資料開放網站:Fedspending.org。
Fedspending.org能夠逐條跟蹤、記錄、分析、加總OMB釋出的每一筆財政支出。它推出之後,受到了全國輿論的好評,《洛杉磯時報》盛讚其為“財政透明的起點”。
正是受到這個網站的直接啟發和幫助,科伯恩、奧巴馬發起了《聯邦資金責任透明法案》,奧巴馬本人,也在這個法案的草擬和推行過程中,和“OMB監督”建立了合作關係。
《聯邦資金責任透明法案》通過之後,根據它的規定,行政管理預算局也必須建立一個和Fedspending.org類似的網站,向全社會統一開放聯邦政府所有的公共支出資料。