12600081602aea9172

199IT資料中心微信賬戶:i199IT

大資料正在成為國家的重要戰略資源,已是社會各界關注的焦點。從大資料的概念入手,界定了大資料概念的內涵、外延,指出政務大資料應用應成為政府管理改革的全新階段。基於國內外政務大資料發展現狀,在評述國內外政府大資料應用發展的基礎上,提出中國政務大資料發展需堅持整體性政府、透明化政府和服務型政府三個基本方向,需避免將將大資料等同於開放資料、共享資料和海量資料三大認識誤區,需警惕資料權的惡意使用或過度濫用、大資料帶來的資訊歧視和網際網路公司侵害國家資料主權三大潛在問題。

近年來,大資料在全球範圍內受到追捧。著名的管理和諮詢公司麥肯錫(McKinsey)認為,“大資料已經滲透到工業和商業領域的各個方面,成為影響生產的一個重要因素”,大資料的應用涉及經濟、文化、教育、醫療、公共管理等各行各業。正是由於大資料的廣泛應用及其背後蘊藏的巨大潛力和價值,許多國家紛紛將“大資料”的建設和發展上升為國家戰略,積極推動大資料應用的發展。

一、國內外政務大資料發展現狀

2012年3月29日,美國正式釋出了《大資料研究和發展倡議》(Big Data Research and Development Initiative)[14],該倡議書中提到,大資料計劃的實施,旨在幫助美國獲得從海量複雜資料集中萃取知識的能力,藉此提高國家應對急迫挑戰的能力。這一計劃類似於過去美國聯邦政府在高效能運算和網際網路等領域的戰略性投入,並旨在推動國家在科學研究、教育和國家安全等領域的能力提升。

該倡議書的釋出,標誌著大資料已經上升成為美國在計算服務領域的國家戰略。英國、加拿大、新加坡、日本、韓國等國家紛紛推出了以開放、融合、創新為特徵的新一輪資訊科技革命推進政策。

如英國政府所宣佈的一項價值1.89億英鎊的“大資料”發展計劃,意在推動“大資料”在商業、醫療、農業和科學研究等方面的應用;法國政府釋出的“數字路線圖(Digital Roadmap)”,計劃投資1000餘萬歐元用於支援包括大資料在內的7個尖端領域的研究;澳大利亞聯邦政府釋出“澳大利亞公共服務大資料戰略”,以推動公共行業利用大資料分析進行服務改革等。

2011年9月20日,美國、英國、挪威、墨西哥、印度尼西亞、菲律賓、巴西、南非等八國發起成立“開放政府聯盟”,釋出了《開放政府宣言》,目前全球已經有超過60個國家加入該聯盟,貼近網際網路、開發大資料、造福全社會已經成為當前已開發國家政務資訊化的主流聲音。

相較而言,國內對於大資料的研究起步較晚。始於1993年國家自然科學基金會成立的“大資料共享聯盟”,以蒐集和展示大資料的研究開發為主。自1999年起,“第三屆亞太地區知識發現與資料探勘國際會議”“Hadoop與大資料技術大會”和“大資料共享聯盟”等才開始開展有關大資料研究和開發的促進工作。

2008年,“計算社群聯盟”(Computing CommunityConsortium)在《大資料計算:在商務、科學和社會領域建立革命性突破》報告中詳盡闡述了大資料對社會治理的推動作用,以及潛在的商業價值。直到2013年,維克托·邁爾-舍恩伯格的《大資料時代:生活、工作與思維的大變革》一書才掀起國內的“大資料”熱潮。

自2013年以來,大資料、網際網路、雲端計算等新興產業得到了中國政府的高度重視。李克強總理在2014年《政府工作報告》中明確提出,要設立新興產業創業創新平臺,在大資料、雲端計算等方面趕超先進,引領未來產業發展。國務院常務會議多次專題研究部署推進網際網路、大資料等新興產業的快速發展,科技部、發改委、工信部等部委在科技和產業化專項中對新一代資訊科技給予重點支援,在推進技術研發方面取得了積極效果。

在國家層面的積極鼓勵和倡導下,各地政府高度重視網際網路、大資料、雲端計算等新興產業發展。2014年2月,廣東省率先提出設立廣東省大資料管理局,並正式公佈了《廣東省大資料發展規劃(2015-2020年)》,為大資料產業發展注入了強大動力。上海、北京等地率先推出了政府資料資源開放共享網路平臺,整合本地區數十個部門的政務大資料資源,向全社會開放共享,為企業和個人開展政務資訊資源的社會化開發利用提供資料支撐。

貴州省提出建設“雲上貴州”計劃,併力爭成為全國首個基於雲端計算建成省級政府資料共享平臺的省份。重慶、內蒙古、陝西、湖北等地都提出建設大資料和雲端計算產業基地的計劃,力圖將新興產業培育成本地的支柱產業。

2015年4月,國家發改委在部委中首家專門成立了大資料分析中心——國家發改委網際網路大資料分析中心,全面支撐國家發改委巨集觀調控和重大決策,這標誌著中國大資料產業已經開始進入應用深化的全新階段。

二、政務大資料需堅持的三個基本方向

(一)整體性政府

整體性政府強調政府內部須實現機構、部門、專業、層級等之間的協調整合,以更好地解決公眾需求,避免因政府內部矛盾衝突而造成的公共服務效率低下。Michael Milakovich指出,單一資料來源已越來越難以滿足應對很多政策領域日益複雜問題的需求,未來將會出現越來越多跨資料集的聯絡,且在數字時代,政府治理的關鍵在於整合多資料來源的公共管理模式,因此,推動政務大資料應用首先應堅持整體性政府方向,推動政府間的資料共享與業務協同。

在英國,曾有報導稱,由於缺乏跨部門溝通,當地警察部門和醫院系統推進的一個分享暴力犯罪資料的專案最終宣告失敗。相比商業機構而言,政府在推進大資料方面所面臨的挑戰更加尖銳,因為他們必須在遵從安全性和相關法規的前提下,不斷打破部門孤島來推進資料的整合。政府部門不僅要應對多資料來源和不同格式資料的整合分析等大資料領域通行問題,還要面對很多政府部門特有的挑戰和問題。

但對推進政務大資料應用而言,無論是對政府自身監管行為所產生的大資料,還是對公民在社交媒體或其他網路平臺上所產生的行為資料進行採集和分析,都可能促進政府機構中跨層級的“智慧中心”的建立。

如在美國“9·11事件”以後,藉由國家安全之名,政府開始強力推進跨部門電子資料共享。如美國國土安全部高度強調跨部門資料的互操作性,並應用多種技術手段促進資料在市政部門、社群、醫院、供血站、避難所等各類機構之間的順暢流動。此外,美國在環保、交通、醫療和公共安全等領域的資訊共享也取得了良好成效。

(二)透明化政府

R. C. Joseph等認為,大資料分析技術的使用,能夠大大提升政府服務的效能。大資料能夠提升電子政府的效率和效果,並促進其進一步演化為透明政府(transformationalgovernment,t-government),這被認為是電子政府的最終演化階段。

大資料應用建立在掌握資料的基礎上,以海量資料為前提,政務大資料的發展往往離不開政府開放資料,這使得政府的透明度大大提高。紐約大學法學院教授貝絲·諾維克(Beth Novick)表示,資料的開放可以讓政府公職人員和民眾一起參與進來,解決政府無法完成的、棘手的問題,更廣泛地發揮公眾力量,藉助大資料平臺更好地進行社會管理。隨著政府組織的行為及其與公眾的互動越來越資料化,在政府自身內部系統中產生的各類大資料也為透明性政府建設提供了巨大潛力。

在推進政務大資料應用中,政府的監管方式應不斷創新,更加透明。在最極端的情況下,如果我們可以設想一個機構像維基百科那樣完全進行數字化運作,那麼通過下載其所有的編輯歷史就可以提供該“組織”的所有完整的互動記錄,從而提供了一種迄今為止難以想象的機會去理解其治理安排。隨著政府組織越來越“成為”一種前臺的網路存在和後臺的資訊處理系統,大資料也將更有力地促進上述整體性政府的最終形成。

(三)服務型政府

大資料可以促進政府公共服務水平的提升,有利於服務型政府的建立。M. R. Rajagopalan等[21]指出,在大資料時代,公眾可以更好地參與到政府工作之中,與政府分享資訊,形成政府和公眾共同參與的政務決策機制。[22]社會公眾可以通過社交媒體、公開出版物、部落格等渠道分享他們的意見,大資料分析技術可以處理這些非結構化資料,並將更好的服務和方案傳遞給所需的客戶群體。

因此,在大資料背景下,任何政府都可以藉由政務大資料的採集、分析和利用,不斷推動優化政府自身運作流程和服務效能。而且,政務大資料分析是政府理解公民行為、解釋政策與公共服務優劣的良好手段,也是政府決策者理解公眾需求與偏好的工具,以更好地理解人們對於公民參與的積極性,對立法變動的態度,以及對政府公共服務的需求。美國國稅局(IRS)曾經重新設計其納稅申報流程,並應用大資料技術手段來提高對納稅欺詐和納稅不遵從行為的自動監測。

在美國,隨著聯邦政府各個機構對於大資料分析的應用,政府在處理自身事務時將花費越來越少的精力。此外,大資料還可有效改進政府績效管理方法,促進公共服務的提升。Michael Milakovich指出,以往政府部門的績效管理往往是滯後的,因為其主要依賴一些事後的指標來評估政府工作的效果。[16]未來,政府管理部門應當更多依靠實時性資料來提升政府管理效能。

三、政務大資料需避免的三大認識誤區

(一)將大資料等同於開放資料

由於目前尚無對“大資料”的標準界定,政府部門對大資料的認識存在混亂,有將開放資料等同於大資料,有將任何“大”的政府資料集的釋出都當作是大資料。但事實上,很多開放資料只是離散的“小資料”,並不具備大規模、未經處理和非結構化等大資料的基本特徵,且很多通過開放資料機構釋出的線上資料集僅僅是一個可用的樣本集。

同時,雖然開放資料對於促進政務大資料應用意義很大,但當開放資料僅僅是由於上級部門的指令要求,並對政府部門本身工作並沒有任何回饋時,開放資料專案就會缺乏可持續性。考慮到開放資料並不是不需要成本(公務員需要花時間去收集這些資料,併發布出去),在政府看不到任何收益的情況下,將其維持下去會很困難。

在加拿大和英國,已經有證據表明,政府開放資料專案的可持續性受到了威脅,有些官員將開放資料描述為僅是由一小群愛好者推動的“桌角專案”。以美國的data.gov入口網站為例,其在2012年包含有378529個原始空間資料集、1264個政府APP和236個公民開發APP。然而,到2014年,該網站的資料集事實上已經下降到了108606個,且各種APP的數量也有所下降。這實際上也是因為網站資料集的可用性不佳造成的。

此外,為了便於開發者和分析者能夠不受資料格式限制而處理資料,開放資料集都是以原始格式釋出的,這將影響資料的獲得和使用。由於編碼缺乏一致性,這些資料在沒有電腦歸納的情況下非常難以理解,從而難以得到真正有效應用。可見,在推動政務大資料應用中,不能簡單地將大資料等同於開放資料。

(二)將大資料等同於共享資料

Gang-Hoon Kim等對美國、英國、荷蘭、瑞士、新加坡、日本、韓國、澳大利亞等已開發國家的24項政府大資料應用進行了統計分析,發現目前已開發國家政府大資料應用與商業領域大資料應用相比,規模還有很大距離;且目前大部分政府大資料應用的物件仍以結構化資料為主,較少採用實時、動態、半結構化甚至非結構化資料。這在中國政務大資料應用中也較為常見。

據調查,目前很多地方政府建設的大資料平臺,僅僅是過去政府共享資料平臺的“翻版”。政府推動大資料平臺建設的首要目的不是推動大資料應用,而是統一政府資訊基礎設施,實現各部門資料的互聯互通。然而,政府大資料不僅僅是政府自身的業務資料,在當今社會,有大量對政府治理有意義的大資料來源,如金融、電商、醫療、社交媒體等,並不完全由政府自身掌握。

在推動政務大資料應用中,應逐步整合政府外部資料資源,建設國家層面的全國性大資料中心,形成更加完善的治理決策支援體系,以在資料整合的基礎上實現服務整合。以澳大利亞Centrelink國家資料中心的建設為例,全國各地的Centrelink與資料中心直接聯網,聯邦、州、當地的服務機構,如稅務部門、金融機構、警局等,也與資料中心實現聯網共享;Centrelink在多種服務渠道的後臺,藉助資訊通訊技術將業務流程、服務、網路和資源進行優化整合,便捷、高效地為公眾提供一體化的服務。

(三)將大資料等同於海量資料

隨著大資料在中國的不斷髮展,各個地方都開始興建大資料中心,但對於大資料中心的建設,更多地還停留在“建機房、上裝置、堆資料”的階段,忽視了大資料強調的是對資料的分析和應用。

對於政務大資料的推進或大資料中心的建設,首先應有周密、嚴謹、細緻的資料目錄體系頂層規劃,建立統一的資料資源目錄體系、資料標準體系、資料質量審計體系和業務系統資料共享交換體系等;其次要有可對比、可回溯、可審計的資料質量管理體系,保障資料採集獲取的可持續性,避免“資料陷阱”;再者,要有精通資料探勘和業務建模的資料科學家隊伍,從政務應用需求出發,做好潛在資料價值的挖掘與應用。

此外,當前不少學者還未真正認識到大資料價值,認為海量資料無法獲得,且大資料只是一種暫時性趨勢。殊不知,大資料雖指海量資料,但並不是“全資料”,而是資料資源總量不斷增長的狀態,且從“大資料”中挖掘出有價值資訊才是大資料應用的關鍵。

四、政務大資料需警惕的三大潛在問題

(一)警惕資料權的惡意使用或過度濫用

隨著大資料應用的不斷推進,資料開始被視為重要的戰略資源,“世界經濟論壇”報告曾指出大資料為新財富,價值堪比石油。在政治領域,資料的所有權是一種新的權利源泉。圍繞原始資料的佔有權和釋出權的鬥爭將成為一個永續性的政治議題。一個不可否認的政治事實是,意識形態的傾向性總是會影響對客觀事實的調查,並且對決策過程產生導向作用。

當前,資料權被濫用的案例普遍存在。如針對政府網站資料不準確問題,2001年美國政府頒佈了《資料質量條例》(Data Quality Act),允許私人團體對聯邦政府部門所釋出資訊的準確性提出質疑。很多反對美國環保政策的商業團隊就經常利用這一條款來拖延環保監管工作的執行。這條法律變成了環境保護監管工作的一個巨大障礙,因為它經常被用來拖延那些必要的監管工作的正常開展。在推進政務大資料應用中,應警惕資料權的惡意使用或過度使用。

(二)警惕大資料帶來的資訊歧視

大資料技術為基於證據的未來趨勢預測提供了一種可能,但同時有可能會帶來公平和公正的問題。Michael Milakovich指出,在政務大資料應用中,資料探勘階段最有可能引發對公民隱私權的侵害。儘管作為一種提升公共服務傳遞的重要手段,資料探勘本身的意圖是好的,但由政府收集和分析個人資料,不可避免地會引發對公民自由問題的爭論。很多民眾正在失去對政府的信任,其中部分原因就是政府機構擁有太多對公民個人資料的獲取手段,而相反對個人資料的保護手段卻太少。

另外一個政務大資料應用的障礙來自倫理上的挑戰,資料“可被獲取,並不代表使用它就是道德的”。大資料技術為基於證據的未來趨勢預測提供了一種可能,使得社會科學的研究可以做到像自然科學研究一樣的精準、量化、客觀。大資料可以用於預測未來,人們可以基於大資料構建政策制定的概率模型,分析未來可能會發生什麼,但這些模型會帶來公平和公正的問題。

舉例來說,通過應用大資料技術,我們可以識別一些犯罪的“熱點”區域,政府就可以在犯罪發生之前更好預知其發生規律,而生活在這些區域的人將會因此而比其他地方的人面臨更高的被逮捕率。

(三)警惕網際網路公司侵害國家資料主權

由於中國資料產權的立法滯後,且在國家層面缺乏採集相關資料資源的統一規劃,使得當前與國家經濟、政治密切關聯的資料較少掌握在政府手中,而如阿里、百度、騰訊、小米等網際網路公司所掌握的資料資源較為豐富,且與國家經濟社會執行關係密切。

以阿里為例,已將資料化作為該公司三大戰略之一,其所掌握的大資料資源與中國國家安全之間的關聯,是建立在阿里的資料覆蓋面和資料累積深度的基礎之上的。目前,阿里旗下淘寶的註冊使用者就接近5億,從而支撐起阿里的消費者資料、製造業資料和供應商資料。至2013年底,阿里旗下的支付寶實名使用者已近3億(其註冊賬戶早在2012年底即已突破8億),併成為全球最大的移動支付商;而截至2014年6月30日,創立僅一年的餘額寶使用者已超過一億,差不多是股市開市20多年後中國股民的兩倍,支付寶和餘額寶共同支撐起阿里的金融資料。

馬雲說其未來進軍的領域是醫療和文化事業,屆時又會形成阿里關於中國人的體質健康生理資料和心理意識資料。這些資料通過雲端計算進行挖掘之後,對國家安全的價值會遠遠超出國家保密局所保密的資訊價值。為此,推進政務大資料應用,必須要警惕網際網路公司對國家資料主權的侵害。

五、結語

Gang-Hoon Kim等指出,國家主導是政務大資料發展的根本動力。已開發國家政府的大資料專案都有著相似的目標導向(如公共服務的平等性和可獲取性、公眾對公共事務的更好參與、透明性政府等等)。政務大資料應用發展的主要關注點集中在安全性、速度、互操作性、分析能力和競爭人才等方面。

當然,每個國家的政府都有其優先主導的方向,以及基於自身特殊環境的機遇與挑戰(如美國的恐怖主義和健康問題,日本的自然災害,以及韓國的國防事業等等)。中國在推進政務大資料應用的過程中,應從中國實際出發,出臺切實可行的政府大資料發展供給政策。

作者:

國家資訊中心資訊化研究部副主任 於施洋

國家資訊中心資訊化研究部大資料分析處副處長 王建東

國家資訊中心資訊化研究部助理研究員 童楠楠

中國電子政務網

http://www.e-gov.org.cn/egov/web/article_detail.php?id=158057