大資料在智慧城市中的應用

whuls發表於2018-04-27

摘要:文章首先介紹了大資料和智慧城市的概念、大資料的應用潛力和當前國際上智慧城市的建設概況,然後簡要介紹了大資料的四個方面共16種關鍵技術,最後參考歐盟提出的大資料在智慧城市應用的九個方面,提出了自己在這些應用方面的想法。
關鍵詞:大資料,智慧城市,關鍵技術,應用

1. 引言

 時下最流行的術語要屬“大資料”了。在百度指數上,“大資料”一詞的搜尋次數從2012年以前的每週50次不到,飆升至最高每週9859次,並持續保有熱度。顧名思義,大資料的首要特徵是其資料量龐大,它的資料量已經從太位元組(TB,240)級上升到拍位元組(PB,250)級,甚至是澤位元組(ZB,270)級。“據統計,如今人們每兩天生產的資料量就與人類文明發展至2003年產生的總資料量相當,而迄今為止人類所積累的資料量的90%都來自過去兩年。——2015”[1]而在2018的今天,隨著科技的進步,資料獲取途徑更多、數量更大,其中就包括了RFID射頻資料、感測器資料、社交網路資料、移動網際網路資料等方式獲得各種型別的結構化、半結構化及非結構化的海量資料。
 智慧城市(smart city)這一概念發端於20世紀80年代的資訊城市(information city),經歷了20世紀90年代的智慧城市(intelligent city)與數字城市(digital city),在2000年後逐步演化為智慧城市。2009年IBM公司首次提出了智慧城市願景,使得智慧城市理念與實踐在全球範圍內迅速傳播。[1]在百度指數上,“智慧城市”一詞的搜尋熱度隨不及“大資料”,但可以明顯看出,從2011年以來,搜尋量持續上漲並最終穩定在每週2000次左右。智慧城市就是基於數字城市、物聯網和雲端計算建立的現實世界與數字世界的融合,運用資訊和通訊技術手段感測、分析、整合城市執行核心系統的各項關鍵資訊,以實現對人和物的感知、控制和智慧服務,從而對包括民生、環保、公共安全、城市服務、工商業活動在內的各種需求做出智慧響應。其實質是利用先進的資訊科技,實現城市智慧式管理和執行,進而為城市中的人創造更美好的生活,促進城市的和諧、可持續成長。[2][3]
 大資料是資訊和通訊技術領域的概念,而智慧城市的實現依賴於這項技術,因此,研究他們之間的關係,探討大資料在智慧城市中的應用,對於更好地從民生、環保、公共安全、城市服務等方面促進城市發展,有著至關重要的作用。

1.1 大資料的應用背景

 根據國際商業機器公司(IBM)估計的資料來看,現在我們每天生成的資料高達250兆億個位元組,資訊的指數型增長有時被人們視為萬靈藥,就好比20世紀70年代出現的計算機一樣。《連線》雜誌的前主編克里斯·安德森曾經在2008年的一篇文章中說:“數量龐大的資料會使人們不再需要理論,甚至不再需要科學的方法。”
 被譽為大資料時代的預言家的“維克托-邁爾-舍恩伯格”在2012年出版的《大資料時代》一書中說到:“在大資料時代,我們的思維發生了巨大的變革,我們不再關注事物的因果關係,而更多的關注它們的相關關係。”從哲學的層面來講,大資料時代發生的思維變革主要影響了人們的“理性認知世界”的過程。人類的理性認知主要包括概念、判斷、推理三個過程,概念是人們對一個事物進行總結、概括、抽象後的認知,判斷是通過學習對事物進行定義,推理是通過已有判斷得出新的判斷的過程。在過去,人們進行理性認知的過程往往通過部分樣本來進行,也就是說,通過事物的樣本來獲取整體認知,而在大資料時代,樣本即總體,對事物的認知方式也來到了一個新的階段。
 那麼這種認知方式有何好處呢?很顯然,它具有高效性和準確性。以往,科學家們在一個科學規律發現之前,往往要進行大量的試驗和理論論證,而且實驗的樣本也難以包含全部,只是一種隨機的樣本,那麼這個試驗加上推理論證的方法就會耗費大量的時間,而在實際應用時,又會遇到很多的問題。如今,雲端計算理念下的虛擬化技術大幅提高了人類對資料的處理能力,對海量資料的組織、整理、歸納和學習成為現實,而且由於是對所有的資料進行操作,樣本=總體,那麼得到的結果也更加準確。同時,由於計算的高效,在獲取新的知識後,對已有認知進行更新也將十分迅速。
 如今,大資料主要被應用於預測領域。美國最具影響力的預測專家納特·西爾弗在2013年出版的《訊號與噪聲》一書中列舉了大量涉及不同領域的大資料預測。包括政治選舉預測、棒球比賽預測、天氣預測、地震預測、經濟預測、傳染性疾病預測、國際象棋大戰、撲克牌遊戲、股票市場、溫室效應、恐怖主義,幾乎涵蓋了政治、經濟、社會、文化、娛樂等方方面面,由此可以看出,大資料在預測方面具有巨大的潛力。

1.2 大資料在智慧城市中的應用潛力

 大資料是智慧城市各個領域都能夠實現“智慧化”的關鍵性支撐技術,智慧城市的建設離不開大資料。建設智慧城市,是城市發展的新正規化和新戰略。大資料將遍佈智慧城市的方方面面,從政府決策與服務,到人們衣食住行的生活方式,再到城市的產業佈局和規劃,直到城市的運營和管理方式,都將在大資料支撐下走向“智慧化”,大資料成為智慧城市的智慧引擎。[4]
 我們在前面說到,智慧城市是基於數字城市、物聯網和雲端計算建立的現實世界與數字世界的融合,以實現對人和物的感知、控制和智慧服務。感知是數字城市的功能,控制和智慧服務是智慧的高階階段。
 首先在感知方面,隨著科技水平的進步,我們可以多渠道、多方式地採集海量資料,從地下、地表到航空、航天,從室外到室內,或者沿著時間軸,貫穿一個時間段地收集資料。
 其次是控制和服務方面。正如前面所說,資料量在近兩年有了指數級的增長,但這不僅是採集技術進步的功勞。納特·西弗斯在《訊號與噪聲中》說:“一旦資訊的增長速度過快,而我們處理資訊的能力尚且不足,情況就很危險。過去40年的人類歷史表明,把資訊轉變為有用的只是可能還需要很長時間,一不小心,我們就有可能倒退回去。”顯然,和大資料一同發展的,還有大資料資訊處理技術。我們利用雲端計算對海量資料進行資訊提取,進而利用機器學習的方法,進行預測,就能提供智慧服務,也能實現對某些事物的控制。

1.3 智慧城市建設情況[4]

 目前,我國正處於城鎮化加速發展的時期,部分地區“城市病”問題日益嚴峻。為解決城市發展難題,實現城市可持續發展,建設智慧城市已成為當今世界城市發展不可逆轉的歷史潮流。智慧城市的建設在國內外許多地區已經展開,並取得了一系列成果,國內的如智慧上海、智慧雙流;國外如新加坡的“智慧國計劃”、韓國的“U-City計劃”等。

2. 大資料的關鍵技術[5]

大資料應用於智慧城市建設的關鍵技術主要有四個方面:大資料採集,大資料預處理、大資料儲存及管理、大資料分析及挖掘。下面將簡要闡述四個方面共16項技術及其在智慧城市建設中的應用。

2.1 大資料採集

資料採集是大資料生命週期的第一個環節,除了通過RFID射頻、感測器等硬體技術獲取技術,還可以獲取已有資料庫資料、社交網路資料、移動網際網路資料等各種型別的結構化、半結構化及非結構化的海量資料。由於可能有成千上萬的使用者同時進行併發訪問和操作,因此,必須採用專門針對大資料的採集方法,其主要包括以下幾種:

2.1.1 無線射頻和感測器

感測器是一種獲取電訊號的技術,分為接觸式和非接觸式;而無線射頻技術是一種非接觸式通訊技術,可通過無線電訊號識別特定目標並讀寫相關資料。

2.1.2 資料庫採集

從已有的資料庫中採集資料。傳統的關係型資料庫有MySQL和Oracle等。常用的的工具有Sqoop和結構化資料庫間的ETL工具,當然當前對於開源的Kettle和Talend本身也包含了大資料整合內容,可以實現和HDFS,HBase和主流NoSQL資料庫之間的資料同步和整合。

2.1.3 網路資料採集

網路資料採集主要是藉助網路爬蟲或網站公開API等方式,從網站上獲取資料資訊的過程。可以獲取網路上非結構化及半結構化資料,並儲存。

2.1.4 檔案採集

使用Flume實現分散式的海量日誌採集、聚合和傳輸。也可以使用輕量級的ELK(Elasticsearch、Logstash、Kibana三個開源軟體的組合)進行日誌收集處理。

2.2 大資料預處理

大資料數量巨大,但也會有殘缺、虛假、過時的資料。無效的資料不僅沒有任何作用,還會影響後續操作,因此資料的預處理就極為重要。大資料預處理就是對採集到的原始資料進行清洗、填補、平滑、合併、規格化以及檢查一致性等。主要包括:資料清理、資料整合、資料轉換以及資料規約四大部分。

2.2.1 資料清理

資料清理主要包含遺漏值處理(缺少感興趣的屬性)、噪音資料處理(資料中存在著錯誤、或偏離期望值的資料)、不一致資料處理。主要的清洗工具是ETL(Extraction/Transformation/Loading)和Potter’s Wheel。

2.2.2 資料整合

資料整合是指將多個資料來源中的資料合併存放到一個一致的資料儲存庫中。

2.2.3 資料轉換

資料轉換包括兩類:第一類,資料名稱及格式的統一,即資料粒度轉換、商務規則計算以及統一的命名、資料格式、計量單位等;第二類,資料倉儲中存在源資料庫中可能不存在的資料,因此需要進行欄位的組合、分割或計算。

2.2.4 資料規約

資料歸約是指在儘可能保持資料原貌的前提下,最大限度地精簡資料量,主要包括:資料方聚集、維規約、資料壓縮、數值規約和概念分層等。

2.3 大資料儲存

大資料儲存與管理要用儲存器把採集到的資料儲存起來,建立相應的資料庫,以便管理和呼叫。大資料儲存技術路線最典型的共有三種:

2.3.1 MPP架構的新型資料庫叢集

MPP(Massively Parallel Processing,大規模並行處理系統)。採用Shared Nothing架構,通過列儲存、粗粒度索引等多項大資料處理技術,再結合MPP架構高效的分散式計算模式,完成對分析類應用的支撐,執行環境多為低成本 PC Server,對於企業新一代的資料倉儲和結構化資料分析,目前最佳選擇是MPP資料庫。

2.3.2 基於Hadoop的技術擴充套件和封裝

這裡面有幾十種NoSQL技術,也在進一步的細分。對於非結構、半結構化資料處理、複雜的ETL流程、複雜的資料探勘和計算模型,Hadoop平臺更擅長。

2.3.3 大資料一體機

這是一種專為大資料的分析處理而設計的軟、硬體結合的產品,由一組整合的伺服器、儲存裝置、作業系統、資料庫管理系統以及為資料查詢、處理、分析用途而預先安裝及優化的軟體組成,高效能大資料一體機具有良好的穩定性和縱向擴充套件性。

2.4 大資料分析挖掘

資料的分析與挖掘主要目的是把隱藏在一大批看來雜亂無章的資料中的資訊集中起來,進行萃取、提煉,以找出潛在有用的資訊和所研究物件的內在規律的過程。包括視覺化分析、資料探勘演算法、預測性分析、語義引擎以及資料質量和資料管理五大方面。

2.4.1 視覺化分析

資料視覺化主要是藉助於圖形化手段,清晰有效地傳達與溝通訊息。目的是做出簡單明瞭、清晰直觀,更易於接受的圖表。

2.4.2 資料探勘演算法

資料探勘演算法是大資料分析的理論核心,資料探勘的演算法多種多樣,不同的演算法基於不同的資料型別和格式會呈現出資料所具備的不同特點,致力於深入資料內部,挖掘出資料的價值。

2.4.3 預測性分析

預測性分析結合了多種高階分析功能,包括特別統計分析、預測建模、資料探勘、文字分析、實體分析、優化、實時評分、機器學習等。

2.4.4 語義引擎

語義引擎就是給已有的資料(結構化或非結構化)加上語義層。語義技術目的是讓使用者更快、更準確、更全面地獲得所需資訊,提高使用者的網際網路體驗。

2.4.5 資料質量管理

資料質量管理是指對資料從生命週期中每個階段(計劃、獲取、儲存、共享、維護、應用、消亡)可能引發的各類資料質量問題進行識別、度量、監控、預警等一系列管理活動,並通過改善和提高組織的管理水平使得資料質量獲得進一步提高。

3. 大資料在智慧城市中的應用[6]

首先舉出當前大資料在智慧城市中應用的九個方面,然後以此為思路導向,提出自己的想法。

3.1 智慧經濟

 在商業上,大資料預測可以用於分析使用者的購物行為,什麼商品搭配在一起會賣得更好,還可以通過分析找到最佳客戶。在淘寶平臺上,商家可以根據淘寶的資料魔方瞭解平臺上的行業巨集觀情況、自己品牌的市場狀況、消費者行為情況等,並可以據此作出經營決策;阿里公司根據在淘寶網上中小企業的交易狀況篩選出財務健康和誠信的企業,從而無需擔保來放貸,目前已放貸300多億元,壞帳率僅0.3%,大大低於商業銀行;IBM日本公司建立了一個經濟指標預測系統,從網際網路新聞中搜尋影響製造業的480項經濟資料,計算出採購經理人指數(PMI,用於評估行業興衰);華爾街對衝基金依據購物網站顧客評論分析企業產品銷售狀況,華爾街銀行根據求職網站崗位數量推斷就業率。
 企業通過資訊收集很好的掌握企業的運營狀況,分析居民與財務有關的記錄包括貸款申請、租賃、房地產、購買零售商品、納稅申報、水電費繳付、有線電視繳費、電話繳費、報紙與雜誌訂閱、機動車檔案等,能夠得出消費者的個人信用評分,從而推斷客戶支付意向與支付能力,發現潛在的商機和欺詐行為。
 利用大資料分析可實現對合理庫存量的管理;利用心情分析方法可以分析使用者在購物時的心情,從而為其安排更好的購物方案;通過分析顧客在購買商品時的關聯性,超市經營者可以做出更好的商品佈局。

3.2 智慧治理

 美國紐約的警察分析交通擁堵與犯罪發生地點的關係,有效改進治安;美國紐約的交通部門從交通違規和事故的統計資料中發現規律,改進了道路設計;電信運營商擁有大量的手機資料,通過對手機資料的挖掘,不針對個人而是著眼於群體行為,可從中分析:實時動態的流動人口的來源及分佈情況、出行和實時交通客流資訊及擁塞情況;利用手機使用者身份和位置的檢測可瞭解突發性事件的聚集情況;MIT的Reality Mining專案,通過對10萬多人手機的通話、簡訊和空間位置等資訊進行處理,提取人們行為的時空規則性和重複性,進行流行病預警和犯罪預測;利用簡訊、微博、微信和搜尋引擎可以收集熱點事件與輿情挖掘;

3.3 環境監測

 通過衛星、無人機、地面無人車等遙感平臺採集空間資料。對森林和植被、湖泊、河流、土地進行資料採集監測和分析,能夠判別城市中有沒有汙染。

3.4 智慧醫療

 智慧醫療主要體現在醫療模式的開發。首先是居家監護,收集中老年人或嬰幼兒很長時間(數年甚至數十年)的健康資料,進行分析預測,可以從一定程度上避免意外狀況的發生;其次是醫療網路監控,根據網民搜尋內容分析全球範圍內流感等病疫傳播狀況;另外還有個性化醫療,有研究表明,同樣的治療對一些病人無效,75%癌症病人,70%的老年痴呆者、50%的關節炎病人、43%的糖尿病患者、40%的哮喘病患者,38%的抑鬱症病人,因為人體對藥品代謝方式的差異取決於個體特定的基因、酶和蛋白質組合,因此基因資訊對選擇最優治療非常關鍵。對人體個性體質的挖掘會做到真正意義上的對症下藥,一個人的基因資訊大概1GB;最後,參考輿情監督,可以通過社交網路獲取許多患者分享的臨床症狀和經驗,增加醫院在這些方面的臨床統計資料。

3.5 智慧搜尋

 如今,搜尋引擎不再侷限於基於文字字串的匹配搜尋,出現了基於圖片的搜尋、基於語音的搜尋、基於位置的搜尋。例如百度搜尋,圖片搜尋和文字搜尋已經達到了非常高的精度,而百度旗下的百度地圖,在語音搜尋和基於位置的搜尋也做的相當令人滿意。
 在搜尋形式上,除了現有的幾種搜尋,還可以藉助感測器和機器學習,利用大資料分析方法,進行基於氣味的搜尋、基於視訊資訊的搜尋等。
 在搜尋內容上,智慧搜尋的理念被用於理解使用者的語義,分析使用者在進行搜尋過程時的心情和狀態,據此提供使用者真正感興趣的內容。

3.6 輿情監測

 隨著大眾傳播的發展以及新型傳播的發展,傳播領域將產生大量資料。網際網路具有虛擬性、隱蔽性、發散性、滲透性和隨意性等特點,例如微博傳播具有裂變性、主動性、即時性、便捷性、互動性、草根性,跟進性和臨場感,每一個微博使用者既是”伺服器”,也是”受眾”。
 通過網際網路進行輿情監測,主要可以應用於政府決策、商品銷售、產品研發等方面。政府通過輿情監測,及時發現存在的負面輿情,進行引導和調控,穩定社會;公司企業通過輿情監測,分析使用者需求和需求分佈,控制主流和非主流商品的銷售狀況;科研機構或大學通過輿情監測,獲取社會對科研產品的需求情況,確定研發方向和研究課題。

3.7 精準營銷

 精準營銷有兩個方面的內容,一是根據顧客需求,在合適的時間,通過合適渠道,把合適的營銷資訊投送給每個顧客;二是通過分析顧客行為,進行商品的預備。
 第一方面的內容現在許多大公司如今日頭條、百度、阿里巴巴都已經做得十分完善,其他的公司也能做得媲美這些大公司。對於第二方面商品預備物資分配的問題仍有更多的開發空間,以身邊的商家為例,首先是外賣行業,現在存在送貨慢、備餐久等問題,商家可以通過分析點餐者的點餐時段、菜品偏好,提前準備好餐品,並和外送公司達成溝通,提高送餐效率;其次是零售超市,目前存在的問題是,超市和顧客供需不對等,商品月均銷量起伏等,這影響了超市的經營和顧客的體驗。超市可以通過分析需求,在需求劇烈的時段增加商品供應,或者可以在銷售淡季進行回饋活動來增長銷量等。

3.8 犯罪預警

 可以通過監測通話、聊天等資訊獲取可能存在的犯罪。不過這個在中國基本上不能實現。能實現的只有在公共電話、視訊監控中進行監測,例如監測視訊中的不正常行為,電話中語音內容的識別,但中國人口眾多,視訊和語音資料量巨大,實現難度相當高。

3.9 市場價格監測

 通過分析,可以發現正常的價格變化規律,如果價格變化持續異常,就可以懷疑存在價格壟斷的行為。市場價格監測可以為政府進行巨集觀調控提供參考依據

4. 總結

 埃裡克·西格爾在《大資料預測》一書中說到:“大資料時代下的核心——預測分析已經在商業和社會中得到廣泛應用。隨著越來越多的資料被記錄和整理,未來預測分析必定會成為所有領域的關鍵技術。”誠如西格爾所言,當大資料與智慧城市完美契合,將是對傳統城市模式的一種極大的顛覆。過去人們在城市裡生活,思考如何去迎合這個冰冷的鋼鐵森林,而在智慧城市的服務之下,彷彿一切有了溫度,人們在城市的每個角落都能感受到她的溫情。智慧城市的理念和技術將成為實現服務型城市的關鍵。

參考文獻

[1] 劉倫.大資料時代的智慧城市規劃:國際經驗[J].國際城市規劃,2015,(9)
[2] 百度百科
[3] 易事特公司.大資料在智慧城市中的應用,2016,(11)
[4] 阿里雲
[5] 51CTO大資料
[6] 大資料在智慧城市的10大應用

相關文章