199IT資料中心微信賬戶:i199IT
通過文獻梳理,發現大資料為空間研究提供了豐富的樣本,但當前的資料存在非全樣本、缺少社會經濟屬性、非隨機缺失的缺陷。大資料研究的廣度和深度正在不斷擴充套件,呈現出多學科參與的特點,但研究結論還缺少新的理論探索和解決實際問題的應用。據此提出當前的大資料只是傳統資料的有益補充,適用於描述、分析空間現象和規律,適宜於兩方面研究:驗證理論模型、提出研究問題;分析空間現狀、評估空間規劃。這兩方面研究可通過統計彙總和空間計算的方法實現。
關鍵詞:移動定位,大資料,城市空間研究,城市規劃
近年來隨著移動定位服務和雲處理技術的發展,蒐集和處理個人定位資訊已成為現實。由移動定位資料組成的海量資料(大資料)庫打破了傳統的資料蒐集方式,推動了城市空間研究的發展。諸多學者利用當前可獲取的移動定位大資料(本文中的大資料均指移動定位大資料,包括手機資料、公交刷卡資料、GPS 資料、社交網站簽到資料等)開展了城市空間研究,取得了較豐富的成果。當前已有國內學者對這些研究成果做了介紹,如秦蕭等從城市等級體系、交通、功能區、特徵與活動、社交關係、重大事件等方面介紹了大資料在城市空間研究中的最新進展,提出了基於大資料的城市空間研究體系[1]。葉宇等從實體空間、社會空間兩方面介紹了大資料在城市空間研究中的成果,提出大資料時代城市規劃在資料蒐集、響應速度、編制方式、決策輔助、編制策略、關注要點、實施過程、評價力度等方面面臨革新[2]。冉斌等提出了手機定位資料在不同層面城市規劃中的應用方向,並論述了職住人口空間分佈、OD 客流分佈、城市間客流聯絡等方面的應用例項[3]。任頤等用無錫手機資料探索了通勤人口分佈、居民出行OD、重點區域人口集散特徵等方面的應用[4]。
這些論文重在對已有研究和應用成果做較系統的歸納整理,有的還構建了基於大資料的城市研究框架,對於近年來熱議的“大資料時代城市規劃如何應對機遇與挑戰”提供了借鑑。但筆者認為城市規劃作為一門實踐性較強的學科,在使用資料時必須根據資料的特點加以不同方式的利用,方能使資料真實反映城市現狀問題,為規劃設計提供幫助。因此,還有必要對大資料及其研究特徵作一個較深入的分析,包括大資料與傳統資料相比有何優勢和缺陷,當前大資料研究中遇到哪些侷限等問題。本文選取了收錄在Web of Science 上的聚焦城市規劃的物件--空間的文獻進行分析,以期能從這些文獻中解答上述問題,梳理出大資料在城市規劃中適宜的研究。
一、基於大資料的城市空間研究型別
艾斯(Ahas)等是較早提出可用手機的移動定位資料進行城市空間研究的學者。2005 年他提出基於手機的社會定位方法(Social Positioning Method)能監測人口總量和移動軌跡、預測和防止由人流集聚產生的問題,這一方法會在不久的將來獲得廣泛應用,並從根本上改變公共生活和公共管理[5],但文中並未闡述具體的研究成果。隨後,拉蒂(Ratti)等於2006 年以熱點圖的方式展現了用手機資料分析城市活動時空變化的研究成果。提出“隨著新技術的發展,人們的生活和工作習慣正在發生變化,活動變得更加靈活,城市的動態性正在變得更加複雜,需要新的方法和資料來分析城市”。拉蒂在文中還提出了“移動景觀”(MobileLandscapes)的概念,來回答如何記錄OD、如何理解個體移動以及城市形態和流之間是什麼關係,認為移動景觀能反映時實移動圖,而不需要再借助傳統模型。並將米蘭20 km×20 km 空間範圍內2004 年4 月19 日-5 月4 日的移動通話時長資料彙總為人流密度,視覺化反映人流活動分別在白天、晚上以及工作日、週末、重大活動日等不同時間段的變化[6]。這一研究開啟了應用移動定位資料大範圍、大樣本、動態認識城市系統的研究領域:通過資料的統計彙總,認為城市空間活動雖然由無數個體的無序活動組成,但在整體層面有規律可循,可以用移動定位資料來反映城市活動的時空變化。
此後便有學者在拉蒂的研究基礎上,用手機資料、公交刷卡資料、GPS 資料、社交網站簽到資料等移動定位大資料探索城市空間研究,並將研究由描述空間的表面現象、識別空間功能深入到驗證傳統理論模型、分析空間聯絡測度中心體系。
(一)空間現象描述
拉蒂的研究對用移動定位大資料開展城市空間研究已經產生了較大影響,至2015 年1 月已在Web of Science 上有117 次被引,是同類論文中最多的。受拉蒂的影響,諸多學者開展了類似的研究。例如,維埃拉(Vieira)等用手機通話、簡訊資料表徵人流密度變化,發現中心區工作日早上密度最高,下午密度下降,晚上商業、商務區和地鐵線周圍密度最高,郊區週末早上和下午密度最高等現象[7]。塞夫塞克(Sevtsuk)等利用羅馬398 個基站的手機通話時長資料研究日常活動的規律,發現通話時長可以分為24 小時(即每天的活動是有規律的)、3.5 天(即工作日和週末的規律是不同的)、12 小時(表示晝夜的活動規律)和8 小時(表示工作時間、非工作時間的活動規律)的週期,大多數活動都有規律可循,不同地區的活動受人口、設施、環境等因素影響[8]。克瑞斯珀(Krisp)用赫爾辛基的手機資料研究人流密度時實分佈情況作為消防和安全設施佈局的依據[9]。貝克爾(Becker)等利用手機通話和簡訊資料研究莫里斯敦(Morristown)工作、娛樂人群的居住地分佈,發現莫里斯敦對周邊地區就業活動的吸引力大於娛樂活動的吸引力,作者還利用通話和簡訊記錄區分人群,發現工作時間比非工作時間使用簡訊多的人群的空間分佈範圍更大[10]。塞戈(Sagl)等用烏迪內(Udine)的手機握手資料、通話時長資料和Flicker 社交網站簽到資料分析城市不同時段的活動強度。由手機資料發現西部地區與中心區的聯絡比東部地區與中心區的聯絡強,西北地區的通訊呈現雙峰特徵;由社交網站簽到資料發現不同地點的活動特徵受季節影響[11]。隨後又用手機通話、簡訊資料,通過視覺化分析方法研究烏迪內工作日和週末空間活動的時實變化[12]。曼弗雷迪尼(Manfredini)等利用2009 年和2010 年蒙扎(Monza)和布里安扎(Brianza)的手機通話時長、簡訊、移動交換中心活躍使用者資料研究城市動態活動,提出可以用手機資料描述城市空間以小時、天、周為單位的使用強度變化,以此為依據制定城市政策、計算人口密度、時實監測本地和外來人口[13]。約翰(John)等用手機資料模擬愛爾蘭區域性人口流動,結合馬爾科夫鏈分析人口密度分佈,這一研究結果與中央統計局的人口普查資料高度一致[14]。上述研究中使用的手機資料有通話時長、通話頻次、簡訊量、握手資料等,用來表徵城市空間活動強度的統計口徑並不統一。因此,康朝貴等對研究中用通話時長、通話頻次、手機使用者數能否表示真實的人流活動提出了質疑,通過研究3 個資料與2008 年全球人口動態統計分析資料(LandScan)的關係發現,通話時長和通話頻次的關係隨時間變化,通話頻次與手機使用者數呈線性相關,手機使用者數和真實人口數量的比例在不同地區是不同的,不能用來表示真實的人口數量,因此,通話活動能反映活動強度但不能代表人口分佈[15]。
空間現象描述利用大資料大樣本、高頻率的優點,用簡單的統計彙總、視覺化表達就能實現傳統調查方法難以開展的研究。但是,研究結論只是一般現象的描述,並未深入分析、挖掘現象背後的規律。
(二)空間功能識別
部分學者在用大資料描述空間現象的基礎上通過空間計算,根據空間使用特徵識別其主導功能,包括識別不同的功能區、土地使用型別等。例如,瑞茲(Reades)等將羅馬47 km2 劃分為1 600 m2 為單位的柵格,計算每個柵格的平均通話時長並進行標準化處理,並用聚類分析分離出8 類地區,識別羅馬中心城區邊界[16]。此後又用特徵分解法(EigendeComposition)識別和提取羅馬100 萬手機使用者的通話時長資料,以柵格資料反映日間熱點地區,發現與用企業黃頁資料得到的商業密度分佈非常契合。研究結果證實了可用手機資料來進行空間計算和比較分析[17]。齊觀德(Guande)等利用杭州300 萬條計程車GPS 資料,分析載客量與城市社會功能區的關係。發現載客量與社會活動強度有關,不同地區的載客量不同。作者用聚類法識別不同的社會功能區,準確率達到了97.44%[18]。劉瑜等分析了上海6 600 輛計程車的GPS 資料。發現載客量呈現以24 小時為週期的變化規律,市中心、居住區、虹橋機場、浦東機場、郊區5 個點的載客量具有不同的時間序列。進而利用普利亞姆(Pulliam)提出的“源-庫”(Source-Sink)模型,通過計算上下客人次的差值聚類來分析土地利用現狀,研究結果與2007 年的土地使用情況一致性高達78.5%[19]。裴韜等通過新加坡的手機通話資料的聚類分析表徵不同的用地型別,準確率達到了58.03%,並且發現用地異質性越高準確率越低,手機基站數量越多準確率越高[20]。
空間功能識別解答了用大資料描述空間現象是否準確的疑問。將大資料識別的空間功能和普查、統計資料進行比較,證明了大資料有可能較準確地反映空間和土地使用,可為開展後續研究提供支撐。但該類研究本身與城市規劃關係並不密切,只是開展後續規劃研究的基礎。
(三)理論模型驗證
隨著大資料研究的廣泛開展,空間現象描述和空間功能識別已經較為成熟,但其侷限性也日益顯現,即對研究的實際貢獻較小,只是資料視覺化展示和可信性證明。因此,有研究者開始探索大資料在驗證距離衰減效應、重力模型等理論模型研究中的作用。例如,拉蒂等將英國12 萬個居民和商戶的固定電話時長資料賦值到3 042 個柵格中,分析不同地區的聯絡程度。在兩次迭代後分離出了23 個地區,與行政邊界高度一致,證明了行政邊界不僅影響人口空間分佈,還影響通訊交流[21]。卡拉布雷塞(Calabrese)等用聚類分析研究手機使用者的動態OD 矩陣,發現手機資料和普查資料在縣級層面(county level)的交通流、工作日早交通、重力模型的標準差的擬合度分別達到了0.73、0.76、0.59,但在普查區層面(census-tract levels)僅有不到0.3、0.36、0.1。作者認為這是由於普查區層面的樣本量較少、統計時間不一致引起的[22]。康朝貴等通過研究439 萬手機使用者的通話資料發現城市間的通話量不但存在距離衰減效應,還存在位序分佈[23]。高鬆等做了相似研究,發現哈爾濱90% 的通話距離在20 km 之內,通話量的距離衰減引數(1.45)與空間距離衰減引數(1.60)相似,反映了網路空間的距離限制略小於物理空間[24]。卡拉布雷塞等用馬塞諸塞州的手機資料研究出行距離的影響因素,發現公共交通越便捷,公眾會越傾向於使用公共交通從而增加出行距離[25]。
理論模型驗證是大資料理論研究價值的有益探索。大資料不再僅是“炫耀”資料視覺化及分析技術的工具,開始吸引關注理論模型研究的專業學者。但當前的理論研究還只是對傳統理論的驗證,用大資料探索新理論尚有較大難度。
(四)中心體系分析
還有學者通過空間計算對空間現象開展了更為深入的研究,主要致力於定量分析城市中心體系,通過測度人流量及其空間聯絡識別城市中心、分析中心職能。例如,劉亮等用深圳5 000 個計程車GPS 資料和500 萬個公交和地鐵IC 卡資料,建立了一個時實的城市動態整合圖(Integrated UrbanMobility Patterns)來認知城市、優化城市動態分析方法。作者通過研究地鐵站進出人流量發現世界之窗、崗廈站是居住中心,國貿、大劇院、華強路、購物公園、車公廟站是工作中心,老街和華強路是購物和娛樂中心。工作日早高峰呈現以世界之窗和崗廈站為中心的由西向東的單向流特徵,晚高峰呈現以華強路和大劇院站為中心的由東向西的單向流特徵,鐘擺交通量週六大於週日大於工作日。作者又通過分析計程車OD 資料發現羅湖、福田、南山3 個重要的經濟發展區聯絡最緊密[26]。羅斯(Roth)等提出世界城市有複雜的空間結構,人口、密度、區位已經發生了巨大變化,不能用簡單的單中心城市結構來解釋。作者將倫敦203 萬人1 122 萬條地鐵刷卡資料在空間上以1 500 m 為半徑進行聚類分析,發現人流向多箇中心集聚,證明倫敦是多中心結構的大城市[27]。劉瑜等將上海以人民廣場為圓心的13 km 半徑範圍分為每2 km 為間隔的同心圓,通過每個圈層中計程車上下客人次的差值聚類識別用地功能,發現由中心至外圍商業、娛樂用地減少,工業用地增加,證明了上海呈單中心結構[19]。鍾晨等使用新加坡的公交刷卡資料用空間插值(SpatialInterpolation)和彙總統計(Summary Statistics)的方法分析新加坡空間結構的變化。研究發現隨著公交和地鐵系統的完善,出行距離和客流量都在增長,反映了城市的聯絡強度在加強。因地鐵促進了長距離交通,較高中心度的地區逐漸增加,有地鐵站點的城市樞紐的功能集聚度增強。增長的公共交通客流量主要集中在副中心所服務的新建社群,證明新加坡正在向多中心城市結構轉變[28]。
中心體系分析不同於空間現象描述,多由專業學者以研究問題為目標,藉助空間分析方法,應用專業知識分析資料、解讀結果。這類研究與城市規劃中的空間結構規劃有密切關係,識別城市中心、分析中心職能的方法已經能用於評估公共中心規劃的實施效果,展現出了一定的應用前景。
二、大資料在城市空間研究中的思考
由上述文獻可知,近年來大資料研究的關注度和成果數量呈上升趨勢。《城市科技雜誌》(Journal of UrbanTechnology)2010 年第1 期開設了地理和規劃中的移動定位和追蹤(Mobile Positioning and Tracking in Geography andPlanning)專刊,2014 年第2 期又一次開設了行動通訊和城市空間(Mobility,Communication,and Urban Space)專刊。這與當前城市空間活動過於複雜有密切關係,需要藉助大資料分析城市中的各種流(Flow)來認識由人流、物流、資訊流構成的網路(Network),瞭解城市要素內和要素間的相互作用和關係,認識城市空間的發展規律[29] 有密切關係。但大資料在受到熱捧的同時,還需要理性看待,因為大資料並非萬能,其研究可能會遇到諸多侷限,例如,康朝貴等對通話時長、通話頻次、手機使用者數能否表示真實的人流活動的質疑[15] 值得引起重視。基於上述文獻,筆者認為當前大資料及其研究存在以下特徵。
(一)大資料的優勢和缺陷
大資料的一大特徵就是海量資料,提供個體時實移動軌跡資料。從文獻中可知計程車GPS 資料的樣本量和記錄量分別約為103 / 天和105/ 天,公交刷卡資料為106/ 天和107/ 天,手機資料更是高達107/ 天和108/ 天(不同城市可能會有所差別),遠遠超出了傳統調查方法能夠獲取的資料量。從資料內容來看,雖然資料產生和儲存不是以空間研究為目的(例如,手機資料是通訊商為了解基站負荷,以便及時增減基站而儲存),但資料中包含的“誰-什麼時候-在什麼地方”的資訊與城市空間研究所需的樣本空間資料基本一致,為定量分析提供了充足的樣本。
但大資料也有缺陷。首先,“大資料就是全樣本”[30] 只是在理論上成立,公交刷卡資料、GPS 資料、手機資料等都只記錄了特定人群的時空軌跡(例如,公交刷卡資料只記錄了使用公交卡的使用者的資料),這種抽樣是非隨機的,是否能準確代表總體時空軌跡特徵存在質疑[25]。其次,資料內容單一,僅有空間資訊,不包含樣本的年齡、收入、職業等社會經濟資訊[25],只能通過資料反映空間的現象和規律,而難以解釋其背後的社會經濟原因。在這種情況下,研究者只能以一般行為規律為依據,識別行為目的,以試圖挖掘資料隱藏的資訊。但根據龍瀛等的研究,從公交刷卡資料中能同時識別居住和工作地的使用者僅佔總使用者的2.8%[31] ;根據艾斯的研究,從手機資料中能同時識別居住和工作地的使用者僅佔總使用者的44.5%[32]。大資料一旦進行識別處理,其以全樣本保證抽樣隨機性的優勢就不復存在,識別結果很有可能會與總體產生偏差,在如此大樣本情況下這種偏差尚缺少科學方法校準,總量和空間上偏差多少也難以給出確切資料。若用識別資料進行下一步研究很有可能會產生“精確的錯誤”。最後是資料質量問題,上文綜述的文獻中雖未提到這一問題,但筆者在研究實踐中[33] 發現大資料並非如邁爾· 舍恩伯格(Mayer-Schonberger)等所說可以“允許不精確”[30]。“允許不精確”需要隨機錯誤這一前提,然而從筆者獲得的資料來看,由於資料記錄和儲存等問題,資料存在非隨機缺失,有的表現為空間缺失,有的表現為記錄缺失。從當前的研究成果來看尚缺少驗證資料質量、提高資料應用可靠性的方法。
(二)大資料研究的侷限
從已發表的文獻來看,大資料並未被研究者過度追捧。很多研究者認為大資料只是提供了過去難以獲取的資料來源[6,22],上文綜述的文獻中標題、摘要或關鍵詞中出現大資料(Bigdata 或Big Data)的僅有1 篇,正文中出現大資料的也僅有2 篇。研究依然依託傳統理論開展,將大資料作為一種資料資料,研究結論也並無新的理論突破。而從應用移動定位大資料的時間來看,GPS 資料和公交刷卡資料都已有10 多年的研究歷史。近年來出現的手機資料在資料內容上與其並無多大區別,只是資料量有了巨大增長。當時研究者並未提出大資料這個詞,或者說大資料尚不能作為學術術語出現在研究成果中。只是近年來由於商業、政府等非學術機構的推動,學術界才開始逐漸接受這個詞。
從這些文獻的研究內容來看,空間現象描述佔主導,並且仍然是近年來的研究熱點,理論模型驗證、中心體系分析等方面的研究開始湧現,研究的廣度和深度正在逐步提升。說明研究者在掌握基本的資料處理技術後,已開始關注城市空間現象背後的深層次規律。移動定位大資料由於具有較豐富的空間資訊吸引了地理學者、計算機學者、社會學者跨學科研究空間問題。
從研究結論來看,即使經過深入的資料分析對理論模型和中心體系有所探討,其結論也只是對一般規律的描述,缺少新的理論探索和解決實際問題的應用。用大資料發現新現象、找出研究問題[30] 的潛力尚未被充分挖掘。這與部分大資料缺少社會經濟屬性有關,也與大資料需要資料處理技術與規劃知識的緊密融合有一定關係,城市規劃學者由於缺少資料處理技術,在研究中很難真正充分利用資料,而非規劃學者因缺少專業思想指導,又難以提出對規劃應用有實際指導價值的研究問題。
基於上述分析,筆者認為大資料並不能取代傳統資料,只是傳統資料的有益補充。在研究中應充分發揮兩者各自的優勢:大資料具有豐富的空間資訊,傳統資料具有較豐富的社會經濟資訊。可用大資料來描述、分析空間的現象和規律,回答“是什麼”的問題,再用傳統資料來做解釋,回答“為什麼”的問題。
三、大資料在城市規劃中適宜的研究方向
基於大資料的城市空間研究型別及從文獻中總結的大資料的優勢和缺陷、大資料研究的侷限,筆者認為當前大資料在城市規劃中適宜於兩方面的研究。一是驗證理論模型和提出研究問題。利用大資料豐富的個體移動軌跡資訊,從個體出發以全樣本或大樣本驗證傳統規劃模型正確與否以及具體引數的取值,並試圖從中發現用傳統小資料難以發現的“不符合一般認識”的現象和規律,提出有意義的研究問題,為規劃研究提供思路。二是分析空間現狀和評估空間規劃。應用大資料,建立一種自下而上的現狀分析途徑,將大資料分析得到的現狀結論與規劃藍圖比較,評估現狀或規劃實施效果,提高規劃設計的科學性、合理性。
基於文獻中的研究方法,筆者認為可通過兩種方法實現上述兩方面研究。一是統計彙總。包括:(1)按時間截面彙總每個統計單元的個體數量,反映特徵時間點的人流密度,只要通過簡單的描述統計分析、時間序列分析等方法就能在空間中反映城市的動態變化過程,結果往往用熱點圖表示,如拉蒂[6]、塞夫塞克[8]、曼弗雷迪尼[13] 等學者的研究。(2)按規律性行為彙總每個統計單元的個體數量,反映就業、居住、遊憩等活動的空間分佈,需要首先依據一般行為規律,識別個體行為目的,再用統計學方法分析不同行為的空間使用特徵,如貝克爾[10] 的研究。二是空間計算。即在熱點圖的基礎上運用密度分析、柵格計算、聚類分析等空間計算方法挖掘空間現象背後的規律,如瑞茲[17]、劉瑜[19]、羅斯[27] 等學者的研究。
四、結語
本文通過基於移動定位大資料的城市空間研究文獻的梳理,發現基於大資料的城市空間研究的廣度和深度不斷擴充套件,但是資料本身及相關研究尚存在較多缺陷和侷限,需要與傳統資料結合才能發揮更好的作用,大資料在城市規劃中適宜於驗證理論模型和提出研究問題、分析空間現狀和評估空間規劃兩方面研究。在資訊社會,城市問題更加複雜,利用大資料進行規劃將會變得越來越普遍。規劃師亟需轉變思路,以多學科協作的方式積極參與基於大資料的城市空間研究,接受新的思維和方法,應對城市問題。
作者:丁亮、鈕心毅、宋小冬,同濟大學建築與城市規劃學院
摘自:《國際城市規劃》