本期嘉賓演講為北京市政交通一卡通公司資料運營總監張翔帶來的分享,看了他講的內容才知道,我們每天都在用的公交卡真是一種神奇的東西,以它為媒介積累了海量資料,從中能進行各種有趣而使用的挖掘實踐。

1473430482-7397-94de80684e44193c7a3f01
 

北京市政交通一卡通公司資料運營總監張翔

各位嘉賓、各位朋友,大家上午好。我今天帶來的題目是北京市政交通IC卡資料在城市治理中的應用。

我主要講三個方面,首先是北京市政交通一卡通業務介紹。第二是資料現狀平臺功能,第三是城市治理中的應用實踐。

1473430482-3512-94de80684e44193c7ac002
 
北京市政交通一卡通有限公司成立於2000年,在歷年的發展過程當中,我們漸漸擴充套件到四個領域,28個應用,典型的是城市交通。北京的公共交通基本上是全覆蓋的,市政服務方面我們覆蓋了像燃氣、公園景點、公共電話、環保系統、學生卡、養老助殘卡、殘疾人一卡通。

1473430483-1404-94de80684e44193c7aca03
 
1473430483-2081-94de80684e44193c7ad204
 
這四大領域,28類的應用在一年發展過程中積累了海量的資料。現在我們在公交和市政領域累計的可用資料是460億筆,每天還有3000萬筆左右的增量。

1473430482-6946-94de80684e44193c7adf05
 
在上述資料基礎上,我們建立了和資料相關的三套體系,為政府提供服務。

第一套是具有鮮明一卡通特色的資料治理體系。第二套是我們資料探勘分析和計算體系。第三套是我們應用和展示體系。

1473430483-4016-94de80684e44193c7aed06
 
這是我們的資料治理體系的標籤畫像,中間是一張基本的IC卡,這是最基本的卡,我們還有很多擴充套件功能的卡。我們在做的時候有30多個緯度,比如說這張卡髮卡的標籤、持有時長的標籤,我們以某種方式先畫出來。

在卡片當中應用比較多的像通勤的OD、充值的次數、票價敏感度等等都是標籤。還有學生卡、老年人卡,我們單獨會有專項的標籤。目前我們發了1億張,保有量8000萬。但是正常活躍在用的大概是3000萬張,我們經過一年的努力把3000萬市民的畫像基本上做全了,這也是為政府各項資料分析服務提供了基礎。

我們的標籤基本上分成三類,一類是公共交通類,一類是市政服務類,還有一類是外源融合類,包括天氣資料、商業化的資料等等。

1473430484-8502-94de80684e44193c7b0007
 
這一頁是我們典型視覺化的的應用,這是路網全天監控的站點。通過全天24小時監控介面,可以跟蹤整個公共交通路網在特定時段的動態變化,我後面會有一段動畫演示。

1473430484-8399-94de80684e44193c7b0b08
 
這一頁是我們的線路客流的監控介面,包括線路站點流量變動,右上角大家可以看到。還有換乘的狀況,來源地和目的地,它和所有線路之間的換乘狀況。一條線路上人從哪裡來,可以從這張表客觀的體現。

1473430484-2418-94de80684e44193c7b1a09
 
再往後一張是特定區域的分析,一種緯度按照網格化管理,一種緯度是物理的管理,或者是按照商務區、居住區和學習區。現在我體現的這張是中關村的昊海樓,因為昊海樓前一段在做功能轉換,應市裡面的要求我們做了詳細的特定分析。

從這張圖可以看出來,昊海樓中的工作人群(當然我們要限定了,它只限於公交方式的人群,私家車我沒有加進去),他的出行距離、上班的時間分佈、使用的交通工具,以及換乘的方式和各個區域之間的方式,可以很典型的通過這張圖來實現。我們和國家發改委規劃院和北京規劃院有深入的合作,為他們的規劃提供了支援,用他們的術語叫資料驅動規劃。

1473430484-8832-94de80684e44193c7b290a
 
這張是廈門的支柱平衡分析,因為我們這個平臺是垂直的通用分析平臺,IC卡資料只要接進去,各種功能都可以體現出來。國家發改委覺得我們整個平臺具有推廣價值,所以當時建議把廈門的資料接進來。廈門是島狀結構,這個是廈門島外各個重點站點之間的往來關係。

前面我簡單介紹了企業情況,以及我們的資料和資料平臺的情況。下面我分四個方面介紹一下北京一卡通的資料,我把一年來做的各種案例梳理了一下,主要分為四類,一是政策效果評估,二是城市規劃支撐,三是特定人群的分析以及服務,四是公共交通的優化。

第一個案例是北京的重大政策的評估。評估分為事前、事中和事後,北京在2014年做了一次票改,減少非剛需的地鐵客流,引導客流的合理出行。我們取了票改前後各一個月的10億條資料,我們在國內外交流的時候,很多專家告訴我們,至少這是國內第一份基於全口徑的分析。票改後第一個月地鐵刷卡次數減少了10%,從結果上來看,基本上達到了市政府票改的目的。

1473430484-1895-94de80684e44193c7b360b
 
1473430484-4438-94de80684e44193c7b400c
 
從結構上來看,右邊這張表有兩個緯度,一個是地鐵減少,一個是公交增加,是指這一個人在這一個月裡面乘坐公交和地鐵的方式和次數的變化。

從這個圖可以看出來,整個票改對北京人群出行影響有149萬,同時一個月超過十次的我們稱他改變了出行結構,我們把地鐵轉化為公交的定為票價敏感人群。這20萬人群是下一步票改需要重點考慮的人群。

第二個案例選擇的是2015年北京的大閱兵,閱兵的過程當中採取了交通限行措施,我們研究了單雙號限行對整個北京區域內公交的影響。我們從右邊可以看出來結果,限行期間和限行前,整個公共交通的出行增量增長了7%,其中公交增加了10%,並且早高峰提前了十分鐘,地鐵略降了2%。

1473430485-8681-94de80684e44193c7b4f0d
 
1473430485-8992-94de80684e44193c7b590e
 
我們選了北京三條典型的公交線路,分別是長安街的1路和二環的44路和三環的300快。站點的顏色代表前後變動的比率大小,通過右邊這張表可以看出來,我們看到前面這張圖整體的公交增量是10%。但是典型線路增量會高於普通線路,同時,從右邊可以看出來非工作日它的增量反而更大,那麼下一步我們做相關政策安排的時候可能要多做一些典型線路的車輛頻次和密度。

因為這次是限行,主要是想讓私家車出行轉成公交方式出行。所以我們重點研究了一下有車族轉至公交的情況。從上面的圖可以看出來,前兩週一次都沒有坐過公交系統的,在限行期間內坐了兩次或者兩次以上的有329萬人。在限行期間乘坐公共交通八次以上的有94萬人,從效果來看達到了政策設計的目的。

現在政府非常推崇綠色出行,就是自行車。當然這個裡面是直觀的體現,從總人群上看增加了10%,每一個使用的頻次都有相應的增加。

剛才是關於城市重大政策的事前、事中、事後的案例。因為北京區域非常大,各個區之間跨區的工作現象非常多,這裡面我們和國家發改委一起合作,做了北京區域內的跨區工作的分佈。

1473430485-2288-94de80684e44193c7b710f
 
我們從右邊的圖可以看出來,顏色越深代表跨區之間人的流量越大。在北京居住和工作跨區工作中,昌平居住在海淀工作,朝陽居住在海淀工作,豐臺居住在海淀工作的比例最高。這個說明在海淀它能提供的工作崗位相對是比較多的。

1473430485-8122-94de80684e44193c7b8a10
 
我們再從具體某一個區域職住平衡分析來看,大家從我畫的綠色圈可以看到,在金融街上班人群中,以金融街為中心十公里為半徑的居住人群佔69%。大型的居住區我選的是天通苑,半徑十公里範圍內的工作人群只佔39%,它呈現偏態的失衡分佈。這兩張圖我們和北京相關的規劃部門和發改委相關的規劃部門都已經有過交流,說明在早前我們設計的時候可能對功能區和居住區的分佈考慮的不是很充分。

關於城市規劃支撐,第二個案例是通州,通州現在被定義成北京的副中心。而且它的高度現在也被提到了已經不是北京的通州了,它是京津冀的通州。包括國家發改委、市發改委都委託我們研究通州它的公共交通影響的靜態和動態的人群。

1473430485-5706-94de80684e44193c7b9711
 
1473430485-4692-94de80684e44193c7b9f12
 
這裡面我們做了三個緯度,一個是在通州居住在外區工作,以及在通州工作在外區居住,一個在通州居住,也在通州工作。通州居住在外區工作的人群中,在朝陽區個海淀、石景山的最高,佔比依次為31%、19%和14%。

我們再看右邊這張圖通州工作外區居住,從這個圖可以典型看出來朝陽、豐臺和大興區居住人群到通州上班的比例是比較高的。

這兩張圖反映的也是剛才的,是通州和各區之間的關係。下面是以熱力圖的方式來反映,左邊是它的工作地分佈,右邊是通州的居住地分佈。

1473430486-6104-94de80684e44193c7bb013
 
1473430486-3194-94de80684e44193c7bb814
 
這是第三個緯度的圖,在通州工作通州居住,我們可以從左邊看,左邊體現的是居住地分佈,右邊體現的是工作地分佈。如果僅僅從職住平衡的角度來看,我們認為通州內部職住分佈是相對平衡的。但是從分佈來看合理性是有待調整的。

北京的工作人群不僅僅受北京的影響,還受河北的影響,典型是河北的北三縣,公共交通出行的工作人口中,超過40%是在北京的區域裡工作,其中又以朝陽和通州的比例較高。

1473430486-6164-94de80684e44193c7bcd15
 
前一段時間很多媒體在熱炒,很多在三河的居住人每天非常擁擠,坐直達公交到國貿上班,變成典型的社會現象了,這個可能是下一步通州設計的時候需要考慮的。

第三個案例是對特定人群的分析,原來我的PPT沒有這個,但是這段時間有一個現象,英國的學者提出來用IC卡資料來抓小偷,好像在資料分析師圈子裡面流傳很廣。實際上這件事情,我們五年前就在做和北京公交總隊合作在做,為什麼沒有說呢?因為你說出來有負面影響,但是為了增加趣味性我今天就把這個題拿出來說一下。

我們有一套系統稱為北京一卡通特定人群分析系統,它有三個層次。第一個層次我們可以分為大學生、中小學生、老年人、小偷、乞討,它有一個巨集觀的北京市的整體的考慮,相關的政府部門必須考慮,我們按照他們的要求做的這套系統。其中灰色人群的體系裡面,有一塊專門是小偷、乞討和其他的灰色人群,包括有些快遞我們也歸為灰色人群。

1473430486-9770-94de80684e44193c7bdc16
 
它是怎麼做呢?首先我們給特定人群做定義,定義完以後在整個畫像裡面抓人群時空的出行特徵,最後我們對這個人群識別完以後,要用其他的線索和資料來驗證,包括很多外聯資料,包括公安部門的資料。做完之後,驗證完之後我們把這部分人群挑出來,交給相關部門做管理或者是服務。

1473430486-6139-94de80684e44193c7be617
 
中間的紅色標籤前四行就是我們如何識別小偷的,我們通過它的軌跡可以看到,一般這種人群是偏離正常的出行規律,他偏好短途或者是頻繁換乘。同時他隨機停留,沒有明確的目的地。同時,這部分IC卡更多會聚集在商業區域、旅遊精典,把這個量交給警方,由警方和各個案發地的效果進行匹配,從效果來看是很好的。雖然識別的百分比非常低,但是總量是很大的。

我們更多做的是一些普通人群,包括老年人、中小學生,特別是中小學生在北京是IC卡應用起到了相當大的作用。這四張圖體現的是北京的中小學生每天通學的距離。

1473430486-5837-94de80684e44193c7bf218
 
第一張圖綠色的它的距離是0到10公里,第二張是10到20公里,第三張紅色的是大於20公里。所以北京有很多孩子很辛苦,因為我們的界定前提是坐公共交通工具的,這個孩子每天在路上可能要一個多小時。

1473430487-6828-94de80684e44193c7bff19
 
我們來看這張圖,右邊的是中小學生,0到6公里基本上在北京的整個學生體系裡面佔了55%,6到12公里佔21%,12到20公里佔了11%,剩下的13%人群,我們對這批進行了深度的分析,這一批是拿了學生卡,但是不是學生。從出行的時間、軌跡和目的地來看,那個地方沒有學校,而且不是上學時間出行,因為學生卡比較便宜,可能有人冒用學生卡,打的折扣比較大。

右邊是通勤人群,我們可以看到北京人民還是很辛苦的。特別是出行公里數在25%左右是12到20公里,還有剩下16%是20公里以上,像我每天單程是20公里。

第四部分是我們公共交通優化的分析體系

我們是四個層次,第一層次是對整個路網的監控。第二層次是某一條路網的某一條。第三個層次是線路里面的站點。第四個層次從線路里面出來的人,以及人的軌跡的分析。

這是全天路網24小時動態分佈圖,顏色越深代表這個站點出行的人群密度越大。大家可以看到北京最北邊和右下方這個位置有幾個站,從早上開始一直要紅到晚上十點鐘。

1473430487-2450-94de80684e44193c7c171a
 
剛才講的是路網動態的監控,這是線路,我選擇的是地鐵1號線,它反映的是1號線客流的來源和去向。右邊可以看到1號線、2號線、10號線是強相關的。

1473430487-3361-94de80684e44193c7c271b
 
第三個層次是站點,我選擇典型站點是天安門,我們對天安門的人群特徵可以做一個細分和描述。從左邊可以看到,天安門上班族、旅行者和購物群體的分佈。如果跟西單一比就非常典型了,西單的購物人群非常多,包括進出站人群的性別比例、年齡比例,更往下的是其他部門的一些特徵。最下面那張表反映的是天安門全天進站和出站人流量的比例。

第四個層次是個人軌跡,我們通過對個人通勤軌跡的分析,我們可以找出它的通勤方式的偏好,通勤的距離、時長、換乘的方式、居住的區域,以及它的工作的區域,居住區的車站分佈等等特徵都可以通過他的刷卡行為體現出來。當然如果再融合其他的外源資料可能有更深的發現。

1473430487-7073-94de80684e44193c7c351c
 
比如說右邊這張圖,上面白色九個緯度是用IC卡的資料做描述的,下面這四個是我們和中國移動合作,用移動信令做的軌跡描述。因為它從公交站出來之後,我們就監控不到了。但是我們可以和移動資料進行擬合之後一直跟蹤他進入小區。

整個這一塊我們對標籤畫像軌跡的描述,對很多設計部門、政府管理部門,甚至是一些商業單位是很有價值的做法。我們四層結構的包括路網、線路、站點和個人分析,在工作當中對交通優化起到了很強的資料支撐作用。比如說對通勤班車線路的設計、公交、地鐵站點之間換乘接駁,有很強的指導意義。

從剛才我們描述的諸多案例可以看出來,IC卡資料確實在城市治理當中起到了一些典型的效果。它提升了城市政策制定的效果和效率,提升了政府對特定人群服務的質量和水平。同時,它更可以優化公共交通資源的配置,我們北京一卡通公司做這種資料分析工作,已經有三四年時間了。在這三四年的過程當中,我們也應用了很多計算基礎和國內國外的計算工具和方法。在做的過程當中,我們感覺到我們開啟了一扇門,這個門裡面目前做的是為政府提供服務。但事實上我理解就我們現在的資料基礎和經驗完全可以為社會提供更深的資料服務,可以為公眾提供服務,甚至為個人提供服務或者是對商業企業做很多具體的應用。

後面幾項是更廣闊的空間,我們公司下一步確實在探索和研究,看是不是可以往商業化的方向考慮。我覺得在座的都是同行,如果大家有興趣的話我們是不是可以從這幾個層面。包括資料研究的層面和資料互換的層面,我們可以直接從商業層面合作,希望大家會後有機會可以交流。

1473430487-9077-94de80684e44193c7c451d
 
從我們這幾年為政府服務的過程當中來看,大資料提法慢慢開始越來越熱。我們從中碰到了很多困難,方方面面都有。但是我相信隨著政府相關政策的明晰化,大家觀念的轉變,技術的提升,城市IC卡資料肯定會發揮越來越廣泛、越來越深入,以及越來越精彩的應用。