紐約計程車大資料探索

Liunene發表於2018-07-13

本文旨在探索紐約城市市民的叫車出行習慣,通過對145萬餘條資料的定量分析,針對提出的問題相應地得出了些許結論。並在文末分析了日後可以進一步擴充的探索方向。
資料來自於kaggle,選用train.csv中的資料記錄進行相關資料分析,使用Python作為分析工具。

資料來源:Kaggle|New York City Taxi Trip Duration

也可參考紐約市計程車和轎車委員會發布的歷史資料集: NYC|(TLC Trip Record Data

過程設計:

  • 提出問題
  • 理解資料
  • 資料清理
  • 資料分析
  • 得出結論

一、提出問題

根據已有資料分析:

1、何時為叫車需求高發期?

2、居民夜生活活躍情況?

3、城市一天的什麼時候最為擁堵?

4、什麼時間容易接到長途單?


二、瞭解資料

表單說明:

id - 每次行程的唯一ID

vendor_id - 行程提供者的ID

pickup_datetime - 上車的日期和時間

dropoff_datetime - 停表的日期和時間

passenger_count - 車輛中的乘客數量(駕駛員輸入值)

pickup_longitude - 上車的經度

pickup_latitude - 上車的緯度

dropoff_longitude - 下車經度

dropoff_latitude - 下車的緯度

store_and_fwd_flag - 行程記錄是否為儲存轉發(或是直接傳送)– Y =儲存和轉發 N =沒有儲存

trip_duration - 行程持續時間(秒)

四、 資料分析與視覺化

分析一:何時為叫車需求高發期

行程單數量與月份的關係

在2016年1月至6月這段時期裡,月行程單數最多的月份是3/4/5月份,日均訂單最多的月份是4/3/2月份。

差異性說明了在分析月份相關的資料時要考慮到每月天數的影響。由於每個月的天數不一樣,分析時應以日為維度。

訂單數按日期分佈、按當月幾號分佈

1、1月份和5月末出現了異常低值,需要找到其原因。

2、通過觀察可以看出,訂單數量隨日期的變換呈規律性的波動(不考慮異常值),但是根據右圖可以看出與日期為幾號相關性不大,據此推測訂單數量可能與星期幾有關。

檢視異常值的分佈

篩查出異常值

“1、1月份和5月末出現了異常低值,分析其原因。”

—- 調查結果:

(1)美遭暴風雪襲擊 紐約時報廣場飛雪飄零_網易新聞

2016-1-24 · 當地時間2016年1月23日,美國紐約,美國遭遇暴雪天氣,暴雪中的時報廣場。

(2)突發!紐約地鐵一日接連發生兩起死亡事故 –國際–人民網

29日,紐約地鐵接連發生了兩起死亡事故,分別造成一名男性和一名女性死亡。

(3)陣亡將士紀念日 (5月的最後一個星期一)

中新網5月30日電 據美媒報導,美國迎來“國殤日”長週末,標誌著夏季的正式開始。

(4)紐約將迎“曼哈頓懸日”奇觀 夕陽餘暉盡染

與此同時,每年僅出現2次的盛景“曼哈頓懸日”(Manhattanhenge)也將光臨紐約。

接下來研究星期對乘車的影響:

日期對出車量、載客量的影響

上圖圖一展示了在2016年1月1日至2016年6月30日這半年內,每日訂單總量、每日乘客數隨日期的波動。

上圖圖二展示的是單均乘客數隨日期的波動。這說明在週期的某一階段,不僅訂單數量增多,而且人們偏向於結伴出行。

按星期的訂單數與乘客人數分佈

“2、推測訂單數量可能與星期幾有關”—- 分析結果:

圖一是星期一到星期日,訂單總數、乘客總數的變化趨勢,從中可以看出從週一到週六,訂單數量和乘客人數呈線性增長,週日回落至與週二同等水平,這說明市民在週五、週六叫車出行的頻次最高。這可能來自兩種原因:一種可能是人們在週五週六更願意出門,第二種可能是人們在週五週六更願意選擇叫車。

圖二是星期一到星期日,單均乘客數的變換趨勢,從中可以看出週六、週日為多人拼車高發期,據合理推測,應該是週末放假而導致的結伴出行的機率升高的緣故。

一天內訂單數隨時間變化(按月拆分)

從圖中可以看出:

(1)早高峰表現不顯著,從早5點開始,訂單量由谷底回升,到達約早8點後訂單量開始趨於穩定,在一段時間內波動不明顯。

原因推測:1、市民上班的出行需求被公共交通、私家車等分擔,不會偏好於計程車出行;2、市民的上班時段不集中

(2)晚高峰表現顯著,從晚5點半開始訂單量有小規模增長,約晚7點進入叫車最高峰,且在23點之前的平均叫車量要高於白天時段。

原因推測:1、相比於早間,市民在晚間外出活動時更偏向於計程車出行。

(3)下午時段,16:40左右出現訂單量回落。

原因推測:1、司機交班;2、道路擁堵。

分析二:居民夜生活活躍情況?

紐約市民夜生活活躍情況:從23點開始,訂單量顯著下降,這一下降持續到約早5點,早5點是一天內訂單量最低的時刻。

分析三: 城市的一天什麼時候最為擁堵?

問題轉化為:行駛速度最高/低的時刻

時刻與行駛距離的關係
由圖可以看出,行駛速度在一天內可以大致分為三個階段:

階段一:08:00-20:00
這段時間的車輛行駛速度是三個階段中最低的,這也是白天人們活動比較活躍的時段,速度基本穩定在同一水平,不存在明顯的極值。

階段二:20:00-03:00
這一階段開始,車輛的行駛速度有微弱的上升趨勢,階段的平均速度相較於階段一來說高出大概1/3的水平。

階段三:03:00-08:00
在這段時間,車輛的行駛速度先是明顯上升,在約5點的時刻顯著回落。這告訴我們清晨五點是紐約這座城市的甦醒時刻。

分析四:什麼時間容易接到長途單

時間和訂單路程距離是否有關係呢?接下來進入分析

時刻與訂單路程的關係

分析結果:在凌晨時段最容易接到長途單,在5點左右最為明顯。

另外,看到圖形時有種似曾相識的感覺,原來與行駛速度的圖形十分相似。是相關關係還是因果關係呢?

總結

分析到此告一段落,其實這個資料還有值得分析的地方,比如,結合地理位置的資料,可以根據區域劃分出不同行政區的乘客行為特點。對城市有更為細緻的詮釋。

還可以分析哪些時段的哪些區域更容易發生訂單,這對出租排程來說是個有效資料。

從暴雪帶來的異常值可以推測,天氣與訂單量是有密切關係的,根據日期對應天氣資料,可以進一步分析天氣與訂單量的影響。結合位置資料,還可以分析哪些區域受天氣的影響較大,等等。

另外機場、車站,作為比較有特點的地理位置,也可以單獨作為一類來研究。

另外如果進一步獲取更多時間軸上的資料,也可探索更多例如同比分析、環比分析的方法,並且可以進一步提升結論的可靠性。

預留問題:

–上車位置最多的地方,下車位置最多的地方?人都去哪了?

–行旅出差人士行為偏好?

相關文章