紐約計程車大資料探索
本文旨在探索紐約城市市民的叫車出行習慣,通過對145萬餘條資料的定量分析,針對提出的問題相應地得出了些許結論。並在文末分析了日後可以進一步擴充的探索方向。
資料來自於kaggle,選用train.csv中的資料記錄進行相關資料分析,使用Python作為分析工具。
資料來源:Kaggle|New York City Taxi Trip Duration
也可參考紐約市計程車和轎車委員會發布的歷史資料集: NYC|(TLC Trip Record Data
過程設計:
- 提出問題
- 理解資料
- 資料清理
- 資料分析
- 得出結論
一、提出問題
根據已有資料分析:
1、何時為叫車需求高發期?
2、居民夜生活活躍情況?
3、城市一天的什麼時候最為擁堵?
4、什麼時間容易接到長途單?
二、瞭解資料
表單說明:
id - 每次行程的唯一ID
vendor_id - 行程提供者的ID
pickup_datetime - 上車的日期和時間
dropoff_datetime - 停表的日期和時間
passenger_count - 車輛中的乘客數量(駕駛員輸入值)
pickup_longitude - 上車的經度
pickup_latitude - 上車的緯度
dropoff_longitude - 下車經度
dropoff_latitude - 下車的緯度
store_and_fwd_flag - 行程記錄是否為儲存轉發(或是直接傳送)– Y =儲存和轉發 N =沒有儲存
trip_duration - 行程持續時間(秒)
四、 資料分析與視覺化
分析一:何時為叫車需求高發期
在2016年1月至6月這段時期裡,月行程單數最多的月份是3/4/5月份,日均訂單最多的月份是4/3/2月份。
差異性說明了在分析月份相關的資料時要考慮到每月天數的影響。由於每個月的天數不一樣,分析時應以日為維度。
1、1月份和5月末出現了異常低值,需要找到其原因。
2、通過觀察可以看出,訂單數量隨日期的變換呈規律性的波動(不考慮異常值),但是根據右圖可以看出與日期為幾號相關性不大,據此推測訂單數量可能與星期幾有關。
“1、1月份和5月末出現了異常低值,分析其原因。”
—- 調查結果:
(1)美遭暴風雪襲擊 紐約時報廣場飛雪飄零_網易新聞
2016-1-24 · 當地時間2016年1月23日,美國紐約,美國遭遇暴雪天氣,暴雪中的時報廣場。
(2)突發!紐約地鐵一日接連發生兩起死亡事故 –國際–人民網
29日,紐約地鐵接連發生了兩起死亡事故,分別造成一名男性和一名女性死亡。
(3)陣亡將士紀念日 (5月的最後一個星期一)
中新網5月30日電 據美媒報導,美國迎來“國殤日”長週末,標誌著夏季的正式開始。
(4)紐約將迎“曼哈頓懸日”奇觀 夕陽餘暉盡染
與此同時,每年僅出現2次的盛景“曼哈頓懸日”(Manhattanhenge)也將光臨紐約。
接下來研究星期對乘車的影響:
上圖圖一展示了在2016年1月1日至2016年6月30日這半年內,每日訂單總量、每日乘客數隨日期的波動。
上圖圖二展示的是單均乘客數隨日期的波動。這說明在週期的某一階段,不僅訂單數量增多,而且人們偏向於結伴出行。
“2、推測訂單數量可能與星期幾有關”—- 分析結果:
圖一是星期一到星期日,訂單總數、乘客總數的變化趨勢,從中可以看出從週一到週六,訂單數量和乘客人數呈線性增長,週日回落至與週二同等水平,這說明市民在週五、週六叫車出行的頻次最高。這可能來自兩種原因:一種可能是人們在週五週六更願意出門,第二種可能是人們在週五週六更願意選擇叫車。
圖二是星期一到星期日,單均乘客數的變換趨勢,從中可以看出週六、週日為多人拼車高發期,據合理推測,應該是週末放假而導致的結伴出行的機率升高的緣故。
從圖中可以看出:
(1)早高峰表現不顯著,從早5點開始,訂單量由谷底回升,到達約早8點後訂單量開始趨於穩定,在一段時間內波動不明顯。
原因推測:1、市民上班的出行需求被公共交通、私家車等分擔,不會偏好於計程車出行;2、市民的上班時段不集中
(2)晚高峰表現顯著,從晚5點半開始訂單量有小規模增長,約晚7點進入叫車最高峰,且在23點之前的平均叫車量要高於白天時段。
原因推測:1、相比於早間,市民在晚間外出活動時更偏向於計程車出行。
(3)下午時段,16:40左右出現訂單量回落。
原因推測:1、司機交班;2、道路擁堵。
分析二:居民夜生活活躍情況?
紐約市民夜生活活躍情況:從23點開始,訂單量顯著下降,這一下降持續到約早5點,早5點是一天內訂單量最低的時刻。
分析三: 城市的一天什麼時候最為擁堵?
問題轉化為:行駛速度最高/低的時刻
由圖可以看出,行駛速度在一天內可以大致分為三個階段:
階段一:08:00-20:00
這段時間的車輛行駛速度是三個階段中最低的,這也是白天人們活動比較活躍的時段,速度基本穩定在同一水平,不存在明顯的極值。
階段二:20:00-03:00
這一階段開始,車輛的行駛速度有微弱的上升趨勢,階段的平均速度相較於階段一來說高出大概1/3的水平。
階段三:03:00-08:00
在這段時間,車輛的行駛速度先是明顯上升,在約5點的時刻顯著回落。這告訴我們清晨五點是紐約這座城市的甦醒時刻。
分析四:什麼時間容易接到長途單
時間和訂單路程距離是否有關係呢?接下來進入分析
分析結果:在凌晨時段最容易接到長途單,在5點左右最為明顯。
另外,看到圖形時有種似曾相識的感覺,原來與行駛速度的圖形十分相似。是相關關係還是因果關係呢?
總結
分析到此告一段落,其實這個資料還有值得分析的地方,比如,結合地理位置的資料,可以根據區域劃分出不同行政區的乘客行為特點。對城市有更為細緻的詮釋。
還可以分析哪些時段的哪些區域更容易發生訂單,這對出租排程來說是個有效資料。
從暴雪帶來的異常值可以推測,天氣與訂單量是有密切關係的,根據日期對應天氣資料,可以進一步分析天氣與訂單量的影響。結合位置資料,還可以分析哪些區域受天氣的影響較大,等等。
另外機場、車站,作為比較有特點的地理位置,也可以單獨作為一類來研究。
另外如果進一步獲取更多時間軸上的資料,也可探索更多例如同比分析、環比分析的方法,並且可以進一步提升結論的可靠性。
預留問題:
–上車位置最多的地方,下車位置最多的地方?人都去哪了?
–行旅出差人士行為偏好?
相關文章
- 紐約大學:大腦的記憶過程在做資料壓縮 不同圖形也有共同的記憶格式
- 靠監控大資料識別網約車大資料
- 大資料治理——搭建大資料探索平臺大資料
- 紐約大學:年輕投資者對線上股票交易“上癮”
- 紐約州要求FB披露iPhone應用分享的隱私資料細節iPhone
- 雲端計算大資料學習路線課程大綱資料:hive入門操作大資料Hive
- 網約車迎大拐點
- 紐約大學:研究嬰兒哭泣能促進母親乳汁分泌
- 大資料系列 1:大資料技術發展歷程大資料
- 八、資料庫的歸約,三大正規化(規範資料庫設計)資料庫
- 【測繪程式設計試題集】 試題01 計程車軌跡資料計算程式設計
- 大資料的測試思維與探索大資料
- 雲端計算大資料學習路線課程大綱資料:hive內部函式大資料Hive函式
- OPPO大資料計算叢集資源排程架構演進大資料架構
- 紐約市長新聞娛樂辦公室:2019紐約夜生活經濟報告(80頁)
- 大資料要學什麼?看看這份大資料課程大綱大資料
- 大資料是什麼?華為雲學院帶你探索大資料之旅大資料
- 應急管理部報告:網約車交通事故死亡率低於計程車
- 上海紐約大學張崢教授:2017年影響力論文推薦
- 大資料排程元件之Apache DolphinScheduler大資料元件Apache
- 大資料分析過程是如何的大資料
- 為了設計這個計程車遊戲,開發者真的成為了一名網約車司機遊戲
- 學習大資料必須瞭解的大資料開發課程大綱大資料
- 大資料應成為大學課程的重中之重大資料
- 好程式設計師大資料培訓分享Hadoop的shuffle過程程式設計師大資料Hadoop
- 議程劇透!2021「資料新動能」帆軟智數大會即將發車!
- 大資料處理過程是怎樣大資料
- 構建資料紐帶:全鏈路血緣
- 大資料計算生態之資料計算(二)大資料
- 大資料計算生態之資料計算(一)大資料
- 雲端計算學習路線課程大綱資料:程式管道 Piping
- 好程式設計師大資料培訓分享之hive儲存過程程式設計師大資料Hive儲存過程
- 車聯網中如何應用大資料大資料
- 紐約大學:研究顯示美國民眾正在攝入更多的超加工食品
- 好程式設計師大資料培訓分享MySQL資料庫約束條件和自增長序列程式設計師大資料MySql資料庫
- 女子網約滴滴計程車,因未及時取消訂單,目的地被改成墓園
- 奈學教育《大資料架構師》課程大綱(1)大資料架構
- 資料脫敏大資料架構設計大資料架構