紐約計程車大資料探索
本文旨在探索紐約城市市民的叫車出行習慣,通過對145萬餘條資料的定量分析,針對提出的問題相應地得出了些許結論。並在文末分析了日後可以進一步擴充的探索方向。
資料來自於kaggle,選用train.csv中的資料記錄進行相關資料分析,使用Python作為分析工具。
資料來源:Kaggle|New York City Taxi Trip Duration
也可參考紐約市計程車和轎車委員會發布的歷史資料集: NYC|(TLC Trip Record Data
過程設計:
- 提出問題
- 理解資料
- 資料清理
- 資料分析
- 得出結論
一、提出問題
根據已有資料分析:
1、何時為叫車需求高發期?
2、居民夜生活活躍情況?
3、城市一天的什麼時候最為擁堵?
4、什麼時間容易接到長途單?
二、瞭解資料
表單說明:
id - 每次行程的唯一ID
vendor_id - 行程提供者的ID
pickup_datetime - 上車的日期和時間
dropoff_datetime - 停表的日期和時間
passenger_count - 車輛中的乘客數量(駕駛員輸入值)
pickup_longitude - 上車的經度
pickup_latitude - 上車的緯度
dropoff_longitude - 下車經度
dropoff_latitude - 下車的緯度
store_and_fwd_flag - 行程記錄是否為儲存轉發(或是直接傳送)– Y =儲存和轉發 N =沒有儲存
trip_duration - 行程持續時間(秒)
四、 資料分析與視覺化
分析一:何時為叫車需求高發期
在2016年1月至6月這段時期裡,月行程單數最多的月份是3/4/5月份,日均訂單最多的月份是4/3/2月份。
差異性說明了在分析月份相關的資料時要考慮到每月天數的影響。由於每個月的天數不一樣,分析時應以日為維度。
1、1月份和5月末出現了異常低值,需要找到其原因。
2、通過觀察可以看出,訂單數量隨日期的變換呈規律性的波動(不考慮異常值),但是根據右圖可以看出與日期為幾號相關性不大,據此推測訂單數量可能與星期幾有關。
“1、1月份和5月末出現了異常低值,分析其原因。”
—- 調查結果:
(1)美遭暴風雪襲擊 紐約時報廣場飛雪飄零_網易新聞
2016-1-24 · 當地時間2016年1月23日,美國紐約,美國遭遇暴雪天氣,暴雪中的時報廣場。
(2)突發!紐約地鐵一日接連發生兩起死亡事故 –國際–人民網
29日,紐約地鐵接連發生了兩起死亡事故,分別造成一名男性和一名女性死亡。
(3)陣亡將士紀念日 (5月的最後一個星期一)
中新網5月30日電 據美媒報導,美國迎來“國殤日”長週末,標誌著夏季的正式開始。
(4)紐約將迎“曼哈頓懸日”奇觀 夕陽餘暉盡染
與此同時,每年僅出現2次的盛景“曼哈頓懸日”(Manhattanhenge)也將光臨紐約。
接下來研究星期對乘車的影響:
上圖圖一展示了在2016年1月1日至2016年6月30日這半年內,每日訂單總量、每日乘客數隨日期的波動。
上圖圖二展示的是單均乘客數隨日期的波動。這說明在週期的某一階段,不僅訂單數量增多,而且人們偏向於結伴出行。
“2、推測訂單數量可能與星期幾有關”—- 分析結果:
圖一是星期一到星期日,訂單總數、乘客總數的變化趨勢,從中可以看出從週一到週六,訂單數量和乘客人數呈線性增長,週日回落至與週二同等水平,這說明市民在週五、週六叫車出行的頻次最高。這可能來自兩種原因:一種可能是人們在週五週六更願意出門,第二種可能是人們在週五週六更願意選擇叫車。
圖二是星期一到星期日,單均乘客數的變換趨勢,從中可以看出週六、週日為多人拼車高發期,據合理推測,應該是週末放假而導致的結伴出行的機率升高的緣故。
從圖中可以看出:
(1)早高峰表現不顯著,從早5點開始,訂單量由谷底回升,到達約早8點後訂單量開始趨於穩定,在一段時間內波動不明顯。
原因推測:1、市民上班的出行需求被公共交通、私家車等分擔,不會偏好於計程車出行;2、市民的上班時段不集中
(2)晚高峰表現顯著,從晚5點半開始訂單量有小規模增長,約晚7點進入叫車最高峰,且在23點之前的平均叫車量要高於白天時段。
原因推測:1、相比於早間,市民在晚間外出活動時更偏向於計程車出行。
(3)下午時段,16:40左右出現訂單量回落。
原因推測:1、司機交班;2、道路擁堵。
分析二:居民夜生活活躍情況?
紐約市民夜生活活躍情況:從23點開始,訂單量顯著下降,這一下降持續到約早5點,早5點是一天內訂單量最低的時刻。
分析三: 城市的一天什麼時候最為擁堵?
問題轉化為:行駛速度最高/低的時刻
由圖可以看出,行駛速度在一天內可以大致分為三個階段:
階段一:08:00-20:00
這段時間的車輛行駛速度是三個階段中最低的,這也是白天人們活動比較活躍的時段,速度基本穩定在同一水平,不存在明顯的極值。
階段二:20:00-03:00
這一階段開始,車輛的行駛速度有微弱的上升趨勢,階段的平均速度相較於階段一來說高出大概1/3的水平。
階段三:03:00-08:00
在這段時間,車輛的行駛速度先是明顯上升,在約5點的時刻顯著回落。這告訴我們清晨五點是紐約這座城市的甦醒時刻。
分析四:什麼時間容易接到長途單
時間和訂單路程距離是否有關係呢?接下來進入分析
分析結果:在凌晨時段最容易接到長途單,在5點左右最為明顯。
另外,看到圖形時有種似曾相識的感覺,原來與行駛速度的圖形十分相似。是相關關係還是因果關係呢?
總結
分析到此告一段落,其實這個資料還有值得分析的地方,比如,結合地理位置的資料,可以根據區域劃分出不同行政區的乘客行為特點。對城市有更為細緻的詮釋。
還可以分析哪些時段的哪些區域更容易發生訂單,這對出租排程來說是個有效資料。
從暴雪帶來的異常值可以推測,天氣與訂單量是有密切關係的,根據日期對應天氣資料,可以進一步分析天氣與訂單量的影響。結合位置資料,還可以分析哪些區域受天氣的影響較大,等等。
另外機場、車站,作為比較有特點的地理位置,也可以單獨作為一類來研究。
另外如果進一步獲取更多時間軸上的資料,也可探索更多例如同比分析、環比分析的方法,並且可以進一步提升結論的可靠性。
預留問題:
–上車位置最多的地方,下車位置最多的地方?人都去哪了?
–行旅出差人士行為偏好?
相關文章
- 第8章 紐約計程車軌跡的空間和時間資料分析
- 大資料治理——搭建大資料探索平臺大資料
- 紐約時報:誰擁有未來?不是大資料大資料
- 紐約時報:大資料時代的隱私問題大資料
- 大資料告訴你:計程車改革網友都關心啥?大資料
- 探索大資料背景下的基因研究大資料
- 大資料是什麼?華為雲學院帶你探索大資料之旅大資料
- 大資料的測試思維與探索大資料
- 紐約如何利用資料探勘預防火災
- 紐約時報:大資料時代,讓一群腦殘為你選書大資料
- 魏凱:大資料的價值探索與實踐大資料
- 資料科學給《紐約時報》輸入活力資料科學
- 大資料背景下的高職院校資訊化建設探索大資料
- 大資料,大資料,大資料大資料
- 紐約消防局是怎樣利用資料探勘的?
- 紐約時報:美國如何利用科技掃蕩全球資料?
- 大資料開發的儲存技術探索與實踐大資料
- 資料視覺化,10張圖看紐約的生活與經濟視覺化
- 資料分析中最缺少的是資料探索工具?
- 做銀行家裡的資料專家:ING探索大資料時代下的金融最佳實踐大資料
- 資料測試實踐:從一個bug開始的大資料引擎相容性探索大資料
- 探索挖掘資料的洪荒之力
- 時空資料庫實踐(含紐約TAXI資料透視分析)-PostGIS+TimescaleDB=>PostgreSQL資料庫SQL
- 【測繪程式設計試題集】 試題01 計程車軌跡資料計算程式設計
- 大資料+咖啡因| 可口可樂的轉型升級探索大資料
- BES 在大規模向量資料庫場景的探索和實踐資料庫
- 大資料在電網領域的探索與實踐(報告PPT)大資料
- 紐約大學:大腦的記憶過程在做資料壓縮 不同圖形也有共同的記憶格式
- 機器學習:探索資料和資料預處理機器學習
- 資料庫壓縮技術探索資料庫
- 北京供銷大資料集團探索資料中心運維“新趨勢”大資料運維
- Python資料科學(八)- 資料探索與資料視覺化Python資料科學視覺化
- 走進大資料,感受大資料大資料
- 紐約州要求FB披露iPhone應用分享的隱私資料細節iPhone
- 大資料VS大擁堵:大資料治理交通大資料
- 大資料資料收集大資料
- 大資料概念:史上最全大資料解析大資料
- 大資料大利潤–資料資訊圖大資料