如何用Excel分析800MB的捷運站逐時進出站流量資料
- 取得連結
- X
- 以電子郵件傳送
- 其他應用程式
108學年已經進行到一半,全國高二生應該都正在進行、已經完成、或是即將體驗到全新的「探究與實作」課程,這門課程通常會要求學生在能力範圍內選定題目、進行研究並提出結論。格主目前在這門課指導的學生已經全部訂下了研究題目,我發現這些住在北北基的孩子們挑選的題目中,「交通規劃類」可說是占最大宗,尤其是和捷運有關的問題。其中的問題意識多半聚焦於「這條路線有無興建的必要性?」或是「這條路線的規劃能否實際解決該處的交通需求?」我希望孩子們的研究能以事實和數據為基礎,不要只會說這條路線可以連接哪裡到哪裡、場站周邊的機能或商圈可以活化之類的...房仲都會講的話,這門課才算有點用處。
我們只要使用悠遊卡搭乘大眾運輸,進出站、上下車的地點和時間都會被記錄下來,而且可以在 政府資料開放平台 下載到2017年至今台北捷運的每個時段從任一站搭乘到任意另一站的乘客人數(註:OD指的是Origin/Destination,也就是起終點的意思),這些運輸人次資料可說是各種交通類研究的重要基礎。我想透過分析2020年10月的流量統計資料,回答兩個問題:
1. 同一地點,比較不同的時間:10月是台北各大百貨公司的周年慶,尤其是超一級戰區信義計畫區在周年慶期間更是萬頭鑽動,那麼台北101/世貿站和市政府站在這段期間的流量是否有顯著的提升呢?
2. 同一時間,比較不同的地點:格主服務的學校離人潮洶湧的大安站不遠,每天早上6:00~9:00尖峰時段在大安站下車的人們,主要都是從哪個站上車的呢?
下載了2020年10月的資料之後,首先要先研究資料格式。如下圖所示,這份表格有五個欄位:
第一欄為日期
第二欄為時段(00是指凌晨00:00~01:00;下一個時段會是06,06:00~07:00)
第三欄為進站
第四欄為出站
第五欄為人次
目前台北捷運共有119站,也就是說這個csv檔有119乘118乘24乘31...10447248行資料!順道一提,這個csv檔案大小高達830MB,相當於...207份學習歷程檔案,如此大的檔案無法直接用Excel的基本功能篩選出我們需要的數據,怎麼辦?
Excel其實很強大,下面的影片示範了主要的處理流程:
1. 必須先把這個csv檔轉換成類似資料庫的格式,稱為「建立資料連結」(0~50秒)
2. 再使用查詢編輯器篩選我們需要的日期、時段、進出站的資料(50秒~4分)
3. 匯出為Excel不會當機的較小表格,並用樞紐分析表產生我們需要的數據(4分~結束)
處理完成之後,可以把周年慶開始那星期的逐時出站量繪製成下圖,我們會注意到從市政府出站的人數多於世貿站;且儘管周年慶於15日就開始,但人潮是在星期五下班時段才明顯增加,於禮拜六達到巔峰且整天都呈現高原期。直到禮拜天才稍微減緩。
另外,以相同的做法篩選(應該是平凡的)10/14禮拜三早上,在大安站下車的進站人次,並利用之前介紹過的 地址定位 繪製成主題地圖後,可以發現會在早上搭捷運到大安站上班上課的人,以來自板橋、中永和、淡水等地占最大宗。相同的手法也可以應用在公車上下站資料、道路車流量資料,大家不妨去下載資料玩玩看,一定會發掘出許多有意思的現象!
留言