如何用資料探勘找到合適房源?
編者按:如何能挑選到一個合適的住房是大多數人都十分關心的問題,價格、樓層、面積、所處位置等等因素都是我們考慮的重點。浙江大學ZJUVIS可視化研究小組與微軟亞洲研究院城市計算組聯手開發了一套線上住房選址可視分析系統ReACH,它能通過後端資料探勘和前端視覺化設計讓選房子這件事變得簡單高效。想知道是怎麼回事嗎?那就一起來看看吧!本文轉自公眾號“微軟學術合作”。
請設想這樣一個情境:在中關村工作了三年的你,想要擁有自己的小家。你可能會有這樣的需求:早高峰時要在半小時內到達丹稜街5號,要有兩個臥室,價格不能太高,下班後去超市買菜後再回家。
這些購房、租房者在挑選住房時產生的需求可分為兩類,一類與價格、面積、樓層等住宅的內部屬性相關,另一類則與所處位置、地標位置的可達性等住宅的地理屬性相關。
第二類需求非常重要,現有的線上租房售房系統卻未對其給予足夠重視。它們往往以機械的方式來滿足這些需求,譬如篩選出距離某個地點幾公里內的住宅。但是,直線距離在複雜城市環境中並無太多應用價值,多變的路況使得城市兩點之間的通勤時間會以一天或一週為週期發生變化,這在北上廣深等超級城市中更為明顯。
目前常見的線上租房售房系統
由巫英才老師率領的浙江大學ZJUVIS視覺化研究小組,與鄭宇博士率領的微軟亞洲研究院城市計算組聯手,為這類需求提供了一個解決方案。他們合作的論文已被ACM CHI 2018接受。作為人機互動領域的頂級會議之一,CHI大會關注人與技術的融合,創新的人機互動方式,以及與資訊科技相關的人文社會問題等。
巫英才老師與浙江大學ZJUVIS視覺化研究小組
鄭宇博士(前排中間)與微軟亞洲研究院城市計算組
如何選址
從第二類需求出發,研究團隊開發了一套線上住房選址可視分析系統。將價格、面積、臥室數量等要包括在內的同時,重點考慮了在地理決策中佔據重要地位的地標位置可達性(Reachability)。
如何讓使用者清晰、自然地表達在可達性方面的需求呢?研究團隊利用時間線的形式,允許使用者通過滾動、點選、拖拽等直觀的互動方式建立自己的行程,如“8:30從家出發,8:45到達學校,9:00到達上班地點”。同時,使用者可指定諸如“只考慮工作日”的日期限制。家和學校的位置無需被指定,系統會自動基於可達性,推薦所有滿足行程的位置集合。
ReACH使用介面,包括時間線(左)、地圖(上)、排序(下)、願望單(右) 四個檢視
基於系統推薦,使用者還可自行篩選符合行程的地點,縮小位置集合。針對第一類需求,使用者可就價格、面積、完成行程所需時間等屬性的範圍進行調整,並按照個人偏好進行組合排序,從而找到自己的最佳住宅。
通過案例分析和使用者研究,系統的有效性已被驗證。
亮點一:後端資料探勘
上述過程的關鍵,在於高效可靠地計算出兩個位置之間的可達性,並實現可視分析系統的即時反饋。這並非易事,後端的資料探勘模組主要有以下兩個技術難點:
第一,海量資料帶來計算效率的難題。為了支援可達性的計算,研究團隊使用了兩個月的計程車記錄,資料量以十億計。在此前研究中,即使利用三臺伺服器進行平行計算,也需要20多秒的時間,遠不能滿足可視分析系統即時流暢反饋的使用者需求。
第二,龐大資料的區域性冗餘和全域性稀疏。模型需通過指定時間內兩個地點間是否有直接連線的交通軌跡來判斷其可達性,但是有限的計程車無法實現城市中每一條道路的全天全時覆蓋,這種資料的稀疏性阻礙了可達性預測在整個城市範圍內的穩定性。倘若增加資料規模,又會遇到儲存和計算效率的瓶頸。
基於圖結構的可達性索引建立過程。左圖紅、藍兩條軌跡的公共部分可以被壓縮為右圖圖中綠色的邊
為了解決這些難點,研究團隊創新性地利用了圖結構儲存和索引海量軌跡資料,革新了先前的可達性計算模型。他們將連續的時間離散化成長度為k分鐘的時間片,並根據軌跡資料,在圖中儲存每條道路每個時間片之間的可達狀況。對於可達性的查詢,他們在圖上進行帶剪枝的廣度優先搜尋,尋找滿足時間限制條件的道路集合。由此,可達區域的查詢時間被壓縮到3秒以內。
Microsoft Azure雲端計算平臺與服務亦在本研究中有很好的應用。計程車約每25秒記錄一次狀態,這樣的離散記錄並不能直接用於可達性計算。研究團隊將這些記錄投影到連續的路網上並補齊缺失的資料,使之成為連續軌跡。在這個過程中,Azure強大的平行計算能力被充分發揮。此前在單機上執行模型處理兩個月的資料,約需要連續計算一個多月,在遷移到Azure的Spark多機計算平臺上後,處理完整的資料集只需數天,極大地提高了研究初期迭代可達性模型時的設計效率。在後期,研究團隊將可視分析系統部署到Azure雲伺服器上,進一步加快了後端可達性資料探勘模組的計算效率,其成果也可從世界各地流暢地訪問。
亮點二:前端視覺化設計
研究團隊設計和開發的是一個新穎的可視分析系統,它基於時間線進行可視表達與互動。就前端的視覺化設計而言,也有兩大難點,研究團隊亦將其一一消化。
ReACH系統的視覺化設計。時間線檢視(左)幫助使用者直觀地建立可達性限制條件,地圖檢視(上)幫助使用者清晰地理解可達性計算結果,排序檢視(下)幫助使用者高效地篩選理想住宅
第一,如何清晰直觀地將可達性整合到視覺化設計中。可達性是一個抽象概念,理解它和背後的計算過程對於普通使用者來說並不容易。研究團隊選擇隱藏模型細節,創新性地以安排日程的形式來間接引導模型計算出滿足條件的住房。在時間線檢視中,使用者藉由直觀互動建立某段時間內的行程,指定到達時間、到達地點的型別、出發時間等引數,以此來作為模型的輸入,從而計算得到可達區域,篩選出滿足條件的住房,可達性概率資訊也以熱力圖的形式呈現在地圖上,十分直觀。
第二,如何基於使用者個人偏好,綜合考慮多種屬性幫助他們做出決策。研究團隊擴充套件了基於表格的LineUp多屬性可視排序技術,加入所有住宅在單個屬性上分佈的視覺化,並允許使用者直觀地對這些屬性的範圍進行篩選,避免使用者在對資料集一無所知的情況下設定過寬或過嚴的過濾條件。此外,系統還支援使用者將心儀住宅加入願望單,以便進一步對比分析。
視覺化研究+城市計算
鄭宇博士率領的微軟亞洲研究院城市計算組有著豐富的城市資料處理與挖掘經驗。浙江大學視覺化研究小組則擅長可視分析與人機互動,將使用者難以理解的資料探勘演算法,以視覺化編碼的形式直觀呈現。
在本工作中,兩個團隊各盡其能。城市計算組提供了對於軌跡資料的預處理與模型設計方面的支援,視覺化研究小組則主要負責改進可達性計算模型,以滿足可視介面的實時互動要求,並且設計實現了這一套基於可達性的視覺化住房選取系統。未來,該方法還可擴充套件應用於其他與可達性相關的可視選址問題,如商業選址、救護車站選址等。
近幾年來,兩個團隊緊密合作。2016年,他們合作開發了基於計程車軌跡的戶外大型廣告牌投放可視分析系統SmartAdP,該論文被可視分析領域頂級會議IEEE VAST錄取。
論文地址:http://ieeexplore.ieee.org/document/7534856/
你也許還想看:
● 大資料freestyle: 共享單車軌跡資料助力城市合理規劃自行車道
感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:msraai@microsoft.com。
相關文章
- 教你如何用R進行資料探勘
- 在組合中找到重複的資料
- 如何找到適合網站優化的內容?網站優化
- 自學資料探勘
- Web資料探勘Web
- 序列資料探勘
- 資料探勘概念
- 怎麼才能找到適合你的雲端計算方案
- 如何在網路上找到適合的外鏈平臺
- 資料探勘——認識資料
- 選擇合適的資料型別資料型別
- 資料探勘者與資料探勘青年的對話(轉)
- 如何找到一款適合的辦公oa軟體?
- 【機器學習入門與實踐】合集入門必看系列,含資料探勘專案實戰,適合新人入門機器學習
- 資料探勘( TO DO LIST)
- 資料探勘與生活
- 資料探勘的功能
- 神奇的資料探勘
- 資料探勘概述 (轉)
- 資料探勘方向分析
- 資料探勘技術
- 資料探勘的資料分析方法
- 資料探勘與資料抽樣
- 如何選擇合適的NoSQL資料庫SQL資料庫
- 不適合大資料的10件事情大資料
- 如何用適合個人站點的雲伺服器建站伺服器
- 微服務的顆粒度難題:找到合適的微服務大小微服務
- 邦芒支招:6個建議幫你找到合適的工作
- 資料探勘資源彙總
- 《資料探勘:實用機器學習技術》——資料探勘、機器學習一舉兩得機器學習
- 資料:資料探勘綜述彙編
- 資料探勘資料集下載資源
- 什麼是資料探勘??
- 資料探勘實習面試面試
- 使用 Oracle 資料探勘 APIOracleAPI
- 資料探勘能做什麼
- 機器學習、資料探勘及其他機器學習
- 資料探勘概述(又) (轉)