地圖點聚合優化方案

zhanlijun發表於2015-04-11

http://www.cnblogs.com/LBSer/p/4417127.html

一、為什麼需要點聚合

      在地圖上查詢結果通常以標記點的形式展現,但是如果標記點較多,不僅會大大增加客戶端的渲染時間,讓客戶端變得很卡,而且會讓人產生密集恐懼症(圖1)。為了解決這一問題,我們需要一種手段能在使用者有限的可視區域範圍內,利用最小的區域展示出最全面的資訊,而又不產生重疊覆蓋。

圖1

二、已嘗試的方案---kmeans

         直覺上用聚類演算法能較好達成我們目標,因此採用簡單的kmeans聚類。根據客戶端的請求,我們知道了客戶端顯示的範圍,併到索引引擎裡取出在此範圍內的資料,並對這些資料進行kmeans聚類,最後將結果返回給客戶端。

         但是上線之後發現kmeans效果並不如意主要有以下兩個缺點

a)效能問題

         kmeans是計算密集型演算法,需要迭代多次才能完成,而且每次迭代過程中都涉及到複雜的距離計算,比較消耗cpu。

         我們在上線後遇到load較高的問題。

b)效果問題

         kmeans未能徹底解決重疊覆蓋問題!可以看到有些聚合後的圖示會疊合在一起。

三、優化方案

       再次回顧我們的目的:我們需要一種手段能在使用者有限的可視區域範圍內,利用最小的區域展示出最全面的資訊,而又不產生重疊覆蓋。

3.1. 直接網格法

      解決地理空間相關問題時,對空間劃分網格這種方法往往屢試不爽。

      原理:將地圖範圍劃分成指定尺寸的正方形(每個縮放級別不同尺寸),然後將落在對應格子中的點聚合到該正方形中(正方形的中心),最終一個正方形內只顯示一箇中心點,並且點上顯示該聚合點所包含的原始點的數量。

      如何將點落到正方形內呢?我們將空間人為指定100*100大小,通過這個公式進行對映。

        優點:運算速度較快,每個原始點只需計算一次,沒有複雜的距離計算。

        缺點:有時明明很相近的點,卻僅僅因為網路的分界線而被逼分開在不同的聚合點中,此外,聚合點的位置採用的是該網格的中心,而非該網格的質心,這樣聚合出來的點可能不能較精確反映原始點的資訊。

3.2. 網格距離法

       原理:沿用方案一思想,1)將各個點落到相應正方形內;2)求解各個網格的質心;3)合併質心:判斷各個質心是否在某一範圍內,如果在某一範圍內則進行合併。

      如何判斷各個質心點是否需要合併呢?以A點為例,畫一個矩形或者圓範圍,落在此範圍內的合併,B、C均落在範圍內,因此A、B、C三點合併。

         優點:運算速度同樣較快,相對於方案一,多了求解質心以及質心合併兩個步驟,但這兩個步驟都較為簡單,能很快完成。

3.3. 直接距離法

         原理:初始時沒有任何已知聚合點,然後對每個點進行迭代,計算一個點的外包正方形,若此點的外包正方形與現有的聚合點的外包正方形不相交,則新建聚合點(這裡不是計算點與點間的距離,而是計算一個點的外包正方形,正方形的變長由使用者指定或程式設定一個預設值),若相交,則把該點聚合到該聚合點中,若點與多個已知的聚合點的外包正方形相交,則計算該點到到聚合點的距離,聚合到距離最近的聚合點中,如此迴圈,直到所有點都遍歷完畢。每個縮放級別都重新遍歷所有原始點要素。

         優點:運算速度相對較快,每個原始點只需計算一次,可能會有點與點距離計算,聚合點較精確的反映了所包含的原始點要素的位置資訊。

         缺點:速度不如完全基於網格的速度快等,此法還有個缺點,就是各個點迭代順序不同導致最終結果不同。因此涉及到制定迭代順序的問題。

 

 

3.4. K-D樹方法

       這種方法需要結合PCA(主成分分析)和K-D樹,在效果上比較好,但是效能較差,實現也較為複雜。

http://applidium.com/en/news/too_many_pins_on_your_map/

 

參考文獻

https://developers.google.com/maps/articles/toomanymarkers

http://applidium.com/en/news/too_many_pins_on_your_map/

基於百度地圖的標記點聚合演算法研究

線上地圖的點聚合演算法及現狀

相關文章