高德網路定位之“移動WiFi識別”

amap_tech發表於2019-07-24

導讀

隨著時代的發展,近10年來位置產業蓬勃發展,定位能力逐漸從低精度走向高精度,從部分場景走向泛在定位。裝置和場景的豐富,使得定位技術和能力也不斷的最佳化更新。定位能力包括GNSS、DR(航跡推算)、MM(地圖匹配)、視覺定位和網路定位等。

其中網路定位是透過客戶端掃描到的WiFi資訊來進行定位的一種定位方式。 網路定位能力是GNSS定位的有力補充,在GNSS無法定位或者定位較慢的時候,網路定位都可以快速給出位置。 網路定位能力也是高德能夠深植於各類手機廠商(提供系統級網路定位能力)和APP(出行、社交、O2O、P2P、旅遊、新聞、天氣等諸多領域)的原因之一。

要做到透過WiFi來定位,我們需要透過億級資料來挖掘出WiFi的型別、位置、指紋等各種資訊。 這些資訊的挖掘,歷史上是透過一系列的人工經驗策略來進行的,人工規則的歷史侷限帶來了所挖掘資訊較低的準召率,為了進一步提升高德網路定位能力,我們需要卸下以往的包袱,從方法上進行改變。

如何定義“網路定位”

網路 定位 分為離線訓練和線上定位兩個過 程:

  • 離線訓練: 使用者 GPS位置 採集 周邊 的WiFi( 以下統稱 AP) 資訊 ,透過對 採集資料進行 聚類和關聯,得到 資料產品: AP庫和 指紋庫;

  • 線上 定位: 與離線訓練的過程 正好 相反,當使用者沒 有GPS定位時,可以透過掃描到的周邊WiFi訊號,結合離線訓練出的AP庫和指紋庫來進行 實時定位。

AP庫和指紋庫這 兩類 資料 產品中:

  • 指紋庫: 以物理 座標 位置 對應 的特徵 指紋資訊為 內容 這些特徵 指紋 資訊 可以 包括掃描到 的WiFi或者基 訊號 強度分佈,採集點 頻次等統計資訊 ,也可以 是透過神經網路提取出的特徵資訊。

  • AP庫: 以WiFi的mac地址的ID(gsm為mcc_mnc_lac_cid,cdma為mcc_sid _bsid_nid )為主鍵,以WiFi 的物理 座標 資訊( 經緯度 或者 地理柵格座標 資訊) 內容

典型 AP庫 資料 包含 挖掘出 物理座標 資訊 和覆蓋 半徑, 這種“點圓模型”是 AP 發射 訊號的一種理想化,沒有考慮任何實際場景中的訊號遮擋、反射等情況,所以AP 庫大多 用來進行粗略定位 。而 指紋庫直接與位置相關 ,可以 刻畫比 “點圓 模型 ”更 細緻的 分佈 資訊, 所以 指紋庫可以 用來 進行精細定位。

高德 的指紋庫主要包括 特有 的室內指紋和 全場景 指紋 資訊 兩種。


“網路定位”的問題

網路 定位的 基本 思路 類似 聚類,假設 使用者手機 掃描到的 AP 列表 AP的位置均 比較固定 則我們可以 這些 AP位置為 錨點, 確定使用者位置。 現實 世界中, 錨點(即AP庫 中的 AP) 的位置 透過 大資料來進行挖掘, 不一定完全準確 ,甚至 出現嚴重錯誤。

對WiFi而言,移動WiFi、克隆WiFi、搬家WiFi等都可能造成AP位置的錯誤。移動WiFi包含手機熱點,4g移動路由器,公交車/地鐵/高鐵上的WiFi熱點等,這些WiFi的移動屬性較強,位置頻繁變化,如下圖所示。

如果 移動WiFi作為 錨點,因為這些錨點的位置不固定,極可能會 導致 使用者的定位出現極大誤差。克 隆WiFi指不同的WiFi裝置使用了同一個mac地址,國內的騰達和斐訊等路由器廠商製造了大量這樣的WiFi裝置(例如大部分mac字首為“c8:3a:35”的即為騰達的克隆WiFi),克隆WiFi導致AP庫中同一個mac地址對應的錨點位置有多個。搬家WiFi指某些因為搬家而發生位置變化的WiFi,資料探勘存在一定的滯後性,搬家後AP庫中的位置未及時更新,也會造成定位錯誤。

因為大 誤差的badcase嚴重損害使用者體驗,我們必須要將這些非固定WiFi的屬性在AP庫中標記出來。

歷史 上, 高德 是透過一系列 簡單 人工規則對這些WiFi的屬性進行分類的。例如,透過採集點覆蓋範圍較大來判定移動WiFi,透過mac字首來判定克隆WiFi等。人工規則的缺點是準召率不高,訓練分類模型就成了一個自然的選擇。

鑑於badcase 中最嚴重的 問題是移動WiFi的準召率不高,下面我們就嘗試使用監督學習的方法來進行“移動WiFi識別”。


如何實現“移動Wifi識別”

樣本提取

AP庫 中的 WiFi數量十分龐大,如果我們在AP庫中隨機 抽取 樣本進行人工 標註,那大部分標註的結果可能是 人工 規則判定正確 樣本, 為了儘可能低成本 獲取有效 標註樣本 ,我們借鑑 主動學習的思路, 不斷 抽取模糊樣本進行標註,快速迭代使得模型 穩定

我們 根據人工 規則的 判定結果 提取了 一批 確定性 較高 的樣本,使用 人工強特徵 訓練 一版模型,之後 第一版模型的預測結果與線上 人工 規則的結果進行 全量比較 ,提取出模糊樣本 進行 人工標註。 標註樣本的過程中發現問題 ,持續 特徵工程,不斷迭代模型。

這裡 模糊樣本 定義包含三種: 預測 結果與上一版模型的結果 不同 ,預測 機率 值在 0.5附近 預測 結果在 不同 訓練週期內 存在 波動 (例如昨天識別是移動WiFi,今天識別是非移動)。

特徵提取

移動WiFi vs 克隆/搬家WiFi

第一版 模型中,我們使用了 一些採集 聚集程度相關的特徵

名稱

描述

rati oX

聚 簇尋找中心點,中心點向外X米圓形範圍內的定位點佔總定位數的比例

areaSqare

定位點覆蓋的矩形圍欄範圍的面積

模型 迭代 過程 中,我們遇到的 第一個 問題是移動 WiFi與克隆WiFi或搬家WiFi比較容易混淆。下面幾幅圖分別畫出了固定WiFi、移動WiFi、克隆WiFi、搬家WiFi的定 散佈的 例項。

可以 看到, 如果僅僅 使用 定位 點的聚 集程度來分類,那克隆WiFi和搬家WiFi的定位點也比較分散,極易與移動WiFi混淆。所 我們先 使用聚簇演算法,將採集點 區域性 聚集的點 集合 不同 的簇, 每個簇中計算 定位 點的 散佈 程度, 再將所有 簇的散佈程度 平均 等, 獲取 平均意義 聚集 程度。

多維度提取特徵

為了 進一步 提升 分類的準召率,我們 不僅 定位 點的 聚集 維度來提取特徵,還增加了 訊號 強度、 關聯 特徵 、IP特徵、時 間特徵等 以下 進行 簡要介紹:

  • 訊號強度資訊 :(和上節中的聚集特徵一起,統稱為採集特徵)移動裝置與非移動裝置採集點的訊號強度在去除裝置差異性之後,分佈存在差異性。

  • 關聯 特徵 關聯 資訊是指 當裝置 掃描 的一次 W iFi列表中,列表中所有WiFi兩兩之間就算產生了一次關聯(或稱鄰居)關係,統計WiFi周邊關聯的WiFi資訊,可以描述出WiFi的移動屬性。

  • IP 特徵 固網IP和 移動網的IP存在一定隔離,移動WiFi裝置的上游一般是透過移動網,固定WiFi裝置的上游一般是透過ADSL等連線的固網。

  • 時間 特徵 定WiFi一般是長時間連線電源的,而移動WiFi一般是臨時在某些地方和時間短暫出現的。

聚合特徵

在AP庫中 存在 一部 分WiFi定位資訊不夠充分,即使是人工標註也存在著非常大的不確定性,這些定位資訊不夠充分的WiFi,我們稱之為“弱資訊WiFi”。

對於這類WiFi,我們只有透過ssid和mac字首來進行輔助判斷。因為ssid中包含了一些諸如“iPhone”、“個人熱點”、“oppo”、“shouqiyueche”(首汽約車)、“往返免費”、“tp-link”等能夠表明裝置屬性的資訊。另一方面,mac字首(mac資訊的前半部分)代表了廠商資訊。基於這些輔助資訊,我們可以在其他資訊不夠充分的情況下輔助推測WiFi的類別屬性。

我們將基礎特徵(採集特徵、關聯特徵、IP特徵、時間特徵)中較為重要的TOP_N維特徵按照ssid和mac字首進行聚合,聚合函式為中位數(median)和總體標準差(stddev)。這樣,聚合特徵體現了一類WiFi共有的特徵,針對弱資訊WiFi,我們就可以透過集體的特徵來推測出個體的屬性。

應用場景

除了 提升 網路定位 能力, 移動WiFi的識別還有更多用武之地,例如手機熱點的識別,室內外的判斷,建築物和POI級別的定位等等。其中一個例子就是判斷當前裝置所連線的WiFi是否為移動熱點(如4g路由器,手機熱點等),在影片類的APP中,可以透過判別當前使用者連線的WiFi是否為移動熱點,從而控制是否進行影片的自動播放或快取,給予使用者提示性資訊。

小結

最終 我們使用隨機森林來訓練 分類模型,經過特徵選擇和模型引數調整之後,最終得到的模型,移動WiFi的準召率均優於99.8%。高德網路定位的精度也因此得到了較大提升,尾部大誤差badcase降低了18%左右。

網路 定位 作為 一種低功耗 的定位手段 不僅在GNSS無法觸達 的地區( 例如 地鐵、 室內 等場景) 為普通 使用者 帶來輔助 的定位資訊, 而且在某些 急救和尋人 場景 發揮了重要的作用 。未來, 隨著 5G通訊 技術的 開展 迎來 更加 精準的 網路 定位能力。

關注高德技術,找到更多出行技術領域專業內容


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69941357/viewspace-2651371/,如需轉載,請註明出處,否則將追究法律責任。

相關文章