談如何正確理解 IP 資料的覆蓋率,兼談正確率~

老高網際網路雜談發表於2020-03-20

近年來,出海一直非常熱門,而且很多國內公司也是心懷全球,各國運營,所以來找我們諮詢海外資料情況的客戶很多,但是往往大家並不關心正確率,或者無法核實正確率,更直白的說幹那個工作多累多麻煩,所以喜歡走捷徑,幹什麼呢?怎麼幹呢?看覆蓋率。。。


我們說的覆蓋率一般是指地理位置標註在省級和城市級的 IP 資料,佔整個國家 IP 數量的比例。


問題在於這個覆蓋率要怎麼看才合適呢?


我們總結下來,覆蓋率分成兩個具體指標:


第一個指標,IP 級別的覆蓋率(以下簡稱 IP 覆蓋率,我們也稱之為紙面上的覆蓋率):就是你從 IP 庫裡可以直觀統計出來的百分比,這個資料受很多可能性影響,比如:


1、這個國家實際投入的 IP 情況,因為你沒有投入實際使用,從理論上講,不能將其歸於任何一個省市,我們的方式是隻歸於國家級別,那麼自然覆蓋率會降低。我們的很多同行不想也不會分辨這種情況,直接基於 IPWHOIS 資訊的資訊解析到省市,直接放進去,而這麼幹,既沒有價值,還會導致未來可能出各種問題。


2、有鑑於運營商或者網路運營方的實際情況,在 IP 角度能否做到更詳細的資料,比如英國電信的網路,據我們目前的資料分析,恐怕即使能做,也是很難做,所以我們目前先跳過了,但是從 IP 擁有量上看,他是英國第一大電信運營商,他整體都不標註的話,會極大影響覆蓋率,但是我們的看法是,不能因為有影響就亂標註。對吧?


3、鑑於我們的資料來源以及標註能力(主要是前者),導致不能理解和識別的部分,我們在中國和一些國家地區有足夠的資料來源來幫助我們認識、理解和識別網路情況,自然能做的部分就非常高,但有些國家,我們的資料來源不夠或者非常少,會導致我們不敢下手,這種情況我們會努力尋找更多的資料來源,幫助我們認識當地網路。


以上三點是我們認為影響 IP 級別的覆蓋率的最主要三點,前兩點是客觀情況,我們只能解釋,不會因為你想要更高的覆蓋率而遷就,第三點是我們可以努力的部分,但是因為我們是個小(主要是窮)公司,付不起代價,所以還需要繼續努力,也希望各位對資料質量有要求的客戶們在產品價格談判上更慷慨一些。


還有一個比較有意思的例子是,越南,這個問題的也比較多,“你們為啥只能做到省,而沒有做到市呢?”我一般的格式化回覆是“越南人口不到一億人,卻有 5 個直轄市,58 個省,平均下來一個省級單位也就 600 萬人,而且能上網(固定寬頻網路)的人口並不多,你覺得你作為當地運營商會怎麼做?”


事實上,中國是地理大國、人口大國、網路大國,不要冒然拿著中國的情況跟其他國家對比。


第二個指標,實際覆蓋率:就是在實際使用的 IP 資料裡,比如在使用者訪問日誌裡會出現的 IP 地址的集合,我們所能夠做到的覆蓋率是多少。


先舉個我們最熟悉的例子,中國,如果從 IP 覆蓋率上看,我們只做到了接近 90% 不到,但是從我們自身取樣看到的資料和客戶反饋的資料上看,我們都做到了 99.9% 以上的覆蓋率。


這個例子貌似看著差別不大,我們來個大的,印度,我們省級以上的資料在 IP 覆蓋率剛剛超過 50%,但實際上在我們自己取樣所看到的資料和客戶反饋的資料上看,我們實際覆蓋率都至少達到了 90% 以上。


這說明了什麼?我們認為至少說明了一個事情,就是這個國家擁有的 IP 在實際使用中啟用的量並不大,不然你很難解釋,為什麼 50% 的 IP 覆蓋率能做到 90% 的實際覆蓋率呢?


所以我們一般建議真正關心 IP 庫質量客戶們,關心紙面上的 IP 覆蓋率,不如關心實際覆蓋率和正確率,雖然麻煩,但這才是正確姿勢。


之前還有某公司找上門來說,印度資料對他們很重要,如何如何,說他們認真研究過我們的資料,希望我們加強印度的覆蓋率,我們委婉的建議他們先看看實際覆蓋率,然後就沒有下文了。。。


實際覆蓋率透過各位客戶的資料,比如一天兩天或者更長時間的取樣或者全量積累,就可以得到,正確率可能更麻煩一些,比如各家公司的應用多少都能拿到一些 GPS 資料吧?可以透過 GPS 情況做一些對比,來做一些判斷。沒有 GPS ,你也有自己的伺服器 IP 吧?你總有人在當地吧?想分析還是能找到一些資料來源的。


但是因為國外很多的運營商,網路情況往往做的比中國粗放的多,所以遇到單獨依靠 GPS 能判斷但是基於 IP 本身卻不能確認或者不能標註的情況,會很多,比如我們之前專門談到的基站,所以這種情況遇到了還是要多交流。而不是武斷地說你做的不夠好。不然你幹嘛不全用 GPS 呢?多好多正確?


當然這裡的前提是,國家級別的 IP 地理位置標註是沒有錯的,不然如何計算覆蓋率?在這裡推薦一個,,裡面有一個 Country Map,各位可以快速切換各個地圖對比一下,看看你們能看出什麼來。而我們對自己的資料是有自信的。


不得不說,在這個年代了,還有很多同行們,無論對外說的有多高大上,正確率有多高,但私底下還是在利用 IPWHOIS 的資訊做資料,所以看著 IP 級別的覆蓋率很高,但是正確率卻非常差,而且價格還很貴,貌似一分錢一分貨。


舉個最容易理解的例子,我們透過解析某一同行的資料中,在美國資料部分,按照地理位置擁有數量倒序,可以得到以下這樣的資料。


US, Ohio, Columbus => 227267582
US, New York, New York City => 88778063
US, Arizona, Fort Huachuca => 54663312


這表示按照這個資料庫的資料,在美國,按擁有量排名的前三大城市是俄亥俄州的哥倫布,紐約州的紐約,亞利桑那州的華楚卡堡。


先拋開紐約這個大城市不提。


第一個俄亥俄州哥倫布的 IP 擁有量高達 2.2 億,這已經是超過中國擁有的 IP 量的一半了,真神奇。


而根據維基百科,這個城市的人口 2010 年的時候應該不超過 100 萬。


合理嗎?有合理性嗎?


第三名亞利桑那的華楚卡堡,根據維基百科,只是一個美國陸軍軍事基地,而 IP 擁用量高達 5400 萬。


合理嗎?有合理性嗎?


而如果你熟悉 IPWHOIS 資料集的話,很容易就可以找到第一個城市和第三個城市在哪裡出沒了。比如:


談如何正確理解 IP 資料的覆蓋率,兼談正確率~

談如何正確理解 IP 資料的覆蓋率,兼談正確率~

現在能夠理解一些了吧?這兩個城市應該只是美國軍方註冊資訊中的機構所在地而已。我就呵呵。這也是為什麼我們美國資料在 IP 覆蓋率級別上雖然只能做到 45% 左右,但是實際覆蓋率依然能做到 90% 以上的原因之一吧。


這還不提那些因為某些國家的城市名重複,而導致某些同行把資料都解析到別的國家去了的例子呢。看到的時候,笑死我了。


而就這樣的資料製作方式,這樣的資料質量,人家依然敢報價幾萬美金起,我覺得我們快成良心中的戰鬥機了。。。


魔鬼都在細節裡,你在某個 IP 資料供應商的資料裡如果找到以上類似的資料,那麼要麼它是基於 IPWHOIS 解析的,要麼是抄了同行的資料,基本上只有這兩種可能。


而且我們認為以這種方式方法做出的資料,其價值幾乎為零。


如果這個方法好的話,為啥他們中國的資料都很爛很差到沒人願意買了呢?總有道理在裡面。也別覺得他們只是中國資料爛。


這個因為我們本分,導致我們被批評被誤解的鍋,我們依然不想背。


至於那些因為追求 IP 覆蓋率而選擇我們同行資料庫的公司,祝你們好運。


最後附送一張圖:


談如何正確理解 IP 資料的覆蓋率,兼談正確率~


希望各位真心追求資料質量的同學們明鑑,歡迎交流。。。




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31558025/viewspace-2681620/,如需轉載,請註明出處,否則將追究法律責任。

相關文章