2020 北京積分落戶結果公示,落戶指標最多的公司竟然又是 ?

程式猿石頭發表於2020-10-18

 

關於作者:程式猿石頭(ID: tangleithu),現任阿里巴巴技術專家,清華學渣,前大疆後端 Leader。歡迎關注,交流和指導!

本文首發於微信公眾號,原文連結,轉載請全文保留。

背景

就在昨天,一年一度的北京積分落戶結果出來了,我們照舊來看看今年(2020年)的資料情況。

在看這篇文章之前,你可以通過如下文章來得到石頭是如何快速拿到這些資料分析結果的:

資料可以通過北京市人力資源和社會保障局官方網站下載獲取,關於2020年積分落戶公示及落戶辦理有關工作的通告公示名單 形如:

![2020 年積分落戶公式名單](https://www.tanglei.name/resources/use-shell-to-analysis-2020-people-of-getting-residence-of-beijing-by-score/2020 年積分落戶公式名單.png)

點選每一項明細可以獲得積分具體數值,以最高分為例:

2020積分落戶最高分明細2020積分落戶最高分明細

然後,稍微動點小技巧即可獲取完整的 6032 條記錄。若你想獲取石頭初步處理後的 excel 資料,可直接後臺回覆 “2020積分落戶” 取得。

資料分析

輸入就是下載處理後的 csv,每行分別為“姓名、出生年月、單位名稱、積分分值”。

本文將從 積分分數分佈、公司分佈、年齡分佈 等幾個方面做簡單分析。

2020年積分落戶資料CSV2020年積分落戶資料CSV

分數分佈

我們來看看積分分佈情況,大部分人積分分佈在 97~102 分之間。這個分數雖然沒有高考相差那麼誇張,但一個 0.01 也能相差不少人,比如有 98 人都得了 97.5 分。98.17 有 39 人,少 0.01 的 98.16 有 21 人。

➜  積分落戶2020資料分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1  | head -n 10
  98 97.50
  84 97.25
  80 97.33
  73 97.17
  72 97.21
  67 98.50
  66 98.00
  61 97.46
  57 98.46
  54 97.13
➜  積分落戶2020資料分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1  | grep 98.17
  39 98.17
➜  積分落戶2020資料分析 git:(master) ✗ awk '{print $5}' 10000.csv |sort | uniq -c | sort -nr -k 1  | grep 98.16
  21 98.16
➜  積分落戶2020資料分析 git:(master) ✗ 

2020年北京積分落戶積分分佈2020年北京積分落戶積分分佈

按照上次首批積分落戶資料分析 的老規矩,拿到這個檔案,比如希望你用最快的方法獲得以下資訊,你將會怎麼做?

  • 獲取取得戶口名額最多的top10公司
  • 獲取取得戶口名額的人中姓氏最多的
  • 獲取年齡分佈

當然,方法有很多,比如熟悉各種程式語言的,例如 python, php, java 等等寫個簡單的指令碼程式,也能比較快獲取答案。或者把相應的資料提取出來,放到 excel 中也可以。

如果你對 Shell 很熟悉,那真的是分分鐘,應該是秒秒鐘就能獲取答案。本文不對 Shell 具體每個命令做過多的解釋,不熟悉的同學可以直接 man $cmd 或者 $cmd --help 等等檢視。

之前我也寫過一篇名叫 Shell 助力開發效率提升 的文章,算是給常用的命令的常用引數做了一個解釋和示例,有興趣的同學可以前往查閱。 顯然這次的輸入資料比上次 首批的 json 資料 更簡單。

獲取取得戶口名額最多的top10公司

直接awk 得到公司名字,對結果進行sort排序進行去重uniq統計得到重複次數,次時結果為重複次數 公司名,再對第一列-k 1重複數字進行按照數字排序逆序-nrsort -nr -k 1,最後取結果的前10行 head -n 10

➜  首批積分落戶  > grep 'unit' jifenluohu.json| cut -f2 -d: | sort | uniq -c | sort -nr -k 1 | head -n 10
 137  "北京華為數字技術有限公司"
  73  "中央電視臺"
  57  "北京首鋼建設集團有限公司"
  55  "百度線上網路技術(北京)有限公司"
  48  "聯想(北京)有限公司"
  40  "北京外企人力資源服務有限公司"
  40  "中國民生銀行股份有限公司"
  39  "國際商業機器(中國)投資有限公司"
  29  "中國國際技術智力合作有限公司"
  27  "華為技術有限公司北京研究所"
  
  ➜  積分落戶2020資料分析 git:(master) ✗ awk '{print $4}' 10000.csv |sort | uniq -c | sort -nr -k 1 | head -n 10
 112 北京華為數字技術有限公司
  71 中央電視臺
  28 北京外企人力資源服務有限公司
  28 華為技術有限公司北京研究所
  27 中國石油天然氣股份有限公司管道北京輸油氣分公司
  27 北京首鋼建設集團有限公司
  24 中國建築第二工程局有限公司
  24 騰訊科技(北京)有限公司
  24 聯想(北京)有限公司
  23 中國新華航空集團有限公司

對比上次的結果看, “華為” 又是榜首,中央電視臺又位列第二,百度下去了,騰訊起來了。(“北京外企人力資源服務有限公司”)掛靠在 FESCO 下的外企,仍然擠進前 10 了。

以下是有戶口指標前 50 的公司分佈,快看看你的公司是否在榜(完整公司排名名單請後臺回覆“2020積分落戶”獲取)。

2020年北京積分落戶公司分佈2020年北京積分落戶公司分佈

獲取取得戶口名額的人中姓氏最多的

看看想通過積分落戶,最好是姓啥,哈哈。

看結果還是姓 "張, 王" 之類的最有戲。 ?

➜  首批積分落戶  > grep '"name":' jifenluohu.json| sed 's|"name": "||g' | sed 's| ||g' | cut -c 1 | sort | uniq -c | sort -nr -k 1 | head -n 10
 541 張
 531 王
 462 李
 376 劉
 205 陳
 193 楊
 166 趙
 132 孫
  95 郭
  95 徐
  
➜  積分落戶2020資料分析 git:(master) ✗ awk '{print $2}' 10000.csv |cut -c 1 | sort | uniq -c | sort -nr -k 1 | head -n 10
 553 王
 477 李
 457 張
 369 劉
 173 陳
 168 楊
 165 趙
 126 孫
 114 周
 100 吳  

對比這個資料,才發現真的是很牛 X,前 10 名的姓氏中,只有兩個不一樣。估計這是否也符合整個中國的姓氏?哪裡能拿到這部分資料?可以驗證一下。

2020北京積分落戶姓氏分佈2020北京積分落戶姓氏分佈

為了把石頭的姓氏“唐”找出來,取了前 50 個,發現像平時不怎麼常見的姓氏還能入圍前 50,還是很有意思的呢。比如“於”、“丁”等。

獲取戶口名字中叫啥名最流行

這個資料沒啥意思就不給了,看看重名的資料吧。

➜  積分落戶2020資料分析 git:(master) ✗ awk '{print $2}' 10000.csv  | sort | uniq -c | sort -nr -k 1 | head -n 10
   9 王鵬
   6 王偉
   6 張穎
   5 趙靜
   5 石磊
   5 王琳
   5 王燕
   5 王濤
   5 王勇
   5 孫濤

作為碼農,必須得養成對自己得到結果進行自測的習慣,所以如果對自己的結果不夠自信,可以正向去計算一下最終的結果。

例如可以簡單grep一下進行驗證,叫 "王鵬" 的是不是9個。

➜  積分落戶2020資料分析 git:(master) ✗ grep '王鵬' 10000.csv
202000543 王鵬飛 1979-02 北京航天發射技術研究所 104.09
202001150 王鵬 1980-03 中國扶貧基金會 101.80
202001449 王鵬 1972-10 北京匯眾博思資訊科技有限公司 101.25
202002088 王鵬 1977-11 銀河航天(北京)通訊技術有限公司 100.42
202002114 王鵬 1977-05 《中國經濟週刊》雜誌社 100.38
202002753 王鵬 1976-11 北京睿馳青果科技有限公司 99.66
202003455 王鵬 1983-04 北京首創股份有限公司 98.96
202003514 王鵬飛 1980-07 雲粒智慧科技有限公司 98.92
202003694 王鵬 1976-05 上海創景計算機系統有限公司北京辦事處 98.75
202003763 王鵬 1980-01 北京興慶房地產土地評估有限公司 98.71
202004190 王鵬 1980-09 北京歐拓技術有限公司 98.34

獲取年齡分佈

# 拿到出生年後, 直接通過 awk 計算結果輸出
➜  首批積分落戶  > grep '"idCard":' jifenluohu.json| cut -f2 -d: | cut -c 9-12 |awk '{print 2019-$1}' | sort | uniq -c
   3 34
  13 35
  39 36
 109 37
 162 38
 302 39
 507 40
 773 41
 799 42
 813 43
 757 44
 586 45
 507 46
 378 47
 238 48
   4 49
   9 50
   1 51
   4 52
   3 53
   2 54
   5 55
   1 56
   1 58
   1 59
   1 60
   1 61  
   
➜  積分落戶2020資料分析 git:(master) ✗ awk '{print $3}' 10000.csv  | cut -f1 -d"-" |awk '{print 2020-$1}' | sort | uniq -c
   1 32
   3 35
  30 36
  83 37
 290 38
 468 39
 644 40
 741 41
 808 42
 751 43
 636 44
 507 45
 365 46
 329 47
 108 48
 107 49
  85 50
  27 51
   6 52
  10 53
   9 54
   8 55
   6 56
   5 57
   3 58
   2 59   

上次資料最大 61 歲,最小 34 歲,今年最新的資料最小 32 歲,最大 59 歲。這個 32 歲的看來很牛 X。 看看是誰?1988年出生。

➜  積分落戶2020資料分析 git:(master) ✗ grep '1988' 10000.csv
202004964 XX磊 1988-07 中煤北京煤礦機械有限責任公司 97.71

這位 XX 磊同學確實優秀,(太具體了不太好,隱藏部分吧),看詳細得分,因為有榮譽表彰 20 加分,查了下榮譽表彰指標裡的“省部級及以上勞模”分為四類:全國勞模、享受全國勞模待遇人員、省部級勞模、享受省部級勞模待遇人員。

2020年積分落戶指標年齡最小者2020年積分落戶指標年齡最小者

年齡分佈如下所示,主要還是集中在 38 ~ 47 歲之間。

2020積分落戶年齡分佈2020積分落戶年齡分佈

其他

這次的資料就先分享到這裡,如果你有興趣,可以到網站上採集更多資料(例如各項分數的明細,例如教育背景、合法穩定就業住所等)進行分析。

另外,如果你想計算一下自己能獲得多少分,可以直接到官網網站進行計算,地址為:http://fuwu.rsj.beijing.gov.cn/integraltool/tool/simulation

積分落戶模擬計算工具積分落戶模擬計算工具

相關文章