據中國新聞網報導,2020年度中央機關及其直屬機構公務員招考筆試有超143萬人報名,涉及中央和國家機關86個單位、23個直屬機構,而計劃招錄2.4萬人,通過資格審查人數與錄用計劃數之比約為60:1,在報名期間出現多個競爭超“千里挑一”的職位也就不足為奇了。
雖然筆者沒參加過國家公務員考試(以下簡稱“國考”),但本著“內行看門道,外行看熱鬧”的心態,筆者想一個旁觀者的視角,通過一些語義分析技術去發現近八年(2011~2018)國考行政職業能力測驗(以下簡稱“行測”)考了哪些內容,看能否有一些規律性的發現。
資料來源
“行程計算”類考題是重軸戲
小王步行的速度比跑步慢50%,跑步的速度比騎車慢50%。如果他...問小王跑步從A城到B城需要多少分鐘 ; 甲、乙兩人計劃從A地步行去B地,乙早上7︰00出發,勻速步行前往,...,為了追上乙,甲決定跑步前進,跑步的速度是乙步行速度的2.5倍,但每跑半小時都需要休息半小時,那麼甲什麼時候才能追上乙 ; 如右圖所示,甲乙兩人從A、B兩點同時出發,朝不同方向沿小路散步,已知甲的速度是乙的2倍。問以下哪個座標圖能準確描述兩人之間的直線距離與時間的關係
Note
詞頻:一般詞彙出現的次數越多,它的重要程度越高; 位置:句首、句中還是句末,一般來說,句中的詞彙權重會高一些; 詞性:名詞、動詞); 詞長:詞彙的長度,一般來說,詞彙的長度越長,好漢的語義資訊越豐富,給的權重也更高一些。
近八年所有題乾的詞彙關聯圖
字型大小表示詞彙的權重值大小,原理同上,能反映詞彙在評論中的重要性 不同的顏色代表不同的話題 詞彙之間距離越近,說明它們在同一語境中出現的頻率較高,越具有語義相關性,比如“速度”、“執法船”、“行駛”、“小時”和“騎車”等詞彙捱得很近,我們能迅速聯想這些關鍵詞跟試題中的“行程問題”有關,而不是跟政治、物理或者汽車有關。
上圖中,按照詞彙及其簇群的重要性程度(字型大小、主題詞數量)甄選出有意義的主題,根據其中的關鍵詞可以推測這八年國考行測的4個熱門考點,依次是:
行程類:這類題一般涉及到路程、速度、時間三者的變化關係,主要反映在紫色系的詞彙簇群中,從“速度”、“行駛”、“距離”、“騎車”等詞彙可以看出; 生物醫學常識類:這類題主要考察應試者對於生物和醫學相關常識的知識覆蓋面,主要反映在深藍色的詞彙簇群中,從“抽搐”、“浮游植物”、“懸浮質”、“海水”等詞彙可以看出; 財政學類:這類題主要考察應試者在巨集觀經濟相關指標的簡單計算能力,主要反映在土黃色的詞彙簇群中,從“交易規模”、“總額”、“水產品”、“同比增長”等詞彙可以看出; 場景計算類:這類題從應試者的生活、工作場景出發,考察應試者的基本計算能力,主要反映在青綠色和寶石藍兩個詞彙簇群中,從“培訓”、“部門”、“單位”、“平均年齡”、“概率”、“定價”和“餘額”等詞彙可以看出。
Note:
Note:
此處的詞彙關聯圖基於HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)實現。相較於傳統的聚類演算法(K-means、Spectral clustering、Agglomerative clustering、DBSCAN等),它有如下3大優良特性:
不需要設定聚類數,有演算法自動算出來簇群數 可以較好的處理資料中的噪音 可以找到基於不同密度的簇(與DBSCAN不同),並且對引數的選擇更加魯棒(Robust,模型更加健壯)
最後,筆者還想看看歷年的國考行測考題是否存在較大變動,可以將其抽象為一個文字挖掘任務 --- 度量歷年國考行測試題之間的相似度,這可以通過對應分析實現。
近八年各年份試題的相似度度量
按照上述提取關鍵詞的方法,分別提取近八年的國考行測試題題幹中的TOP200關鍵詞,這些關鍵資訊足以代表該年份國考行測試題了,有了這些資料就可以進行對應分析。最終得到下圖(點選下方圖片可檢視高清大圖):
從歷年的考題內容相似度來看,2011年和2012年、2017年和2018年的試題內容相關度較高,也就意味著出題結構的連續性較好,以此類推,2013年度、2014年度、2015年度和2016年度的試題連續性也較好。與之相反的是,2012年度、2013年度的出題內容相似度較低,出題內容有一定的跳躍性。總體上來看,國考試題在出題內容上的連續性較好,只是偶爾出現變動。 從歷年試題的特徵來看,2011年的人文特徵較為明顯,2018年的經濟方面的試題較多,2018年的邏輯測試較突出,2015年的語言學方面出題較多,2016年的偏計算,其他年份的特徵不甚突出。
Note:
對應分析法可以揭示同一變數的各個類別之間的差異,以及不同變數各個類別之間的對應關係。比如不同年份的試題是不同類別,關鍵詞彙是變數。對應分析圖譜可以將這8年的試題相關度情況通過視覺上可以接受的定點陣圖展現出來。
作者介紹:
蘇格蘭折耳喵:達觀資料高階解決方案經理。擅長資料分析和視覺化表達,熱衷於用資料發現洞察,指導實踐。人人都是產品經理、PMCAFF專欄作家。(微信公眾號:Social Listening與文字挖掘)