據(jù)中國(guó)新聞網(wǎng)報(bào)道,2020年度中央機(jī)關(guān)及其直屬機(jī)構(gòu)公務(wù)員招考筆試有超143萬(wàn)人報(bào)名,涉及中央和國(guó)家機(jī)關(guān)86個(gè)單位、23個(gè)直屬機(jī)構(gòu),而計(jì)劃招錄2.4萬(wàn)人,通過資格審查人數(shù)與錄用計(jì)劃數(shù)之比約為60:1,在報(bào)名期間出現(xiàn)多個(gè)競(jìng)爭(zhēng)超“千里挑一”的職位也就不足為奇了。
雖然筆者沒參加過國(guó)家公務(wù)員考試(以下簡(jiǎn)稱“國(guó)考”),但本著“內(nèi)行看門道,外行看熱鬧”的心態(tài),筆者想一個(gè)旁觀者的視角,通過一些語(yǔ)義分析技術(shù)去發(fā)現(xiàn)近八年(2011~2018)國(guó)考行政職業(yè)能力測(cè)驗(yàn)(以下簡(jiǎn)稱“行測(cè)”)考了哪些內(nèi)容,看能否有一些規(guī)律性的發(fā)現(xiàn)。

-
小王步行的速度比跑步慢50%,跑步的速度比騎車慢50%。如果他...問小王跑步從A城到B城需要多少分鐘 ;
-
甲、乙兩人計(jì)劃從A地步行去B地,乙早上7︰00出發(fā),勻速步行前往,...,為了追上乙,甲決定跑步前進(jìn),跑步的速度是乙步行速度的2.5倍,但每跑半小時(shí)都需要休息半小時(shí),那么甲什么時(shí)候才能追上乙 ;
-
如右圖所示,甲乙兩人從A、B兩點(diǎn)同時(shí)出發(fā),朝不同方向沿小路散步,已知甲的速度是乙的2倍。問以下哪個(gè)坐標(biāo)圖能準(zhǔn)確描述兩人之間的直線距離與時(shí)間的關(guān)系
Note
-
詞頻:一般詞匯出現(xiàn)的次數(shù)越多,它的重要程度越高; -
位置:句首、句中還是句末,一般來(lái)說(shuō),句中的詞匯權(quán)重會(huì)高一些; -
詞性:名詞、動(dòng)詞); -
詞長(zhǎng):詞匯的長(zhǎng)度,一般來(lái)說(shuō),詞匯的長(zhǎng)度越長(zhǎng),好漢的語(yǔ)義信息越豐富,給的權(quán)重也更高一些。
-
字體大小表示詞匯的權(quán)重值大小,原理同上,能反映詞匯在評(píng)論中的重要性
-
不同的顏色代表不同的話題
-
詞匯之間距離越近,說(shuō)明它們?cè)谕徽Z(yǔ)境中出現(xiàn)的頻率較高,越具有語(yǔ)義相關(guān)性, 比如“速度”、“執(zhí)法船”、“行駛”、“小時(shí)”和“騎車”等詞匯挨得很近,我們能迅速聯(lián)想這些關(guān)鍵詞跟試題中的“行程問題”有關(guān),而不是跟政治、物理或者汽車有關(guān)。
-
行程類: 這類題一般涉及到路程、速度、時(shí)間三者的變化關(guān)系,主要反映在紫色系的詞匯簇群中,從“速度”、“行駛”、“距離”、“騎車”等詞匯可以看出;
-
生物醫(yī)學(xué)常識(shí)類: 這類題主要考察應(yīng)試者對(duì)于生物和醫(yī)學(xué)相關(guān)常識(shí)的知識(shí)覆蓋面,主要反映在深藍(lán)色的詞匯簇群中,從“抽搐”、“浮游植物”、“懸浮質(zhì)”、“海水”等詞匯可以看出;
-
財(cái)政學(xué)類: 這類題主要考察應(yīng)試者在宏觀經(jīng)濟(jì)相關(guān)指標(biāo)的簡(jiǎn)單計(jì)算能力,主要反映在土黃色的詞匯簇群中,從“交易規(guī)模”、“總額”、“水產(chǎn)品”、“同比增長(zhǎng)”等詞匯可以看出;
-
場(chǎng)景計(jì)算類: 這類題從應(yīng)試者的生活、工作場(chǎng)景出發(fā),考察應(yīng)試者的基本計(jì)算能力,主要反映在青綠色和寶石藍(lán)兩個(gè)詞匯簇群中,從“培訓(xùn)”、“部門”、“單位”、“平均年齡”、“概率”、“定價(jià)”和“余額”等詞匯可以看出。
Note:
此處的詞匯關(guān)聯(lián)圖基于HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)實(shí)現(xiàn)。相較于傳統(tǒng)的聚類算法(K-means、Spectral clustering、Agglomerative clustering、DBSCAN等),它有如下3大優(yōu)良特性:
-
不需要設(shè)定聚類數(shù),有算法自動(dòng)算出來(lái)簇群數(shù) -
可以較好的處理數(shù)據(jù)中的噪音 -
可以找到基于不同密度的簇(與DBSCAN不同),并且對(duì)參數(shù)的選擇更加魯棒(Robust,模型更加健壯)
-
從歷年的考題內(nèi)容相似度來(lái)看,2011年和2012年、2017年和2018年的試題內(nèi)容相關(guān)度較高,也就意味著出題結(jié)構(gòu)的連續(xù)性較好,以此類推,2013年度、2014年度、2015年度和2016年度的試題連續(xù)性也較好。與之相反的是,2012年度、2013年度的出題內(nèi)容相似度較低,出題內(nèi)容有一定的跳躍性。 總體上來(lái)看,國(guó)考試題在出題內(nèi)容上的連續(xù)性較好,只是偶爾出現(xiàn)變動(dòng)。
-
從歷年試題的特征來(lái)看,2011年的人文特征較為明顯,2018年的經(jīng)濟(jì)方面的試題較多,2018年的邏輯測(cè)試較突出,2015年的語(yǔ)言學(xué)方面出題較多,2016年的偏計(jì)算,其他年份的特征不甚突出。
Note:
對(duì)應(yīng)分析法可以揭示同一變量的各個(gè)類別之間的差異,以及不同變量各個(gè)類別之間的對(duì)應(yīng)關(guān)系。比如不同年份的試題是不同類別,關(guān)鍵詞匯是變量。對(duì)應(yīng)分析圖譜可以將這8年的試題相關(guān)度情況通過視覺上可以接受的定位圖展現(xiàn)出來(lái)。
特別聲明:
文章來(lái)源:達(dá)觀數(shù)據(jù)(Datagrand_)
原文鏈接:https://mp.weixin.qq.com/s/IQYLyaE7_5hAO-CvKsTG7A
未經(jīng)允許不得轉(zhuǎn)載:RPA中國(guó) | RPA全球生態(tài) | 數(shù)字化勞動(dòng)力 | RPA新聞 | 推動(dòng)中國(guó)RPA生態(tài)發(fā)展 | 流 > 通過文本挖掘,我們發(fā)現(xiàn)了國(guó)家公務(wù)員考試的這些秘密
熱門信息
閱讀 (14728)
1 2023第三屆中國(guó)RPA+AI開發(fā)者大賽圓滿收官&獲獎(jiǎng)名單公示閱讀 (13753)
2 《Market Insight:中國(guó)RPA市場(chǎng)發(fā)展洞察(2022)》報(bào)告正式發(fā)布 | RPA中國(guó)閱讀 (13055)
3 「RPA中國(guó)杯 · 第五屆RPA極客挑戰(zhàn)賽」成功舉辦及獲獎(jiǎng)名單公示閱讀 (12964)
4 與科技共贏,與產(chǎn)業(yè)共進(jìn),第四屆ISIG中國(guó)產(chǎn)業(yè)智能大會(huì)成功召開閱讀 (11567)
5 《2022年中國(guó)流程挖掘行業(yè)研究報(bào)告》正式發(fā)布 | RPA中國(guó)