手机版 欢迎访问人人都是自媒体网站
笔者以一个旁观者的视角,通过一些语义分析技术去发现近八年(2011~2018)国考行政职业能力测验(以下简称“行测”)考了哪些内容,看能否有一些规律性的发现。
据中国新闻网报道,2020年度中央机关及其直属机构公务员招考笔试有超143万人报名,涉及中央和国家机关86个单位、23个直属机构,而计划招录2.4万人,通过资格审查人数与录用计划数之比约为60:1,在报名期间出现多个竞争超“千里挑一”的职位也就不足为奇了。
虽然笔者没参加过国家公务员考试(以下简称“国考”),但本着“内行看门道,外行看热闹”的心态,笔者想一个旁观者的视角,通过一些语义分析技术去发现近八年(2011~2018)国考行政职业能力测验(以下简称“行测”)考了哪些内容,看能否有一些规律性的发现。
数据来源为保证分析的时效性,笔者仅搜集了2011-2018这八年的国考行测试题(将地市级和副省级试题进行合并),仅提取文本中的题干部分,不包含选项。
为了能直观的了解这8年的考题讲了啥,笔者首先从整体上提取其中的关键词。
“行程计算”类考题是重轴戏以下是经过关键词提取得到的TOP150关键词的词云分布图,其中词汇大小反映的是词汇的重要性程度。
从上图中可以直观的看到,“速度”一词在近8年的国考试题中出现频率较高,说明“行程问题”在国考的试题类型中占较高比重,从如下示例中可以看出:
小王步行的速度比跑步慢50%,跑步的速度比骑车慢50%。如果他…问小王跑步从A城到B城需要多少分钟
甲、乙两人计划从A地步行去B地,乙早上7︰00出发,匀速步行前往,…,为了追上乙,甲决定跑步前进,跑步的速度是乙步行速度的2.5倍,但每跑半小时都需要休息半小时,那么甲什么时候才能追上乙
如右图所示,甲乙两人从A、B两点同时出发,朝不同方向沿小路散步,已知甲的速度是乙的2倍。问以下哪个坐标图能准确描述两人之间的直线距离与时间的关系
权重较高的还有“数量”、“里程”、“价格”等关键词,也都反映出国考行测中的计算类型考题较多,国考行测中的数学运算部分,整体难度不大,通常用普通方法都是可以得到答案的。但相对而言,速度比较慢,而借用一些良好的技巧,则可以快速的得到答案。
此外,近些年公务员考试中计算问题考侧重考查考生对常见方法技巧的理解、掌握与灵活运用。常用的方法有凑整法、尾数法、分组或消去法公式法和估算法。
小贴士:
上述关键词的提取主要考虑以下4个重要因素:
词频:一般词汇出现的次数越多,它的重要程度越高;
位置:句首、句中还是句末,一般来说,句中的词汇权重会高一些;
词性:名词、动词);
词长:词汇的长度,一般来说,词汇的长度越长,好汉的语义信息越丰富,给的权重也更高一些。
尽管上面的关键词云图能抓住主要词汇,但是各词汇之间的关联性被忽略了,孤立的对某些关键词进行解读有时很难发现一些有意义的洞察。
那么,有没有一种方法能够既捕捉到关键信息(即发掘关键词),又能直观的反映出词汇之间的关联性?
答案是有的。
通过词汇关联图挖掘试题侧重点词汇关联图是上述关键词云图的拓展和延伸 ,增加了语境这一维度,也就是将经常出现在同一个上下文的词汇的关联性表达出来。
基于自动聚类形成的词汇关联图,能自然的反映试题题干文本中的语义特征和潜在结构,由此能准确且清晰的知晓近八年国考行测的出题侧重点。
对于生成的可视化结果,可以这样解读:字体大小表示词汇的权重值大小,原理同上,能反映词汇在评论中的重要性,不同的颜色代表不同的话题。
词汇之间距离越近,说明它们在同一语境中出现的频率较高,越具有语义相关性,比如“速度”、“执法船”、“行驶”、“小时”和“骑车”等词汇挨得很近,我们能迅速联想这些关键词跟试题中的“行程问题”有关,而不是跟政治、物理或者汽车有关。
下图是自动聚类出来的结果,自动聚为8个主题(点击下方图片可查看高清大图):
Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP