大模型高考首秀:语文英语优秀,数学需提升
我国首个大模型高考评测结果揭晓:语文、英语表现优秀,数学仍有待提高
近日,我国首个大模型高考评测结果揭晓。结果显示,大部分大模型在语文和英语科目表现出色,但在数学方面仍需加强。在首次大模型高考全卷评测中,阿里巴巴开源的Qwen2系列MoE对话模型(Qwen2-72B)、GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)成为本次评测的前三名。
评测团队由上海人工智能实验室在今年7月的世界人工智能大会上推出,并已升级至OpenCompass2.0。这套评测体系涵盖了语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面。
在语文科目上,大部分大模型表现出良好的语言理解能力。其中,书生·浦语2.0文曲星(InternLM2-20B-WQX)在数学单科中取得了最高分,超越了包括GPT-4o在内的所有模型。但在数学科目上,大模型表现仍有待提高,其主观题回答相对凌乱,且过程具有迷惑性。
此次评测采用了全国新课标I卷,由具备高考评卷经验的教师对模型主观题进行评分。同时,为了更贴近高考阅卷标准,研究团队还邀请了多位具有阅卷经验的高中教师对大模型表现进行分析。
总体而言,尽管大模型在语文和英语科目上表现优秀,但在数学方面仍有一定的提升空间。未来,大模型在数学推理方面的能力将得到进一步的研究和优化。