大模型K12学科测验结果揭示局限性：模型需提高人文素养 – 8点精要

17 5 月 2024

大模型K12学科测验结果揭示局限性：模型需提高人文素养

北京智源人工智能研究院发布大模型K12学科测验结果

近日，北京智源人工智能研究院公布了其在K12学科测验中对各大语言模型能力的评估结果。结果显示，大模型在学科测验上略低于北京海淀各年级学生平均水平。

据了解，此次评测旨在考察大模型与人类学生在学科水平上的差异。评测涵盖了学科能力、知识运用、推理能力等多个方面，包括语文、历史等人文学科的考试，以及理科和多模态理解等科目。

在学科能力方面，大模型普遍存在文强理弱的情况，且对图表的理解能力不足。而在知识运用和推理能力上，大模型在复杂题目中的表现优于简单题目。

此外，评测还对语言模型的简单理解和知识运用进行了评估。结果显示，国内头部语言模型在中文语境下的表现已经接近国际水平，但在实际应用中仍存在一些问题，如对文字背后文化内涵的理解不足，以及对图表属性的识别能力不足等。

针对上述问题，智源研究院将继续加强大模型的训练和研究，提高其在各个学科领域的表现，为我国的教育事业做出更大的贡献。

八点精要

查看所有文章

发表回复取消回复