大模型K12学科测验结果揭示局限性:模型需提高人文素养

北京智源人工智能研究院发布大模型K12学科测验结果

近日,北京智源人工智能研究院公布了其在K12学科测验中对各大语言模型能力的评估结果。结果显示,大模型在学科测验上略低于北京海淀各年级学生平均水平。

据了解,此次评测旨在考察大模型与人类学生在学科水平上的差异。评测涵盖了学科能力、知识运用、推理能力等多个方面,包括语文、历史等人文学科的考试,以及理科和多模态理解等科目。

在学科能力方面,大模型普遍存在文强理弱的情况,且对图表的理解能力不足。而在知识运用和推理能力上,大模型在复杂题目中的表现优于简单题目。

此外,评测还对语言模型的简单理解和知识运用进行了评估。结果显示,国内头部语言模型在中文语境下的表现已经接近国际水平,但在实际应用中仍存在一些问题,如对文字背后文化内涵的理解不足,以及对图表属性的识别能力不足等。

针对上述问题,智源研究院将继续加强大模型的训练和研究,提高其在各个学科领域的表现,为我国的教育事业做出更大的贡献。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注