大模型K12学科测验:表现参差不齐,哪些模型最懂中国用户?
北京智源人工智能研究院公布大模型K12学科测验结果
近日,北京智源人工智能研究院发布了智源评测体系,对国内外140余个开源和商业闭源的语言及多模态大模型进行全面评测。其中,49个大模型参加了K12学科测验,结果揭示了大模型在学科测验上的表现与北京海淀各年级学生平均水平的差距。
在学科测验中,大模型在综合学科能力上与海淀学生平均水平仍存在差距,且普遍存在文强理弱的现象。此外,大模型在对图表的理解能力和应对复杂英语题目方面的表现优于简单题目,但在理解和掌握历史地理综合题时的能力则相对较弱。这表明大模型在学科测验方面还有很大的提升空间。
同时,智源研究院还从主观、客观两个维度对语言模型的七大能力进行了评测。结果显示,在中文语境下,国内头部语言模型的综合表现已接近国际水平,但仍存在能力发展不均衡的问题。
此外,评测还对多模态理解模型和多模态生成模型进行了评估。结果显示,在中文语境下的文生图模型表现较为稳定,但在文生视频生成能力上,与国际一流水平还存在一定差距。
为了更好地推动大模型的发展,智源研究院与多家高校和机构共同开展了大模型评测方法与工具的研发工作。目前,已成功完成了1000多次覆盖全球多个开源大模型的评测。
总之,尽管大模型在学科测验等方面仍有一定差距,但随着技术的不断进步,大模型将在未来逐渐提高其在各个领域的应用水平,为我国的教育、科研等领域提供更加智能化、便捷化的支持。