智源研究院发布大模型K12学科测验结果:差距仍存,提升空间大

在我国海淀区教师进修学校的支持下,北京智源人工智能研究院近日推出了智源评测体系,以评估大型人工智能模型在各个领域的表现。该评测体系包括140多个开源和商业闭源的语言及多模态大模型全方位能力评测结果。结果显示,这些大型模型在学科测验上的表现略低于北京海淀各年级学生平均水平。

智源研究院与海淀区教师进修学校共同合作,研究如何使大型模型在学科测验中表现得更好。他们通过调整模型的训练方式,使其更好地理解和掌握学科知识和人文素养。同时,他们还对模型进行了大量的测试和评估,以确保其在各种考试中的表现。

然而,在语文和历史等人文学科的考试中,大型模型表现出对文字背后文化内涵和家国情怀的理解不足。例如,在处理一些历史地理综合题时,模型无法有效地识别出学科属性。此外,模型在处理复杂英语题目时的表现优于简单的英语题目,但在处理超出年级知识范围的问题时,模型可能会出现错误的解题方法。

尽管如此,智源研究院表示,大型模型仍然具有很大的提升空间。他们在语言模型评测、多模态理解模型评测、多模态生成模型评测等方面取得了良好的成绩,显示出其在理解和应用知识方面的潜力。

北京智源人工智能研究院将继续进行大规模的人工智能模型评测和研究,以推动人工智能技术的发展和应用。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注