IT之家7月18日音讯,上海人工智能试验室17日发布了针对7个AI大模型的高考全科目测验成果,据大模型开源敞开评测系统“司南”相关负责人介绍,“当时大模型仍存在很大的局限性。安排AI大模型‘参加高考’,意图是评测当时大模型的实在水平,找准问题,继续推动技术进步。”
测验成果显现,墨客・浦语2.0系列文曲星大模型(浦语文曲星)、阿里通义千问大模型Qwen2-72B以及GPT-4o再次包办文、理科前三甲;前三名
AI“考生”的文、理科成果别离超越了“一本”“二本”线(以本年高考人数最多的河南省的分数线为参阅)。
从官方供给的图片来看,此次参加“高考”的大模型还包含来自零一万物的 Yi-1.5-34B、来自通义千问的 Qwen2-57B、来自智谱的GLM-4-9B 和法国 AI 草创公司Mistral旗下的Mixtral 8×22B。
据介绍,此次评测具有如下特征:
全卷考试:进行全卷评分,而不只针对单一题型,且包含带图的高考题
考前开源:评测掩盖的开源模型均为本年高考前开源的模型,扫除泄题的可能性
教师打分:约请有高考阅卷经历的教师打分,保证评分和高考尽量共同
彻底揭露:生成答案的代码、模型答卷、评分成果彻底开源
在添加归纳科意图基础上,Qwen2-72B、GPT-4o、浦语文曲星包办文、理科前三甲。阿里通义千问大模型Qwen2-72B以546分的成果荣获AI高考“文科状元”,浦语文曲星则以 468.5分成为理科第一名,别离超越了“非开源世界插班生”GPT-4o(文科531分,理科467分)。同为国外组织发布的Mixtral
8x22B均匀得分最少,弱于国内大模型的高考体现。
阅卷教师们共同以为,大模型与真人考生仍存在距离,尽管关于基础常识的把握体现出色,但在逻辑推理和常识灵敏使用方面,大模型依然差强人意。详细而言,在作答主观题时,大模型往往无法完好了解题干,不明白代词指向,成果导致答非所问;回答数学题时,解题进程机械且逻辑性差,关于几许题,常呈现与空间逻辑相违反的揣度;对物理、化学试验了解浅薄,无法精确辨认并运用试验器件。
此外,大模型也会假造虚拟内容,假造看似合理但实践不存在的诗句,或在存在显着计算错误的情况下之后不反思,“硬着头皮蒙”一个答案,均给阅卷教师带来了困扰。
依据上海人工智能试验室上个月发布的AI高考全卷成果,Qwen2-72B、GPT-4o及墨客・浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超越70%。大部分模型“考生”语文、英语科目体现杰出,但数学方面仍有很大提高空间。