七款AI大模型“高考成绩” 前三名文科过一本

格雷下载站 2024-07-19 1,024

IT之家7月18日音讯，上海人工智能试验室17日发布了针对7个AI大模型的高考全科目测验成果，据大模型开源敞开评测系统“司南”相关负责人介绍，“当时大模型仍存在很大的局限性。安排AI大模型‘参加高考’，意图是评测当时大模型的实在水平，找准问题，继续推动技术进步。”

七款AI大模型“高考成果” 前三名文科过一本

测验成果显现，墨客・浦语2.0系列文曲星大模型（浦语文曲星）、阿里通义千问大模型Qwen2-72B以及GPT-4o再次包办文、理科前三甲；前三名
AI“考生”的文、理科成果别离超越了“一本”“二本”线（以本年高考人数最多的河南省的分数线为参阅）。

从官方供给的图片来看，此次参加“高考”的大模型还包含来自零一万物的 Yi-1.5-34B、来自通义千问的 Qwen2-57B、来自智谱的GLM-4-9B 和法国 AI 草创公司Mistral旗下的Mixtral 8×22B。

据介绍，此次评测具有如下特征：

全卷考试：进行全卷评分，而不只针对单一题型，且包含带图的高考题

考前开源：评测掩盖的开源模型均为本年高考前开源的模型，扫除泄题的可能性

教师打分：约请有高考阅卷经历的教师打分，保证评分和高考尽量共同

彻底揭露：生成答案的代码、模型答卷、评分成果彻底开源

在添加归纳科意图基础上，Qwen2-72B、GPT-4o、浦语文曲星包办文、理科前三甲。阿里通义千问大模型Qwen2-72B以546分的成果荣获AI高考“文科状元”，浦语文曲星则以 468.5分成为理科第一名，别离超越了“非开源世界插班生”GPT-4o（文科531分，理科467分）。同为国外组织发布的Mixtral
8x22B均匀得分最少，弱于国内大模型的高考体现。

七款AI大模型“高考成果” 前三名文科过一本

阅卷教师们共同以为，大模型与真人考生仍存在距离，尽管关于基础常识的把握体现出色，但在逻辑推理和常识灵敏使用方面，大模型依然差强人意。详细而言，在作答主观题时，大模型往往无法完好了解题干，不明白代词指向，成果导致答非所问；回答数学题时，解题进程机械且逻辑性差，关于几许题，常呈现与空间逻辑相违反的揣度；对物理、化学试验了解浅薄，无法精确辨认并运用试验器件。

此外，大模型也会假造虚拟内容，假造看似合理但实践不存在的诗句，或在存在显着计算错误的情况下之后不反思，“硬着头皮蒙”一个答案，均给阅卷教师带来了困扰。

依据上海人工智能试验室上个月发布的AI高考全卷成果，Qwen2-72B、GPT-4o及墨客・浦语2.0文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲，得分率均超越70%。大部分模型“考生”语文、英语科目体现杰出，但数学方面仍有很大提高空间。

七款AI大模型“高考成绩” 前三名文科过一本

我在地府有座城

节奏大师plus官方版2022

植物大战僵尸幼儿园版 2024官方版

渔帆暗涌手游下载

波比游戏时间第三章正版游戏

凯漫画

拔了个螺丝

MC大战僵尸2 重置版

天天影视app下载

抓包助手

瘦身计划打卡

银米天气

枇杷影视软件官方版安卓版手机下载安装最新版2024

药九九

豪华大游轮物语官方版下载

海绵宝宝：比奇堡的冒险

SCP警卫职责

卡拉彼丘国际服

嘉居设计家下载中文

小美的杂货铺

暗区突围国际服最新版本2025

僵尸杀戮4 最新版

消灭所有蚊子

佩格尔僵尸生存