当前位置：首页 > 资讯 > 科技 > 上海人工智能实验室公布AI高考首份成绩单：语数英总分顶峰303，数学领域显露挑战

上海人工智能实验室公布AI高考首份成绩单：语数英总分顶峰303，数学领域显露挑战

上海 2024-06-20 10:05:05 爱吃爆米花

6月20日消息，上海人工智能实验室于19日披露了开创性的AI高考测评初步结果。此测评紧跟2024年全国高考的步伐，由实验室的司南评测系统OpenCompass操刀，精选包括6个知名开源模型及GPT-4o在内的7个先进AI模型，对高考的语文、数学、英语三科进行全面的能力评估，此举标志着人工智能在教育评测领域的又一重要尝试。

评测采用全国新课标 I 卷，参与评测的所有开源模型开源时间均早于高考，确保评测“闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。

该机构表示，Qwen2-72B、GPT-4o 及书生·浦语 2.0 文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲，得分率均超过 70%。大部分模型“考生”语文、英语科目表现良好，但数学方面仍有很大提升空间。

具体来看，InternLM2-20B-WQX 取得了数学单科的最高分，超越包括 GPT-4o 在内的所有模型。

注：此次参与“大模型高考”评测的产品包含 GPT-4o 及其他 6 个模型。为公平起见，此次评测没有纳入商用闭源模型。

Mixtral 8x22B：法国 AI 创业公司 Mistral 于 2024 年 4 月 17 日开源的对话模型。

Yi-1.5-34B：零一万物公司于 2024 年 5 月 12 日开源的 Yi-1.5 系列最大的模型。

GLM-4-9B：智谱 AI 于 2024 年 6 月 4 日推出的最新一代预训练模型 GLM-4 系列的开源版本。

InternLM2-20B-WQX：上海人工智能实验室于 2024 年 6 月 4 日开源的书生・浦语 2.0 系列文曲星大语言模型。

Qwen2-57B：阿里巴巴于 2024 年 6 月 6 日开源的 Qwen2 系列 MoE 对话模型。

Qwen2-72B：阿里巴巴于 2024 年 6 月 6 日开源的 72B 稠密模型。

语数外三科加起来的满分为 420 分，此次高考测试结果显示，阿里通义千问 2-72B 排名第一，为 303 分，OpenAI 的 GPT-4o 排名第二，得分 296 分，上海人工智能实验室的书生·浦语 2.0 排名第三，三个大模型的得分率均超过 70%。来自法国大模型初创公司的 Mistral 排名末尾，仅拿下 185 分。