当前位置：首页 > 资讯 > 科技 > 复旦大学高考数学评测揭晓：阿里云通义千问与科大讯飞星火共领风骚，GPT-4o遇劲敌

复旦大学高考数学评测揭晓：阿里云通义千问与科大讯飞星火共领风骚，GPT-4o遇劲敌

复旦大学 2024-06-16 09:55:34 爱吃爆米花

近日，复旦大学自然语言处理实验室下的LLMEVAL团队公布了其针对2024年度高考数学大模型的综合评估成绩，引发了学界与业界的广泛关注。

在这一权威评测活动中，阿里云开发的“阿里千问”及科大讯飞的“讯飞星火”两款AI系统表现出色，分别在新I卷和新II卷的评测中夺得头筹或紧随其后。具体而言，“阿里千问”在新I卷中拔得头筹，并在新II卷中获得亚军；而“讯飞星火”则在新II卷中夺冠，并在新I卷中取得第二名的好成绩。

复旦 NLP 团队认为，全新出炉的高考试题具备高度的独创性和保密性，是用来评测大模型的绝好评测集合。在新 Ⅰ 卷中，阿里千问和讯飞星火对 14 道数学客观题的准确率达到 70% 以上，大幅领先 GPT-4o 的 57%，字节豆包、智谱清言、百川等大模型紧随其后，准确率超过 50%，百度文心一言、腾讯元宝、Kimi 等大模型准确率较低。而在在新 Ⅱ 卷的评测中，讯飞星火、阿里千问、GPT-4o 准确率均超过 60%，其他大模型的差距较小，除百川、DeepSeek 和海螺之外，准确率均在 50% 以上。

数学能力是 GPT-4o 一直以来引以为傲的能力模块，OpenAI 在 5 月 14 日的发布会上推出大语言模型 GPT-4o 时，曾重点演示其数学能力。

在现场演示中，GPT-4o 利用其实时的图像识别和语音能力进行在线教学。从评测结果可以看出，阿里千问和讯飞星火对数学问题的深入理解和分析能力已经超过 GPT-4o，使其在高考数学试题的解答上具有更高的准确率。有网友表示，做数学题毕竟还是咱中国人的特长。

以阿里千问和讯飞星火为代表，国产人工智能大模型在数学领域的出色能力，为未来人工智能技术在教育领域的应用提供了有力支持。

扩展阅读