当前位置: 首页 > 资讯 > 科技 > 复旦大学高考数学评测揭晓:阿里云通义千问与科大讯飞星火共领风骚,GPT-4o遇劲敌
  • 0
  • 0
  • 分享

复旦大学高考数学评测揭晓:阿里云通义千问与科大讯飞星火共领风骚,GPT-4o遇劲敌

复旦大学 2024-06-16 09:55:34 爱吃爆米花

近日,复旦大学自然语言处理实验室下的LLMEVAL团队公布了其针对2024年度高考数学大模型的综合评估成绩,引发了学界与业界的广泛关注。

在这一权威评测活动中,阿里云开发的“阿里千问”及科大讯飞的“讯飞星火”两款AI系统表现出色,分别在新I卷和新II卷的评测中夺得头筹或紧随其后。具体而言,“阿里千问”在新I卷中拔得头筹,并在新II卷中获得亚军;而“讯飞星火”则在新II卷中夺冠,并在新I卷中取得第二名的好成绩。

复旦 NLP 团队认为,全新出炉的高考试题具备高度的独创性和保密性,是用来评测大模型的绝好评测集合。在新 Ⅰ 卷中,阿里千问和讯飞星火对 14 道数学客观题的准确率达到 70% 以上,大幅领先 GPT-4o 的 57%,字节豆包、智谱清言、百川等大模型紧随其后,准确率超过 50%,百度文心一言、腾讯元宝、Kimi 等大模型准确率较低。而在在新 Ⅱ 卷的评测中,讯飞星火、阿里千问、GPT-4o 准确率均超过 60%,其他大模型的差距较小,除百川、DeepSeek 和海螺之外,准确率均在 50% 以上。

数学能力是 GPT-4o 一直以来引以为傲的能力模块,OpenAI 在 5 月 14 日的发布会上推出大语言模型 GPT-4o 时,曾重点演示其数学能力。

在现场演示中,GPT-4o 利用其实时的图像识别和语音能力进行在线教学。从评测结果可以看出,阿里千问和讯飞星火对数学问题的深入理解和分析能力已经超过 GPT-4o,使其在高考数学试题的解答上具有更高的准确率。有网友表示,做数学题毕竟还是咱中国人的特长。

以阿里千问和讯飞星火为代表,国产人工智能大模型在数学领域的出色能力,为未来人工智能技术在教育领域的应用提供了有力支持。

来源:it之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/54373.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热榜
热门游戏
换一换
热门软件
换一换