做中国高考卷，AI能得多少分？GPT296分排第二，数学全部不及格（组图）

2024-06-20 来源：快科技原文链接评论8条

高考覆盖各类学科及题型，同时因其开考前的“绝密性”，被视作中国最具权威的考试之一。这一面向人类设计的高难度综合性测试，目前普遍被研究者用于考察大模型的智能水平。

在前不久高考结束后，上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。

6月19日， OpenCompass发布了首个大模型高考全卷评测结果。

语数外三科加起来的满分为420分，此次高考测试结果显示，阿里通义千问2-72B排名第一，为303分。

OpenAI的GPT-4o排名第二，得分296分，上海人工智能实验室的书生·浦语2.0排名第三，三个大模型的得分率均超过70%。

来自法国大模型初创公司的Mistral排名末尾。

做中国高考卷，AI能得多少分？GPT296分排第二，数学全部不及格（组图） - 1

此次测试的模型分别来自阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型，以及来自OpenAI的闭源模型GPT-4o。

实验室表示，因无法确定闭源模型的更新时间，为公平起见，此次评测没有纳入商用闭源模型，仅引入GPT-4o作为评测参考。

这次选择参与高考的“考生”均在高考前（2024年4月-6月）开源，避免了“刷题风险”。

从结果来看，大模型的语文、英语考试水平普遍不错，但数学都不及格，最高分也只有75分，来自书生·浦语2.0，其次是GPT-4o，得分73分。语文最高分是通义千问，英语最高分是GPT-4o。

在数学方面大模型还有很大的提升空间。数学关乎复杂推理相关能力，这是大模型普遍面临的难题，也是大模型在金融、工业等要求可靠的场景落地需要的关键能力。

做中国高考卷，AI能得多少分？GPT296分排第二，数学全部不及格（组图） - 2

上海人工智能实验室领军科学家林达华此前在采访中对第一财经介绍，复杂推理关系到落地应用时大模型的可靠性，例如在金融这样的场景下不能在数字上有差错，会对数学上的可靠性有较高的要求。

另外随着大模型进入商用，若要分析一家公司的财报，甚至是工业领域要去分析一些技术文档，这时数学方面的计算能力就会成为一个壁垒。

“现在很多大模型的应用场景是客服、聊天等等，在聊天场景一本正经胡说八道影响不太大，但它很难在非常严肃的商业场合去落地。”林达华此前表示。

对于此次测试细节，上海人工智能实验室介绍，评测采用全国新课标I卷，“语数外”三科全卷测试，包括客观题与主观题。

成绩由具备高考评卷经验的老师匿名人工判分，阅卷开始前，阅卷教师未被告知答卷均由模型生成，使阅卷教师完全以面对真实考生的标准评判回答效果。

值得注意的是，大模型犯错误的方式和人类考生有差异，从实践上来看阅卷老师们不完全适应给大模型评分，因此存在有题目误判的可能。

实验室表示，每个题目都邀请了至少三位老师评阅取均分，团队对分差较大的题目还进行了再次审核，贴近高考真实阅卷标准。

实验室表示，在打分前，老师们并未被告知答案由大模型生成，但由于有的模型会存在完全不理解题意导致乱答、重复生成、回答更像解析而非解答的问题。

老师们在阅卷过程中基本都会和团队确认这些情况是否是正常情况，团队会要求老师将离谱的错误直接视为答题错误，解析类型的回答以是否包含正确解题过程作为唯一准则。

在完成所有大模型答卷的评卷工作后，阅卷教师被告知所评“考生”的真实身份为大模型。研究人员同时邀请各科教师对大模型表现进行了整体分析，为模型能力提升策略提供参考。

语文方面，老师们认为，模型的现代文阅读理解能力普遍较强，但是不同模型的文言文阅读理解能力差距较大。

大模型作文更像问答题，虽然有针对性但缺乏修饰，几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。

多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”，大模型尚无法完全理解。

在数学试卷上，老师们发现，大模型的主观题回答相对凌乱，且过程具有迷惑性，甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力较强，但是无法在解题过程中灵活引用。

英语则整体表现良好，但部分模型由于不适应题型，在七选五、完形填空等题型得分率较低。大模型英语作文普遍存在因超出字数限制而扣分的情况，而人类考生多因为字数不够扣分。

此外，一些老师提出，由于全部回答没有卷面，所以在作文的评判上会存在1-2分的误差。

关键词：高考大模型评测结果语数外阅卷能力测试

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日澳洲仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络content@sydneytoday.com。

最新评论(8)

疯狂的野马 2024-06-20

其实我觉得数学，根本没必要用那么难的题目，出那么难的是想证明什么呢。

Hugh0423 2024-06-21

就好像当年机器取代劳动那样，以后读书对大多数人来说都没用啦，国家也不会投入太多钱搞教育，只要做到95％人基础教育，和5％的顶尖人才教育就可以了～

addwaysigns 2024-06-21

再刷几年题，就是高考冠军。

_七七四九 2024-06-20

第一个蒸汽机车比马车跑的慢。。。

Amber只爱粗龙虾 2024-06-20

这些大模型都是通过文章训练出来的，当然只能搞搞语文。英语也是英国美国的语文。

热评新闻

特朗普关税威胁下，澳央行维持4.10%利率不变（组图）

中国对美所有进口商品征34%关税！对7类中重稀土作出口管制，特朗普：他们决策失误自乱阵脚（视频/组图）

“再待10分钟！”澳华男招妓却不举，恼怒持刀威胁！女子竟空手折白刃，终逃出生天（组图）

“给美帝一记重拳” 中国留学生刷爆100万信用卡逃回国！后续来了（组图）

“女儿，赶紧报个平安！”悉尼华女离奇失联，中国父母正紧急赴澳寻人（组图）

澳华人区最强“钉子户”！3次拒绝开发商报价，将被高楼包围（组图）

为了“倒头睡满8小时”的幸福感，这些澳洲华人回国后，选择二度“回流”返澳（组图）

澳洲取消公民身份，锁定10万华人？小红书虚假信息引忧虑，专家：恐影响华人选民（图）

“江山易改，本性难移！”澳外长黄英贤珀斯力挺林文清，批达顿会“再敲战鼓”（组图）

“真的像坐牢！”困在澳洲的华人中年女性移民，“到头来，竟是没得选”（组图）