AI参加今年高考:干翻90%考生,一科目全员不及格

上海人工智能实验室和司南评测体系于6月19日发布了一项重要测试结果,首次针对AI大模型参与2024年高考「语数英」三科目的全卷解题能力进行评估。

本次测试选择了包括6款开源大模型和公认的「地表最强」GPT-4o在内的多个模型,使用了「全国新课标I卷」作为考卷。所有参与评测的开源模型均在今年高考之前发布,考试成绩由具备高考评卷经验的教师进行了人工阅卷评判。

以下是参与测试的几款AI大模型:

  1. GPT-4o:OpenAI在5月发布的旗舰大模型,以其出色的多模态能力闻名。
  2. Mixtral 8x22B:法国AI创业公司Mistral在4月17日发布的开源模型。
  3. Yi-1.5-34B:零一万物在5月12日开源的Yi-1.5系列模型。
  4. GLM-4-9B:智谱AI在6月发布的新一代GLM-4系列开源模型。
  5. InternLM2-20B-WQX:上海人工智能实验室在6月发布的书生·浦语 2.0 系列文曲星大模型。
  6. Qwen2-57B:阿里在6月发布的Qwen 2系列MoE大模型。
  7. Qwen2-72B:阿里在6月发布的72B稠密大模型。

根据测试结果显示,通义千问Qwen2-72B、GPT-4o以及书生·浦语2.0文曲星(InternLM2-20B-WQX)三款模型在评分率上均超过70%,位列前三名。

在语文和英语两个文科科目上,大部分AI模型表现出色,但在数学科目上仍未达到及格水平。根据最新测试结果显示,书生·浦语2.0文曲星(InternLM2-20B-WQX)在数学科目上获得了75分,是所有参与测试的大模型中最高分,超过了GPT-4o的73分。

总分为420分的「语数英」三科中,阿里的通义千问Qwen2-72B获得了303分,GPT-4o获得了296分,书生·浦语2.0以略微落后的0.5分差距排名第三。相比之下,来自法国的Mistral在该测试中得分最低,仅获得185分。

根据阅卷老师们的评价,以下是他们对大模型在不同科目表现的观点:

语文

  • 现代文阅读理解能力普遍较强,但在文言文阅读理解方面,不同模型的能力差距较大。
  • 大模型的作文更像问答题,虽然有针对性但缺乏修饰用词,几乎不使用人类考生常用的举例论证、引用论证、名人名言等手法。
  • 多数模型无法理解汉语中的一些概念如“本体”、“喻体”、“暗喻”,以及一些“潜台词”。

数学

  • 大模型在主观题回答上表现相对凌乱,解题过程迷惑性大,有时出现过程错误但仍得到正确答案的情况。
  • 公式记忆能力强,但在解题过程中缺乏灵活应用能力。

英语

  • 整体表现良好,但在某些题型如7选5和完形填空上,部分模型的得分率较低。
  • 英语作文中普遍存在因超出字数限制而扣分的情况,而人类考生往往未达到字数要求。

这些评价揭示了大模型在不同学科和题型中的优势和局限性,为进一步提升其在教育评估和应用中的效果提供了有益的反馈和指导。

在总结时,我们不应仅仅将一次高考试卷的测评结果视作评估AI大模型水平差异的唯一标准。

跳出测试结果的范畴,AI大模型参与正式高考试题测评具有深远的实际意义。

尽管有些人认为这只是新奇和娱乐,事实上,当前AI大模型取得的成绩已经超过了50%以上的应届考生。

GPT-4o的表现为例,其在「语数英」三科的总分420中取得296分,得分率达到70%。

如果GPT-4o参加了未测评的文综/理综科目,预计其得分大约在210分左右。

基于这些数据,可以推测GPT-4o参加完整的高考科目,有望获得500+的总分。这意味着,GPT-4o的成绩达到了能够达到国内一本线的水平。

那么什么是达到一本线的水平呢?

一般来说,全省范围内有约10%的应届高考生能够被一本院校录取。这意味着,像GPT-4o这样的AI大模型,在人类智力测评的层面上已经超越了90%的应届考生。

人工智能不需要吃饭、睡觉,也没有情绪波动,只需稳定的电力支持就能持续高效运转。

考虑到ChatGPT诞生不到两年,而英伟达已经成为全球市值最高的公司之一,这些事实让人深思。

亲爱的读者们,请深思熟虑,这些现实带来的震撼效果令人不寒而栗。