AI做化学奥赛题准确率超93%,但“看图”反而会答错?这项研究揭开大模型科学推理的真实短板
当我们惊叹于ChatGPT能写论文、能编代码时,一个更根本的问题浮出水面:AI究竟能不能真正理解科学?
近日发表在Nature旗下《通讯-化学》的一项研究,给出了一个出人意料的答案——顶尖AI模型做化学奥赛题的准确率已超过93%,远超人类选手平均水平;但诡异的是,给某些模型“看图”之后,它们反而更容易答错。
这项来自科大讯飞研究院与认知智能全国重点实验室的研究,像一面镜子,照出了当前AI科学推理能力的真实面貌。
一个反常识的发现
研究团队从二十余年的美国化学奥林匹克竞赛中精选出473道图文结合题目,构建了名为USNCO-V的评测基准,随后对40款主流多模态大模型进行了系统测试。
测试结果令人振奋又困惑。振奋的是,GPT-5以93.2%的准确率登顶,将人类选手44.6%的平均成绩远远甩在身后。困惑的是,当研究人员尝试移除题目中的图像、只保留文字描述时,部分模型的表现竟然更好了。
这意味着什么?图像本应提供额外信息帮助解题,但对某些AI而言,图像反而成了“干扰项”。研究团队将这一现象命名为“视觉失配效应”——当前多模态AI的视觉模块与语言模块之间,尚未建立起真正有效的协作机制。
“这就像一个学生,阅读理解能力很强,但一看到配图就分心走神。”一位未参与该研究的AI领域学者如此评价。
分子结构和实验装置,仍是AI的“盲区”
研究还发现,不同类型的视觉信息对AI的挑战程度差异显著。面对表格和常规数据图,大模型表现稳健;但遇到分子结构式和实验装置示意图时,即便是最先进的模型也频频失误。
这一发现揭示了AI科学推理的核心瓶颈:真正的科学理解不仅需要“看懂”图像,更需要将视觉符号转化为化学语义,再进行逻辑推演。这种跨模态的深度融合能力,正是当前技术亟待突破的方向。
大模型国家队的科学野心
值得关注的是,这项研究的发表方——科大讯飞,正是国内人工智能国家队的核心成员之一。依托认知智能全国重点实验室,这家公司近年来在AI for Science领域动作频频。
公开资料显示,科大讯飞已构建起覆盖多学科的科研智能体系:与中科院共建的“星火科研助手”服务超17万名科研人员;在化工领域推出的智能化工大模型已迭代至3.0版本;在核聚变研究方向也有模型成果发表于国际顶刊。
更值得注意的是其技术路线的选择。据了解,科大讯飞星火大模型强调全栈自主可控,底层算力与核心算法均实现全国产化方案。在当前国际科技博弈的大背景下,这一布局的战略意义不言而喻。
从“能用”到“好用”,AI科学推理还有多远?
此次研究的意义,不仅在于揭示问题,更在于提供了解决思路。研究团队发现,思维链(Chain-of-Thought)提示技术能显著提升中等规模模型的推理能力,使GPT-4.1-mini在无需额外训练的情况下准确率提升超过26个百分点。
这表明,通过优化推理策略,现有模型仍有巨大的提升空间。
当AI从“语言理解”迈向“科学理解”,一扇新的大门正在打开。尽管当前技术仍存在明显短板,但正如这项研究所展示的,认清差距本身就是进步的开始。
对于正在加速追赶的中国AI产业而言,这面“镜子”来得恰逢其时。
-
迎春纳福——2025年非遗二十四节气茶道立春茶会在天津文庙举办 -
【新春走燕郊 幸福新起点】燕郊万人空巷共赏花车巡游 璀璨夜色点亮城市活力 -
光明肉业佛手味精——春节餐桌上的鲜美秘密 -
以灯祈福,以乐相聚——2025《我们的中国年》元宵音乐会热闹上演! -
INFOMEDIA将收购INTELLEGAM 50%的股份 -
“爱的36计 爱人自有妙计”,美纳里尼联合海王星辰和先声再康举办公益科普活动 -
沙特财政部和IMF准备召开新兴市场经济体AlUla会议
-
从中国制造到服务全球,硅基仿生展示中国医疗科技硬核实力 -
全球首创,新一代"破伤风针"新替妥®获批上市 -
拥抱自然看世界 富士胶片超长焦摄影体验活动首站于深圳湾启动
-
全国人类工效学标准化委员会2025年会召开,工作组权威专家到访米乔! -
喜报丨西洋诺威施"追丰豹针状肥"荣获年度农资行业热度单品奖 -
2025商用冷柜品牌口碑榜发布,澳柯玛连续12年夺冠 -
破局“纸面教育”:理想树AI自主学习中心“空间陪伴”的教育转型新模式 -
DID联盟节点共识峰会于吉隆坡召开,Web3数字主权网络正式启动 -
安步汽车“体系出海”模式获验证,越南加盟店首店开业加速扩张 -
广州近视防控哪里好?12 岁娃 OK 镜碎裂惊魂,广州爱尔眼科守护儿童清晰 “视” 界 -
罗博网联斩获百台无人驾驶矿卡订单,跻身矿山无人化“第一梯队” -
燃动青岛!顶级斯诺克巨星邀请赛来了 -
菜百股份全国首发、北京地区独家销售2026丙午(马)年贺岁金条





