AI做化学奥赛题准确率超93%，但“看图”反而会答错？这项研究揭开大模型科学推理的真实短板

广东新闻网科技正文

2025-12-19 10:51 来源：互联网阅读次数：3899

当我们惊叹于ChatGPT能写论文、能编代码时，一个更根本的问题浮出水面：AI究竟能不能真正理解科学？

近日发表在Nature旗下《通讯-化学》的一项研究，给出了一个出人意料的答案——顶尖AI模型做化学奥赛题的准确率已超过93%，远超人类选手平均水平；但诡异的是，给某些模型“看图”之后，它们反而更容易答错。

这项来自科大讯飞研究院与认知智能全国重点实验室的研究，像一面镜子，照出了当前AI科学推理能力的真实面貌。

一个反常识的发现

研究团队从二十余年的美国化学奥林匹克竞赛中精选出473道图文结合题目，构建了名为USNCO-V的评测基准，随后对40款主流多模态大模型进行了系统测试。

测试结果令人振奋又困惑。振奋的是，GPT-5以93.2%的准确率登顶，将人类选手44.6%的平均成绩远远甩在身后。困惑的是，当研究人员尝试移除题目中的图像、只保留文字描述时，部分模型的表现竟然更好了。

这意味着什么？图像本应提供额外信息帮助解题，但对某些AI而言，图像反而成了“干扰项”。研究团队将这一现象命名为“视觉失配效应”——当前多模态AI的视觉模块与语言模块之间，尚未建立起真正有效的协作机制。

“这就像一个学生，阅读理解能力很强，但一看到配图就分心走神。”一位未参与该研究的AI领域学者如此评价。

分子结构和实验装置，仍是AI的“盲区”

研究还发现，不同类型的视觉信息对AI的挑战程度差异显著。面对表格和常规数据图，大模型表现稳健；但遇到分子结构式和实验装置示意图时，即便是最先进的模型也频频失误。

这一发现揭示了AI科学推理的核心瓶颈：真正的科学理解不仅需要“看懂”图像，更需要将视觉符号转化为化学语义，再进行逻辑推演。这种跨模态的深度融合能力，正是当前技术亟待突破的方向。

大模型国家队的科学野心

值得关注的是，这项研究的发表方——科大讯飞，正是国内人工智能国家队的核心成员之一。依托认知智能全国重点实验室，这家公司近年来在AI for Science领域动作频频。

公开资料显示，科大讯飞已构建起覆盖多学科的科研智能体系：与中科院共建的“星火科研助手”服务超17万名科研人员；在化工领域推出的智能化工大模型已迭代至3.0版本；在核聚变研究方向也有模型成果发表于国际顶刊。

更值得注意的是其技术路线的选择。据了解，科大讯飞星火大模型强调全栈自主可控，底层算力与核心算法均实现全国产化方案。在当前国际科技博弈的大背景下，这一布局的战略意义不言而喻。

从“能用”到“好用”，AI科学推理还有多远？

此次研究的意义，不仅在于揭示问题，更在于提供了解决思路。研究团队发现，思维链（Chain-of-Thought）提示技术能显著提升中等规模模型的推理能力，使GPT-4.1-mini在无需额外训练的情况下准确率提升超过26个百分点。

这表明，通过优化推理策略，现有模型仍有巨大的提升空间。

当AI从“语言理解”迈向“科学理解”，一扇新的大门正在打开。尽管当前技术仍存在明显短板，但正如这项研究所展示的，认清差距本身就是进步的开始。

对于正在加速追赶的中国AI产业而言，这面“镜子”来得恰逢其时。

责任编辑：qbqsn110

【慎重声明】凡本站未注明来源为"广东新闻网"的所有作品，均转载、编译或摘编自其它媒体，转载、编译或摘编的目的在于传递更多信息，并不代表本站赞同其观点和对其真实性负责。如因作品内容、版权和其他问题需要同本网联系的，请在30日内进行!