我们离真正的自动化科学还有多远？

人工智能一日千里，正在重塑千行百业，包括学校教育和科学研究。

之前，自留地君曾介绍过不少用生成式人工助力科学研究的研究、应用和相关的进展。比如，在《谷歌打造人工智能“联合科学家”工具，协助研究人员以加速科学研究》，在此之前，2024年8月，日本 Sakana AI 推出了名为 “The AI Scientist”（AI科学家）的系统，这是全球首个用于自动化科学研究和开放式发现的AI系统，它能够独立完成从想法构思到论文撰写的整个科研流程。

更有甚者，在《AI时代，你不用单打独斗，用SciSpace，你等于带着一个团的兵力在做研究，它的1343个智能体几乎覆盖研究的全流程》一文中，自留地君也曾介绍了 SciSpace开发的智能体。

截止到本文成稿，在SciSpace网站的Agent Gallery 上的智能体之数量，已经达到了1864个之多。特别是过去一年来，AI 科研（AI for Science）正经历从“文献助手”到“独立研究员”的范式转移。随着 AI Scientist 等系统的诞生，自动化科研似乎触手可及。

然而，真实的科研从来不是一条从灵感直达论文的直线，它充满了假设的幻灭、代码崩溃的挫败以及对实验异常值的反复推敲。

自动化科学发现不仅仅是根据想法生成论文。

现有的 AI 科研系统往往表现得过于“理想化”且脆弱：

它们大多采用线性流水线逻辑，一旦实验报错便彻底停滞；

它们依赖单智能体推理，执行失败时就停止运行，并且不会在多次运行之间传递经验。

由于缺乏跨周期的经验积累，它们总是在同一个坑里摔倒；

更致命的是，单一智能体的思维局限极易导致严重的“幻觉”——生成看似完美、实则数据造假的学术垃圾。不过，今天，我们看到一批海外华人学者撰写的一篇发表在arxiv上的文章，文章中所提出的 AutoResearchClaw，更是让人为之一振啊！

在这篇文章中，作者提出了一个创新的多智能体自主科学研究框架AutoResearchClaw，旨在通过人机协作，克服传统 AI 实验室系统在逻辑线性化和结果虚假化方面的局限。该系统集成了多智能体辩论、自我修复执行、可验证结果报告、跨运行演进以及人机回环协作五大核心机制，实现了从科学构想到论文撰写的全流程自动化。实验表明，其在 ARC-Bench 基准测试中的表现显著优于同类模型，能够有效识别并修复实验故障。该研究强调，针对性的人类干预（CoPilot 模式）比完全自主或全程监控更能提升科研产出的质量。作为一种科研放大器，它旨在辅助而非取代人类的科学判断，同时通过严格的验证闸门确保学术诚信。

AutoResearchClaw 的五大关键机制：

系统通过 23 个阶段的流水线（涵盖发现、实验、写作三个阶段）解决了上述挑战，其核心由以下五个机制驱动：

1. 结构化多智能体辩论

系统在假设生成和结果分析阶段引入了具有不同“认识论角色”的智能体：

假设阶段：由创新者（提议高风险假设）、务实者（评估可行性）和反对者（寻找弱点）进行辩论。

结果分析阶段：由乐观主义者（发掘强力发现）、怀疑论者（质疑统计显著性）和方法论者（评估可重复性）进行评估。

2. 自愈式执行器（Pivot/Refine 决策循环）

系统将实验失败视为诊断信息而非终止信号：

改进（Refine）：当结果较弱但方向正确时，系统诊断原因、调整实验并重试。

转向（Pivot）：当发现方向存在根本缺陷时，将失败记录为新证据并转向新方向。

沙箱执行：所有代码在 Docker 容器中运行，具备严格的网络隔离政策，防止结果外泄或预计算数据的下载。

3. 可验证的结果报告

为解决 LLM 论文中的数据造假和引用幻觉问题：

数值注册表（Numeric Registry）：建立实验输出的白名单，只有注册表中的真实测量值才能进入论文草稿。

四层引用验证：通过 CrossRef、OpenAlex、arXiv 和 Semantic Scholar 进行多级校验，分类引用为“已验证”、“可疑”或“幻觉”。

4. 人机协作（HITL）与 SmartPause

系统提供 7 种干预模式，平衡自动化效率与人类判断。SmartPause 机制能够监控系统的不确定性，仅在不确定性超过阈值时才请求人类决策。

5. 跨运行演化系统

系统维护一个持久的教训存储库，将过去的修复尝试、决策失败和人工反馈转化为未来的保障措施。这些教训通过时间衰减权重方案（半衰期 T 1/2=30 天）注入后续任务，使新运行能避开已知错误。归纳起来，作者在这篇文章中提出了提出了 AutoResearchClaw。

这是一个基于五种机制构建的多智能体自主研究流水线：用于假设生成和结果分析的结构化多智能体辩论；具备 Pivot/Refine 决策循环的自我修复执行器，能将失败转化为信息；可验证的结果报告，防止捏造数据和伪造引用；人机协同合作，提供从完全自主到逐步监督的七种干预模式；以及跨次运行演化机制，将过往错误转化为未来的保障。

实验表明，这个多智能体自主研究流水线在 ARC-Bench 基准测试中的表现显著优于同类模型，能够有效识别并修复实验故障。

该研究强调，针对性的人类干预（CoPilot 模式）比完全自主或全程监控更能提升科研产出的质量。

AutoResearchClaw的真正价值在于，它将科学家从繁琐的代码修补和重复的实验迭代中解放出来，担任起“科研放大器（Research Amplifier）”的角色。作者将 AutoResearchClaw 定位为一种研究放大器，旨在辅助而非取代人类的科学判断，它在加速科学探索的同时，始终将可验证性置于核心位置，通过严格的验证闸门确保学术诚信。

在未来，当这种系统连接到实验室自动化硬件时，我们可能会看到 AI 在数小时内完成人类需要数月甚至数年进行的试错过程。

科学发现的节奏将从“线性增长”转变为“指数爆发”。

其实，这几年，AI 自动化科学研究的热潮一浪高过一浪，新的尝试和发现不断涌现。

就在2024年8月Sakana AI 推出了名为 “The AI Scientist”（AI科学家）的系统的几个月之后，2025年3月，由 The AI Scientist V2 撰写的一篇论文在顶级机器学习会议的研讨会(ICLR 2025)上通过了同行评审。

据Sakana AI 介绍，这是第一篇完全由人工智能生成的论文通过了与人类科学家相同的同行评审流程。

Sakana AI 高歌猛进，AI 自动化科学研究的脚步不曾停歇。

2026年3月26日，Sakana AI宣布，Sakana AI、不列颠哥伦比亚大学 (UBC)和Vector Institute以及牛津大学的研究人员密切而富有成效的合作的成果，一篇描述了他们在AI 自动化科学研究方面的工作并包含新见解的论文已发表在《自然》（Nature）杂志上了。

在官网上，Sakana AI 指出，“这篇发表于《自然》杂志的文章标志着一个新时代的到来，在这个时代，发现不再仅仅是人类的追求。”

“人工智能代理将作为不知疲倦的伙伴，助力我们加速迈向未来，届时我们将能够显著加快科学突破的步伐。如果安全可靠，像“AI Scientist”这样的系统将有可能实现从治愈所有疾病、为全人类提供充足资源到保护环境、探索星辰大海等方方面面的目标。

最后，留给你我思考的问题是：

如果 AI 能在几小时内完成你过去需要数月进行的试错迭代，作为科学家的你，核心竞争力将转向何处？

是提出更具深度的科学命题，

还是对复杂世界进行更高维度的跨学科整合？