ICLR是一个重要的学术会议,
每年,有来自全球人工智能和机器学习领域的上万名学者出席会议。
ICLR是International Conference on Learning Representations的英文简写,翻译成中文是国际学习表征会议。
ICLR是人工智能与机器学习领域最顶级的国际学术会议之一,与 NeurIPS、ICML 并列为三大核心会议。
2026年4月23-27日,ICLR2026 将会在巴西里约热内卢举行。

Graham Neubig是卡内基梅隆大学(CMU)的AI研究员。
他投稿给 ICRL,准备准备出席在里约热内卢举行的会议ICRL2026。
前些日子,他感觉自己收到的学术会议论文同行评审意见的AI味超级重。
他之所以起疑心,是因为这些评审内容“非常冗长,且包含大量符号”,并且所要求的分析方式并非“审稿人通常在AI或ML论文中所要求的那种标准统计分析方式”。
可是,这只是他的直觉,他并没有真凭实据。
这位仁兄很有意思,他就想着找到证据证明自己的直觉,
可是,他自己干不了这个事儿,怎么办?
于是,他就在X上发布了一个悬赏令,希望有人能做一轮系统性的检测,看ICLR的论文和审稿中到底夹杂了多少AI文本。

潘格拉姆实验室(Pangram)就是那个接黄榜的。
11月15日,也就是第二天,Graham Neubig就收到 Pangram首席执行官Max Spero的回复,该公司开发了检测AI生成文本的工具。
这个实验室的业务之一,正好是开发检测AI生成文本的工具。
Pangram扫描了所有提交给ICLR 2026会议的19490篇研究和75800份同行评审。
结论简单粗暴:
在75800条评审中,15899条高度疑似完全由AI生成,占比21%。
超过一半含有使用AI的迹象。
大量论文正文中也检测出AI参与的痕迹,有的论文甚至大半字数都是AI的产出。
哈哈哈,这是不是一种人工智能死亡陷阱啊?
在一个重要的全球性的AI国际会议上,
有相当数量的投稿稿件是由AI生成的,而21%的稿件评审意见是由AI生成的额。

在分析检测评审内容时,Pangram使用了新模型EditLens。
这个模型除了判断评审内容是否为AI生成外,还尝试判断AI在其中的参与程度,它将AI参与度分为五个级别:
完全人工撰写、AI润色、中等程度AI编辑/辅助、AI重度参与、完全由AI生成。
其实,ICLR对论文和评审中使用AI/禁止使用AI有非常清晰和详细的规定。
论文作者可以用AI帮自己撰写论文,或者配合自己做研究,但必须声明自己使用了AI,并对论文的科学性和诚信负责。
其实,这个事件让Pangram声名大振。
从其官网上,我们还可以看到一些第三方的对AI检测可靠性的评估报告。
芝加哥大学贝克尔·弗里德曼经济研究所(The Becker Friedman Institute for Economics)的研究人员Brian Jabarian 和 Alex Imas 比较了四种人工智能检测器:Pangram、GPTZero、Originality AI 和 RoBERTa(一款开源人工智能检测器)。
该研究使用每种检测器分析了 1992 篇 2020 年前撰写的人类文本和 1992 篇不同类型和字数的 AI 生成文本。
他们考察了 AI 检测中的两种错误:误报率 (FPR) 和漏报率 (FNR)。 2025 年 8 月,Brian Jabarian 和 Alex Imas 发表了题为《人工书写与自动检测》(Artificial Writing and Automated Detection)的研究报告。
报告指出,Pangram在中长文本中几乎实现零误判、零漏判。
OriginalityAI和GPTZero表现位列第二梯队——在长文本中仍具可靠性(误识率维持在0.01以下),但在短样本和“人性化伪装”文本中准确率显著下降。
而基于开源RoBERTa模型的检测器则表现最差,将30% 至69% 的人类文本误判为AI 生成,几乎不具备实际可用性。

前几天,12月11日,Pangram实验室推出了Pangram 3.0。
Pangram 3.0 是他们最新的检测模型。
它可以将文本分类为以下几类: 完全由人类撰写、轻度人工智能辅助、适度人工智能辅助、完全由人工智能生成。
与 Pangram 2.0 类似,该检测算法会将较长的文档分割成多个片段,并根据文档上下文对每个片段进行分类。
这意味着,如果文档的前半部分是人工撰写的,后半部分是 AI 辅助完成的,Pangram 就能识别出来。
在许多领域,尤其是在教育领域,AI文本检测仅限于二元判断:是否存在AI内容?
Pangram联合创始人兼首席执行官Max Spero解释道:
“Pangram 3.0是首款能够显示文本中哪些部分由AI生成、哪些部分完全由人类撰写,以及文本与AI共同创作的中间地带的检测器。”
“现在我们可以更深入地了解情况,并描绘出真实的过程。这对我们的系统以及人工智能透明度领域来说都是向前迈出的重要一步。”