大型语言模型知道自己知道吗?

ChatGPT 确实有一些局限性,包括难以理解问题的特定措辞、回答质量不佳以及猜测模棱两可的问题而不是要求澄清。

这些局限性导致一些批评者争辩说,像 ChatGPT 这样的工具只擅长将单词按照从 AI 的角度来看有意义的顺序排列,但它们无法理解含义或知道它所做的陈述是否正确。

这就是为什么“即时工程”在用户的 AI 世界中成为一种更重要和更实用的技能的原因之一。

ChatGPT能否消化它所训练的数据,并从中萃取知识来回答复杂问题?

例如哲学、逻辑、具有悠久历史的论证等。

它能否提出论点,并将其与提出这些论点的人联系起来?

它能否指出论点中的缺陷和瑕疵,以及如何指出?

它是自己发现对话中存在的缺陷和瑕疵,还是在其他用户的论证和对话过程中发现缺陷?

它是否也能指出反面论证中的缺陷。

一句话,在过去三个月来滔滔不绝的大型语言模型,是否知道自己在说什么?

Anthropic是一家由 OpenAI 前员工共同创立的 AI 初创公司,Google 投资了3亿美金,这家公司的机器人就是 Claude。

Anthropic 已悄然开始测试一款新的类似于 ChatGPT 的 AI 助手,Claude。

据说, Claude是目前唯一的效果接近GPT 的智能对话机器人。

去年年底,看到 Anthropic的团队,Saurav Kadavath,Tom Conerly,Amanda Askell 等人(2022)在一篇题为《语言模型(大部分)知道他们知道》(Language Models (Mostly) Know What They Know)的文章中,研究了语言模型是否可以评估他们自己主张的有效性,并预测他们自己是否能够正确回答那些问题。

他们的研究首先表明,当以正确的格式提供时,较大的模型可以很好地校准各种多项选择和对/错问题。因此,他们可以通过让模型首先提出答案,然后评估其答案正确的概率“P(True)”来对开放式抽样任务进行自我评估。

Saurav Kadavath等人发现, P(True) 在各种任务上的性能、校准和缩放令人鼓舞。当他们允许模型在预测一种特定可能性的有效性之前,就开始考虑他们自己的许多样本时,其自我评估的表现会进一步提高。

接下来,Saurav Kadavath等人研究是否可以训练模型来预测“P(IK)”,“我知道”问题答案的概率,而不参考任何特定的建议答案。

模型在预测 P(IK) 和跨任务部分泛化方面表现良好,尽管它们在新任务上难以校准 P(IK)。预测的 P(IK) 概率也会在上下文中存在相关源材料以及存在解决数学单词问题的提示时适当增加。

Saurav Kadavath等人希望这些观察为训练更诚实的模型奠定基础,并研究诚实如何推广到模型训练目标而非模仿人类写作的情况。

他们的这个研究结果,似乎证明,大型语言模型(LLM)知道自己知道什么。

如果我们把 “知道自己知道”,称之为“自我意识”,那就证明在这一点上,大型语言模型是有意识的,是智能的,至少是类似人类智能的。

这是真的吗?您认为大型语言模型真的知道自己知道什么吗?

欢迎您跟帖分享您的观点!

https://arxiv.org/pdf/2207.05221.pdf

在妇女节来临之际致以我真诚的祝福,祝您青春常驻,快乐。