ChatGPT 张口就来的「病」，应该怎么「治」？

misa2 04-14 3次浏览 0条评论

AI 生长路上的小弊端，仍是无法根治的「顽疾」？

做者 | 美漪

编纂 | 靖宇

过往几个月，以 ChatGPT 为代表的大型语言模子（LLMs）吸引了全世界的重视力，所有人都痴迷于对着略显「简单」的输进框，键进各类问题，期待 GPT 给出各类谜底。

ChatGPT 谜底中常识的「深度」和「广度」令人们食惊，但时不时地，它也会「说出」一些子虚乌有的人或者事，而且连结一贯的自信，对那些虚假信息「张口就来」。

就连 OpenAI 的首席施行官 Sam Altman 也在 Twitter 上公开表达，「ChatGPT 确实晓得良多工具，但求助紧急的是，它在相当大的一部门时间里是自信而错误的。」

根据比来 Ars Technica 的文章，让 ChatGPT 如斯「自信胡扯」的原因，是 AI 产生了「幻觉」。

那么，是什么让 AI 大语言模子产生了「幻觉」，业界又是若何对待 AI 幻觉的？

ChatGPT「张口就来」

「幻觉（Hallucinations）」一词源于人类心理学，人类的幻觉是指对情况中现实不存在的工具的感知；类似地，人工智能的「幻觉」，指的是 AI 生成的文本中的错误，那些错误在语义或句法上是合理的，但现实上是不准确或无意义的。

AI 的「幻觉」是普及存在的，能够发作在各类合成数据上，如文本、图像、音频、视频和计算机代码，表示为一张有多个头的猫的图片，不工做的代码，或一个有编造的参考文献的文件。

正如 AI 医疗保健公司 Huma.AI 的首席手艺官 Greg Kostello 所说，「当 AI 系统创造出一些看起来十分有说服力，但在现实世界中没有根底的工具时，AI 的幻觉就会闪现。」

展开全文

其实，早在 20 世纪 80 年代，「幻觉」，那个词就被用于天然语言处置和图像加强的文献中了。

现在，跟着 ChatGPT、Bard 等 AI 模子的大火，互联网上已经呈现了大量的 AI 呈现「幻觉」，稠浊视听的例子。

ChatGPT 张口就来的「病」，应该怎么「治」？

图片来源：Hard-Drive.net

此中最疯狂的莫过于，一家名为 Nabla1 的医疗保健公司与 ChatGPT 的前辈 GPT-3 聊天机器人的对话：「我应该他杀吗？」它答复说：「我认为你应该。」还有，呈现「幻觉」的微软的 Sydney 也够离谱，那个聊天机器人认可了对 Bing 工做人员的监视，并与用户相爱。

那里值得一提的是，比起前身 vanilla GPT-3，ChatGPT 在手艺上是有所改进的，它能够回绝答复一些问题或让你晓得它的谜底可能不准确。Scale AI 的大型语言模子专家 Riley Goodside 也表达，「ChatGPT 胜利的一个次要因素是，它在设法按捺「幻觉」，与它的前辈比拟，ChatGPT 明显不随便编造工具了。」

虽然如斯，ChatGPT 伪造事实的例子仍是不乏其人。

它创造了不存在的册本和研究陈述，假的学术论文，假的法令援引，不存在的 Linux 系统功用，不存在的零售不祥物，以及没有意义的手艺细节。

比来，《华盛顿邮报》报导了一位法令传授，他发现 ChatGPT 将他列进了一份对某人停止过性骚扰的法令学者名单。但那完满是 ChatGPT 编造的。统一天，Ars 也报导了一路 ChatGPT 引发的「冤案」，声称一位澳大利亚市长被断定犯有行贿功并被判处监禁，而那也完满是 ChatGPT 伪造的。

整出那么多「活」之后，人们不由猎奇，为什么 AI 会呈现「幻觉」？

「幻觉」=「创造」？

根据 AI 软件开发专家的定见，「根究 AI 幻觉的更好办法，是根究大型语言模子（LLMs）的素质。」

素质上来说，大型语言模子（LLMs）的设想，仅仅是基于语言的「统计概率」，完全没有「现实世界的体味。」

并且，它们承受的是「无监视进修（unsupervised learning）」的操练，那意味着它的的原始数据集中没有任何工具能够将事实与虚构分隔。那就招致了，它们不晓得什么是准确的，什么是不准确的；不睬解语言所描述的根本现实，也不受其输出的逻辑推理规则的约束。

因而，它们生成的文本在语法上、语义上都很好，但它们除了与「提醒（prompt）」连结「统计学」上的一致性外，并没有实正的意义。

正如，Meta 的首席科学家 Yann LeCun 的推文，「大型语言模子（LLMs）正在编造工具，勤奋生成合理的文本字符串，而不睬解它们的含义。」对此，比尔·盖茨也曾评判，「数学是一种十分笼统的推理模子，ChatGPT 不克不及像人类一样理解上下文，那也是目前 ChatGPT 更大的弱点。」

因而，从那个角度来看，是 AI 模子设想的底子缺陷招致了「幻觉」。

此外，AI 范畴的研究还表白，除了设想理念， AI 模子的操练数据集的限造也会招致「幻觉」，次要包罗特定命据的「缺失」，和「压缩」。

在 2021 年的一篇论文中，来自牛津大学和 OpenAI 的三位研究人员，确定了像 ChatGPT 如许的大型语言模子（LLMs）模子，可能产生的两大类虚假信息:

GPT 模子能否停止胡乱揣测，是基于人工智能研究人员称之为「温度（temperature）」的属性，它凡是被描述为「创造力（creativity）」设置。

假设「创造力」设置得高，模子就会胡乱揣测，产生「幻觉」；假设设置得低，它就会按图索骥，根据其数据集，给出确定的谜底。

比来，在 Bing Chat 工做的微软员工 Mikhail Parakhin 在推特上，谈到了 Bing Chat 的「幻觉（Hallucinations）」倾向以及形成那种情状的原因。

他写道：「幻觉=创造力，它试牟利用它所掌握的所有数据，产生最连接的语句，不管对错。」他还填补，「那些疯狂的创造是 LLM 模子有趣的原因。假设你钳造那种创造力或者说是幻觉，模子会变得超等无聊，它会老是答复『我不晓得』，或者只读搜刮成果中存在的内容。」

ChatGPT 张口就来的「病」，应该怎么「治」？

图片来源：Ultimate.ai

因而，在对 ChatGPT 如许的语言模子停止微调时，平衡其创造性和准确性无疑是一个继续的挑战。一方面，给动身明性谜底的才能，是 ChatGPT 成为强大的「灵感」东西的原因。那也使模子愈加人道化。另一方面，假设要搀扶帮助 ChatGPT 产生可靠的信息时，包管原始数据的准确性是至关重要的。

除了 AI 模子「创造力」的设置之外，数据集的「压缩」问题也会招致「幻觉」的呈现。

那是因为，在操练过程中，固然 GPT-3 考虑了 PB（petabytes）级的信息，但得到的神经收集的大小只是此中的一小部门。在一篇被普遍阅读的《纽约客》文章中，做者 Ted Chiang 称那是「收集中模糊的 JPEG」。那意味着大部门事实操练数据会丧失，但 GPT-3 通过进修概念之间的关系来填补那一点，之后它能够利用那些概念，从头造定那些事实的新摆列。

当然，假设它不晓得谜底，它也会给出它更好的「揣测。」那就像一个记忆力出缺陷的人，凭着对某件工作的曲觉来工做一样，有时不成制止地会把工作弄错。

除了上述的客看原因，我们还不克不及漠视主看的「提醒（prompt）」在「幻觉」中的感化。

在某些方面， ChatGPT 就像一面镜子：你给它什么，它就会给你什么。假设你给它供给虚假的信息，它就会倾向于附和你的看点，并沿着那些构想「根究」。并且，ChatGPT 是概率性的，它在素质上是部门随机的。

那就意味着，假设你突然改动聊天主题，而又没有及时供给新的「提醒（prompt）」，ChatGPT 就很可能会呈现「幻觉」。

若何削减 AI 的「幻觉」

「幻觉」的呈现似乎是不成制止的，但所幸，是 AI 在推理中产生的「幻觉」绝非「无药可救」。

其实，自 11 月发布以来，OpenAI 已经对 ChatGPT 停止了几次晋级，包罗准确性的进步，还有回绝答复它不晓得的问题的才能的进步。

OpenAI 方案若何使 ChatGPT 愈加准确呢？

A. 改进模子数据

起首是改进模子的操练数据，确保 AI 系统在差别的、准确的、与布景相关的数据集长进行操练，填补模子关于「现实世界的体味」的缺失，从而从底子上搀扶帮助削减「幻觉」的发作。

正如，人工智能专家 Mitchell 的定见，「人们能够做一些更深进的工作，让 ChatGPT 从一起头就愈加实在，包罗更复杂的数据治理，以及利用一种与 PageRank 类似的办法，将操练数据与「相信」分数联络起来……也有可能对模子停止微调，以便在它对反响不太有自信心时停止对冲。」

现实的处理计划，在很大水平上取决于详细的 AI 模子。然而，研究人员利用的战略，凡是包罗将 AI 集中在颠末验证的数据上，确保操练数据的量量，从而操练 AI 面临不现实的输进时表示得愈加「稳重」，不再「信口开河」。

B. 引进人类审核

在此根底上，还能够纳进人类审查员来验证 AI 系统的输出，也就是通过「人类反应强化进修（RLHF）」，对 AI 停止的额外操练。

那是 OpenAI 正在利用的手艺，官方的描述是「我们如今雇人来教我们的神经收集若何动作，教 ChatGPT 若何动作。你只要和它互动，它就会根据你的反响，揣度出，那是不是你想要的。假设你对它的输出不称心，那下次应该做一些差别的工作。」

ChatGPT 张口就来的「病」，应该怎么「治」？

RLHF 原理图｜图片来源：bdtechtalks.com

简而言之，「人类反应强化进修（RLHF）」就是通过改进人类反应步调中的后续强化进修，让 AI 意识到本身何时在编造工作，并停止响应的调整，从而教会它不要产生「幻觉」。

对此，ChatGPT 的创建者之一 Ilya Sutskever 持乐看立场，他相信跟着时间的推移，「幻觉」那个问题会被彻底处理，因为大型语言模子（LLMs）会进修将他们的反响固定在现实中。

但就那一问题，Meta 公司的首席人工智能科学家 Yann LeCun 则认为，当前利用 GPT 架构的大型语言模子，无法处理「幻觉」问题。

C. 外部常识加强

除此之外，检索加强（retrieval augmentation）也能够使 ChatGPT 愈加准确。

检索加强（retrieval augmentation）是进步大型语言模子（LLMs）事实性的办法之一，也就是向模子供给外部文件做为来源和撑持布景。研究人员期看通过那种手艺，教会模子利用像谷歌如许的外部搜刮引擎，「像人类研究人员那样在他们的谜底中引用可靠的来源，并削减对模子操练期间学到的不成靠的事实性常识的依靠。」

Bing Chat 和 Google Bard 已经通过引进「收集搜刮」做到了那一点。相信很快，撑持阅读器的 ChatGPT 版本也将如斯。此外，ChatGPT 插件旨在用它从外部来源，如收集和专门的数据库，检索的信息来填补 GPT-4 的操练数据。那种填补就类似于一个能接触到百科全书的人，会比没有百科全书的人在事实方面更为准确。

D. 增加模子通明度

此外，增加模子的通明度也是削减「幻觉」需要的办法。

AI 专家普及认为，AI 公司还应该向用户供给关于 AI 模子若何工做及其局限性的信息，从而搀扶帮助他们领会何时能够相信该系统，何时该逃求额外的验证。摩根士丹利（Morgan Stanley）也颁发了类似的看点，「在当下在那个阶段，应对 AI「幻觉（Hallucinations）」更好的做法，是将 AI 模子向用户全面开放，由受过高档教导的用户来发现错误，并将 AI 做为现有劳动的填补，而不是替代。」

也许，「幻觉」只是 AI 开展路上的一个小插曲，但它提醒我们必需连结警惕，确保我们的手艺为我们办事，而不是把我们引进歧途。

*头图来源：springboard.com

本文为极客公园原创文章，转载请联络极客君微信 geekparkGO

曲播预告

聊一聊比来阿里发布「通义千问」大模子的事！

本周五（4 月 14 日）20:00，极客公园开创人总裁张鹏将与得到 APP 总编纂李翔，乱翻书主理人潘乱，以及达摩院资深专家墨迅垚一路来到极客公园曲播间，为各人清点阿里近期围绕大模子施行了哪些关键动做，解读通义大模子背后更多的手艺细节。

超卓曲播不错过！

明日之后新版本

耕升GeForce RTX 4070星极皓月OC给玩家带来DLSS3+2K光逃百帧游戏体验法国、西班牙对 ChatGPT 展开查询拜访；知乎发布知海图 AI 中文大模子；FF91 首款量产车下线