GPT-4 震动发布,能读图,考高分,练习更高效
来源:极客公园
该来的终于到来了。
美国当地时间 3 月 14 日,大热的 OpenAI 正式推出其最新作品 GPT-4。通过 ChatGPT 再次点燃整个科技圈的想象力之后,GPT-4 毫无疑问成为整个行业关注的焦点。
在 OpenAI 官方网站中,这一代的大模型 GPT-4 相较于前一代产品,最大的进化在于「多模态」和长内容生成。
此前的 ChatGPT,用户只能输进文字,而 GPT-4 现在已经可以识别图片内容,并给出答案,甚至能识别一些网络上常见「梗图」,并告诉用户「笑点」到底是什么。在输出方面,GPT-4 最多可以输出 25000 个单词,相比 ChatGPT 有大幅提升。
同时,相比上一代产品,GPT-4 给出答案的错误更少,涉及到伦理和敏锐问题时,回答也更「安全」。
GPT-4 能像「哥哥」ChatGPT 一样再次席卷科技圈吗?它对接下来 AI 行业的走向,又会产生怎样的影响?
01
多了一双「眼」,更智能
依据 OpenAI 介绍,相较于 ChatGPT,GPT-4 有三个方面的主要提升。
1 读图能力
对话时可以直接用图片提问,它能够在读懂图片内容的基础上,给出有逻辑的回答。比如,你可以给它一张牛奶、鸡蛋、面粉的图片,问他「这些材可以用来做什么?」它会给出一系列选项:
煎饼或华夫饼
法式薄饼、法式吐司
煎蛋或煎蛋饼
乳蛋饼
蛋奶或布丁
蛋糕或纸杯蛋糕
松饼或面包
饼干或饼干
展开全文
图片来源|OpenAI
当种读图能力和写代码能力相结合,就像有了魔法,在发布会上,Open AI 展示了如何让 GPT-4 帮你制造网页:
只要输进在笔记本上画出草图,拍照,对他说:用简短的 HTML/JS 将这个草图变成彩色的网站,能够几秒钟之内,一个完全的网页就可以出现。
目前 Open AI 还没有将 GPT-4 中的图像识别能力开放,为了更好地优化图像输进功能,OpenAI 正在与 BeMyEyes 亲昵协作。这是一家在丹麦的公司它们在做的事情是用软件让视障人群与志愿者远程互动,后者做前者的眼睛,扶助他们完成生活任务。
接进了最新的图像识别能力之后,视障人群就像有了一个「更聪明的摄像头」,也被称为「虚拟志愿者」,之前的算法不能基于视觉信息做逻辑推理——这也是 GPT-4 与之前的视觉算法最大的区别。公司的 CTO Jesper Hvirring Henriksen 阐明,新的功能「不仅在于交谈的能力,还在于该技术提供的分析能力」,基本的图像识别使用程序只能告诉人们眼前发生了什么,现在算法能够推断地面上出现的事物「是否不仅仅是一个球,而是一个绊倒的危急,然后进行交流。」
2 答案更可靠
在更涉及到逻辑的更复杂任务上,能够给出更可靠、也更有发明性的答案。
Open AI 让 GPT-4 参与了一系列考试,GPT-4 的表现均有所提升,有的甚至直接从 GPT-3.5 的差生变成了优等生。例如,在模拟律师资格考试上,它成果在前 10% 左右;而 GPT-3.5 的成果在后 10% 左右。满分为 800 分的 SAT Math,它从 590 分提升到了 700 分。
「在随意的交谈中,GPT-3.5 和 GPT-4 之间的区别可能是微妙的。当任务的复杂性达到足够的阈值时,差异就会出现—— GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。」Open AI 表达。
3 内容更长更丰盛
此外,在单次问答的信息处理量上也有了提升。在对 GPT-4 提问的时候,一次性能够输进长达 25000 单词。之前,有编剧跟极客公园交流,试用 ChatGPT 的时候跟,只能把剧本拆开一段段给模型看,现在,这样的烦恼应该会大大减轻。
也就是可以让他直接帮你读文章。你还可以扔给他一个链接,让他直接做阅读理解。
比如,给它美国歌星雷哈娜的维基百科链接,问她,「描述一下她在超级碗上的表现,以及为什么这么特殊」
给出的回答是这样:
蕾哈娜在第七届超级碗中场秀上的表演很特殊,原因有很多。首先,这是她五年多来的第一次现场表演,也是她第一次在超级碗中场秀上亮相。此外,她还发明了历史,成为第一个在怀孕期间在超级碗表演的人。这场演出本身就广受好评,许多人赞扬她布满活力的表演和令人印象深刻的歌声。它也获得了大量的看众,成为历史上收视率第二高的中场秀。
4. 关于「胡编乱造」和「有害答案」
当然,目前大模型在「胡编乱造」上的问题,GPT-4 仍然有。不过 Open AI 表达,在对于「伪造事实」的内部测试上,GPT-4 的表现比 GPT-3.5 要高出 40%。GPT-4 的知识范畴也存在时间限制,截止于 2021 年 9 月。
在生成有害的想法上,Open AI 也强调了风险。「GPT-4 及其后续模式有可能以有益和有害的方式对社会产生重大影响。我们正在与外部研究人员协作,改良我们理解和评估潜在影响的方式,并对未来系统中可能出现的危急能力进行评估。」
由于在基于人类反馈的强化学习(RLHF)环节中,增加了一个额外的安全奖励信,这使得 GPT-4 目前的表现更加优异一些。此外,OpenAI 也聘请了 50 多名来自人工智能对齐风险(AI alignment risks)、网络安全、生物风险、信赖与安全以及国际安全等领域的专家,对模型进行对抗性测试。研究结果中给出了两个例子。
02
GPT-4 落地更快
对于 GPT-4 的表现,OpenAI 总结道:我们花了 6 个月的时间迭代调整 GPT-4,使用了来自 ChatGPT 的体会教训和我们的对抗性测试程序,在真实性、可控性(steerability)和拒绝超出护栏(refusing to go outside of guardrails)方面得到了我们有史以来最好的结果。
显然,OpenAI 的 GPT 大模型迭代速度变快了。GPT-4 距离上次 ChatGPT 的发布,不到 4 个月。这与其开放 ChatGPT 给个人用户和企业客户的举措有关,使机器基于人类反馈的强化学习(RLHF)更快,形成了数据飞轮的优势。
比 GPT-4 迭代更快的,是其落地使用的速度。
尽管 GPT-4 还没有全面开放 API 接口,但其实,OpenAI 大股东微软的 New Bing 已经用上 GPT-4 超过一个月。在 OpenAI 官宣 GPT-4 之后,微软在官方博客立刻公布了这一消息,甚至在 5 天前,微软德国 CTO Andress Braun 就作为全网独家信源替 OpenAI 放出了风声。
人们此前没有明显感觉到 New Bing 中搭载了 GPT-4 的原因可能在于 GPT-4 的进取是微妙的。OpenAI 阐述道,「在随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能很微妙,当任务的复杂性达到足够的阈值时,差异就会出现—— GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。」
微软的 Bing 搜索已经用上 GPT-4|微软
微软加持 OpenAI 大模型的迭代还体现在底层基础设施上。OpenAI 透露,在过往的两年里,与 Azure 一起为工作负载从头开始共同设计了一台超级计算机,重建了整个深度学习堆栈。
不仅如此,更多的使用也加进了 GPT-4 的早期使用阵营:
Stripe 公布使用 GPT-4 扫描商业网站并向客户支持人员提供摘要;
语言学习工具软件 Duolingo 将 GPT-4 构建到新的语言学习订阅中;
摩根士丹利正在创建一个由 GPT-4 驱动的系统,该系统将从公司文件中检索信息并将其提给予金融分析师;
可汗学院正在利用 GPT-4 构建某种自动化导师。
毫无疑问,OpenAI 的速度会越来越快。除了开放给客户使用获得数据飞轮,本次随着 GPT-4 的发布,OpenAI 还开源了 OpenAI Evals,这是其用于自动评估 AI 模型性能的框架,答应任何人报告其大模型中的缺点,以扶助指挥进一步改良。
对此,出门问问创始人李志飞将其评判为众包评测,将帮系统找茬的任务,众包给各位开发者和爱好者了,既让大家有参与感,又能让大家免费帮忙评估提高系统,一石二鸟。
03
加速的 AGI
2022 年 11 月 30 日,当 OpenAI 推出 ChatGPT 测试版的时候,也许不会料到,这款大语言模型加持下的对话机器人,会成为科技史上第一个最短时间用户破亿的产品,同时让全球科技从业者,再次因为 AI 的进展而兴奋起来。
而仅仅在 3 个月之后,OpenAI 就推出了下一代产品 GPT-4,其迭代非常具有「硅谷速度」了,从更新频率上也能看出,团队对于拿下大语言模型赛道的必胜之心。
虽然相对于上一代产品,GPT-4 的进化不算「革命性」的,但是各项指标上百分之几十的提升,依然会为已经很热的 AI 赛道,再添一把火。
同时,一边联手微软,让 ChatGPT 在全球最大商业软件 Office、以及基建 Azure 云上落地;一边通过开放 API 接口,接进更多商业协作伙伴,OpenAI 也成功将自己转型为类似云一样的平台型企业,生生闯出一条大模型的商业化之路,开了研究成果转商业的先河。
GPT 到底是不是通向人工智能的圣杯——通用人工智能的正确道路,现在还不好说。但可以肯定的是,GPT 的成功,已经让人们像当年互联网革命一样,想利用 AI「重新改造一切」。
GPT-4 的及时推出,给期看改造和变革的人们,又打了一针强心剂。
以下为出门问问创始人李志飞对于此次 GPT-4 的评判:
能力惊人:假如说 GPT3 系列模型给大家证实了 AI 能够在一个模型里做多个任务(也就是所谓通用),GPT-4 在很多任务上已经是人类水平(human-level),在很多专业和学术考试上超越 90% 的人类。各类中小学、大学和专业教诲该如何应对?
高效的炼丹:GPT-4 模型太大每次练习成本很高,但同时练习模型时很像炼丹需要做很多实验,假如这些实验都要在真实环境下跑一遍的话谁也承担不了。为此,OpenAI 搞了所谓的 predictable scaling,就是可以用万分之一的成本来推测各个实验的结果(loss 和 human eval ) 。这把大模型练习从碰运气的炼丹升级成了「半科学」的炼丹。
众包评测:这次提供了一个 open source 的 OpenAI evals,就是把系统性的帮系统找茬的任务众包给各位开发者和爱好者了,既让大家有参与感,又能让大家免费帮忙评估提高系统,一石二鸟。
工程补漏:这次还发布了一个 system card,可能意思是为了减轻一本正经的胡说八道问题,系统打了各种各样的补丁做预处理和后处理,后面还会开放代码把打补丁能力众包给大家。这标志着 LLM 终于从一个优雅简单的 next token prediction 任务进进了各种 messy 的工程 hack 了。
多模态:万众瞩目的多模态其实跟市场上很多论文描述的多模态能力没有太多区别,主要区别是把文本模型的 few-shot 和逻辑链(COT)结合进来了,这也是在一个基础能力很好的文本 LLM 加多模态的好处(其它多模态模型感觉 LLM 都太弱)。
有计划的出王炸:GPT4 模型往年 8 月就炼出来了,但今天才发布,阐明是花时间做了大量测试和各种查漏补缺。谷歌工程师傅估量又得熬夜跟了?
不再 Open:论文里完全不讲模型参数和数据规模、也不讲任何技术原理,阐明说是为了大家好,怕大家学会了怎么做 GPT4 用来作恶,个人完全不认同这种此地无银的做法。
众志成城:论文里花了三页把系统的各个部分的奉献人员都列出来了,估量有一百多人,再次体现 OpenAI 里团队成员众志成城、高度协作的状态。