上能考托福、下能玩梗图的 GPT-4 发布,还有哪些新内容?
图片来源@视觉中国
文 | 电厂,记者 | 张勇毅,编辑 | 高宇雷
文 | 电厂,记者 | 张勇毅,编辑 | 高宇雷
当地时间 2023 年 3 月 14 日,北京时间 3 月 15 日凌晨,OpenAI 发布了新一代大模型 GPT-4。
大模型就是在 ChatGPT 背后最重要的存在,大模型的性能,直接决定了表现在外、显现给用户答案的聪慧程度,因此本次 GPT-4 的发布在数周之前就已经是让人津津乐道的话题。
如今,这个能再一次掀起 AI 浪潮的重磅炸弹终于落地,同时带着三个方向的新改良,试图进一步加固 OpenAI 在这一领域的统治地位。
长内容识别
首先是 GPT-4 的长内容识别能力:更新迭代之后的 GPT-4 能快速理解最高 2.5万字输进内容,同时并整合总结。同时在内容推理能力方面,GPT-4 也远强于 ChatGPT:在你发送一篇长文或是财报给 GPT-4 后,它不仅能更快的生成梗概总结,同时还能以更加精炼的语言,帮你「挠重点」,简直是学生党复习以及分析师看财报的利器。
展开全文
之前网络上热衷于让 ChatGPT 参与的各种人类考试,现在 OpenAI 也亲自下场,带着 GPT-4 来到了做题家们的主场挑战:按照 OpenAI 公布的结果,让 GPT-4 与 ChatGPT 同时参与律师资格考试,前者能拿到前 90% 的成果,而后者虽然能通过测试,但也只能拿到倒数 10% 的排名。 假如参与的是生物奥林匹克竞赛,两者的差距还能被进一步拉大。同理,参与人类类似托福、LSAT、GRE 等语言考试也能得到类似的结果。
图像识别
本次 OpenAI 公布另一个 GPT-4 升级重点是加进了对输进图像内容的支持:GPT-4 能自行理解输进图像的内容以及寓意,同时给出正确的回复。比如给衣柜拍张照片,然后要求 GPT-4 生成一份旅行衣物单。或者把你预备好的食材放在桌子上,拍照发给 GPT-4,问问它这些素材能做出什么食物。
GPT-4 能自动识别图中的食材究竟是什么,并自动依据这些内容给出适当的组合答案。
在官方演示中,GPT-4 甚至还能帮你翻译梗图其中的意思:或许下次你在上网冲浪时,假如网友再给你发一些看不懂的梗图,可以先拿来问问 GPT-4。
但最能展现 GPT-4 图像识别性能的桥段,可能还是发布视频中演示的场景:主持人在笔记本上画出了一个网页的草稿,然后用手机拍下来,发送给 GPT-4,要求其生成这个网页的代码。
紧接着,一个网页的代码就出现在 GPT-4 的回复中:这是一个可以直接完全运行的网页代码,这一过程仅用了不到两分钟,生成网站代码更是只用了不到十秒钟。
这场演示,不仅让人看到 GPT-4 在代码生成方面的浩大潜力,更会让人不由得产生一种「人的沟通才是挈慢 GPT-4 运行效率的原因」的感觉。
更安全,更可靠
之前在 ChatGPT 中,一个饱受诟病的问题是它经常会「不懂装懂」:在涉及到事实性的提问对话中,ChatGPT 有时会一本正经地给出完全错误的答案。更严重的问题是 ChatGPT 经常还能「引经据典」地佐证自己完全错误的结论,甚至回答缜密到能把很多专业作者误导。这一现象毫无疑问加剧了很多用户对于 AI 大模型的不信赖。
到了 GPT-4 发布时,OpenAI 将回答内容的事实核查作为了本次升级的重点,同时宣称 ChatGPT 4 更安全,也更加可靠:
换言之,GPT-4 在回复内容的事实核查以及有害内容的阻断上做出了明显的改良。OpenAI 也公开承认这要得益于过往 ChatGPT 海量的用户数据给大模型优化带来的助力,用越来越多的数据来创建更加强大的语言模型。但 OpenAI 仍然在公告中强调:「我们正在与第三方研究团队协作,对错误答案的潜在影响作出评估」。
以及最重要的是 GPT-4 也与之前发布的 ChatGPT 3.5 相同的问题:GPT-4 储存的数据截止至 2021 年 9 月,与之前的 GPT 3.5 相同。这仍会在一定程度上限制 GPT-4 的使用场景:比如上面提到的「阐明梗图」功能,假如 GPT-4 本身不能跟上当前热点的话,或许也很难正确把握其中的精髓所在。
使用
虽然今天是 OpenAI 的正式发布日,但在此之前作为大股东的微软已经按耐不住很久了:不仅微软德国 CTO 在一周前「说漏嘴」表达 GPT-4 即将发布,今天 GPT-4 终于正式发布后,微软也迫不及待地公布 New Bing 早已经用上了 GPT-4:并表达「假如你在过往五周内用过(New Bing),那么你其实已经体验过 GPT-4 的早期版本了」。
不过很多用户之所以在 New Bing 的使用中没有感受到和 ChatGPT 明显的区别,OpenAI 阐明的原因「对话复杂度不够」,换言之就是日常闲聊提问并不能快速区分出 GPT-4 与 GPT-3.5 的区别,只有当问题足够复杂、需要同时处理的信息足够多时,GPT-4 能更好地区分细枝末节的优势才能体现出来。
除了早早就「走关系」用上 GPT-4 的 Bing,其他与 OpenAI 有协作关系的、首批使用的使用服务与机构也在今天被一并公开:例如语言学习服务多邻国于今天公布推出整合 GPT-4 能力的 Duolingo Max 服务,在现有的付费订阅功能基础之上还提供问题解答以及错误阐明功能。
为视障人士提供服务的公司 Be My Eyes,也公布将使用 GPT-4,来改变现有的视觉辅助识别服务:他们开始在使用程序中加进基于 GPT-4 开发而来的视觉驱动模块,测试结果「能产生与人类志愿者相同水平的理解内容」。
按照 OpenAI 的说法,从往年 11 月延续至今的 ChatGPT 全球爆火,他们也「完全没有预料到」。
他们或许更加没有预料到,伴随着 ChatGPT 爆火而来的,是席卷全球的一次 AI 产业革命。今天 GPT-4 的发布无疑是在这堆火焰之上添加了新的燃料。
目前,订阅 ChatGPT Plus 的用户已经能先期体验到 GPT-4,几乎没有人会怀疑之后 ChatGPT 的迭代速度会越来越快。