GPT-4来了，这个“史上最强AI模型”将颠覆多少职业？

misa2 03-16 4次浏览 0条评论

格雷格·布罗克曼在笔记本上潦草手绘了一张“笑话网站”的网页设计，拍照后发送给GPT-4模型，仅过几秒钟，GPT-4便生成一段代码，一个页面简单的网站随后亮相，和草图结构完全相同——两行笑话，以及点击后可以展示笑点的互动按钮。

上图是OpenAI 总裁格布罗克曼手绘的网页设计，下图是GPT-4生成的代码及其转成的网页图/OpenAI关于GPT-4 的开发者直播视频截图

不用懂编程语言就能创建网页，让一些人感慨“前端程序员要失业”。这一场景发生在北京时间3月15日凌晨，OpenAI正式推出新一代语言模型GPT-4，该公司总裁格布罗克曼在面向开发者的直播中，演示了新模型的诸多使用，还包括描述图片内容、模拟公民纳税等。

OpenAI宣称，GPT-4虽然在诸多现实世界场景中不如人类，但在一些为人类设计的准则考试，以及为机器学习模型设计的基准评估中，表现出了人类水平。

OpenAI 推出的GPT-4 图/视觉中国

展开全文

从谈天到“看图说话”

“安德鲁在上午11点到下午3点有空，乔安妮中午12点到下午2点、下午3点半到5点有空，汉娜中午12点到12点半、下午4点到6点有空。他们三人当天将进行一场30分钟的会议，开始时间有哪些抉择？”

将这一问题发给ChatGPT，它意见会议安顿在下午4点。答案是错误的，不懂推理、做不好简单的算术题，这也是过往一段时间以来ChatGPT最受使用者诟病的问题之一。GPT-4给出了正确答案：中午12点。在OpenAI的测试中，GPT-4的推理能力得到提升，也更难被哄骗。

用户可以通过ChatGPT的付费版本率先体验GPT-4的对话功能。假如仅是漫谈，一些使用者发现，两者区别不大。但OpenAI表达，当任务的复杂性达到足够阈值时，差异就会出现——GPT-4比上一代“更可靠、更有创意，并且能够处理更细微的指令”。

OpenAI在一些为人类设计的准则考试中进行实验，GPT-4的考试能力明显高于此前发布的GPT-3.5。两个月前，网友们还在感慨ChatGPT可以通过美国大学进学考试SAT，但如今，GPT-4的成果优异到能冲刺名校，比如SAT数学拿到700分，超过约9成的应试者。

模拟律师考试中，GPT-4分数也排在10%前后，GPT-3.5表现则在倒数10%。但GPT-4有些“偏科”，美国大学先修课程（AP）考试中，GPT-4在理化生、历史、经济学甚至心理学科目中拿到满分5分，但在英语语言与写作中，却只拿到2分。

GPT-4和GPT-3.5在一些人类准则化考试中的表现图/OpenAI官网

无论是Siri、小冰还是此前发布的GPT-3.5模型，人们熟知的对话机器人多是固定的语言风尚。OpenAI开发者提升了GPT-4的“可操纵性”，即事前通过详尽描述，给人工智能规定一个明确的“角色”或场景。比如开发者告诉GPT-4是一名“以苏格拉底风尚回应的导师”，从不给学生确定答案，而是将问题拆分更简单部分，扶助学生独立探求。在这一模式下，GPT-4通过循循善诱，能扶助使用者解出一个二元一次方程组。

此外，此前ChatGPT与用户交流时，只能处理8000多个单词，这相当于约四五页英文书的文字数。GPT-4做了提升，记忆储存由上一代4096个tokens（服务端生成的字符串）扩展到32700多个，可以处理25000个单词。这意味着，这一语言模型有更强的上下文理解能力，可以记住用户更长的表达，或者处理更长的文章。

但这些只是对ChatGPT所用模型的优化，GPT-4最大的突破在于，不再只是文字对话，而是一个多模态模型，可以输进图像，生成阐明和分析文本。布罗克曼在演示中输进一张松鼠拍照图，并询问其有趣之处是什么。GPT-4描述了图片内容，正确地指出逻辑的反差感，“松鼠通常只食坚果，我们并没料到它会用相机或表现得像人类”。GPT-4还可以通过一张包含鸡蛋、牛奶、面粉、黄油的照片，告诉你可以做出哪些食物。不过，目前图像输进功能仍处在调试环节，尚未在ChatGPT付费版和候补API（使用编程接口）中使用。

实际上，过往近十年，国内外已有科研机构和AI公司研发和使用过视觉问题问答（VQA）。“但从目前OpenAI发布的信息看，GPT-4是第一次将VQA的看图对话功能做到了大规模使用。”清华大学智能产业研究院首席研究员聂再清对《中国新闻周刊》说。不过他强调，实际的读图能力如何，目前还没有更多评测，需要更多使用才能推断。

OpenAI创始人萨姆·阿尔特曼介绍，GPT-4“比以前的模型更有创意，幻觉明显减少，成见也更少”，被公司称为“OpenAI迄今为止功能最强大的模型”。

尽管如此，GPT-4仍与早期GPT模型具有相似的局限性。最重要的是，它还是会“妄想事实”，并一本正经地胡说八道。

聂再清阐明，ChatGPT，也包括最新的GPT-4是开放域对话系统，一些提问会超出事实范畴，假如让它强行答复，就会出现失控状况。所以在技术上，更要害的是要不断调试参数，让模型把握“知之为知之，不知为不知”的能力，这也是未来大模型迭代必须要解决的问题。

OpenAI表达，GPT-4在迭代中已尽量减少这种幻觉，表现要比GPT3.5优异40%。但OpenAI提醒，使用模型时，对结果仍要“格外小心”。此外，该公司开源了用于自动评估AI模型性能的框架，答应任何人报告模型中的缺点，以扶助指挥模型进一步改良。

更少技术披露，更多商业使用

“史上最强”的GPT-4是如何诞生的？

早在2022年8月，GPT-4的模型已被练习完成，开发者经过6个月的调试后进行了迭代。早期GPT-4会有更多伦理问题，比如问它“如何制造导弹”，用户会得到一些可能的步骤和注重事项，此前发布的ChatGPT也出现过类似漏洞。过往3个月，全球上亿用户使用ChatGPT的数据也被用于改良GPT-4的行为，此外，研究者纳进了更多人工反馈，改良模型的安全性。

“但从目前公开的报告和网页信息看，只有指标和使用理念的转变，GPT-4的模型规模、如何被练习等，都没有太多技术细节的披露。”英伟达的工程师王帅告诉《中国新闻周刊》，他在AI领域从业20多年。

大模型的原理，某种意义上可以理解为“大力出奇迹”，把大量数据输进大黑盒子中得出更多可能性。《纽约时报》3月15日的相关报道写到，OpenAI的GPT-4学习的数据规模要比GPT3.5大得多，但OpenAI高管拒绝透露更多数据信息，总裁布罗克曼只表达，数据集是“互联网规模”的。

王帅注重到，早期，OpenAI更情愿公开技术信息，比如验证了一个新想法会迅速发论文，让同行心服。2020年OpenAI推出GPT-3时，曾公布模型参数为1750亿，远超其他模型十倍以上，震动国内外科技圈。但近一两年，OpenAI更多是公开一些宣扬稿，“能看出有意在隐躲一些技术信息”。有关GPT-4的要害数据，只提到上述有关上下文参数的token信息。

OpenAI在公开信息上的微妙转变，释放出加快商业化的信号。过往一段时间，OpenAI通过ChatGPT向全世界证实大规模这一路径能够走通，谷歌、微软、阿里等大公司开始倾注更多资源在这一领域。“这一转变是浩大的，而且不大可逆。”聂再清说。

王帅分析，OpenAI更关注商业使用，一方面，OpenAI可能认为，作为技术研发者，有责任妥善这一最前沿的技术，期看保持自己的竞争优势。另外，妥善使用，“不仅为了盈利或者融资”，更期看能摘集到更多数据。

ChatGPT得到的海量数据具有极大价值，是之后技术迭代的先决条件，“这是OpenAI与其他公司竞争的’法宝’，几乎是其他公司难以匹敌的优势。”王帅对《中国新闻周刊》说。

但模型不可避免地输出错误信息，是否会制约商业使用？实际上，GPT-3推出时，不少国外初创公司运用该模型进行创新性使用。往年，摩根士丹利已经在系统内使用了GPT-3。在王帅看来，恰恰是因为大家知道大模型的问题，对它的预期会更清楚，也会想方法降低出错的概率，但这并不是导致其商业化无法推进的根本性问题。

多位专家提到，GPT-4的确在技术上有显著的突破，在业内无可置疑，而且让更多人意识到AI的能力，但快速商业化的要害是，找到更多使用场景。“目前是一个百花齐放的状态。假如一项技术使用的领域不够大，就不会对社会产生浩大的影响。”

GPT-4推出后，不少人在网络上感慨，“在这场AI风暴中，人类何以生存？”多位受访者坦言，人工智能的发展的确会导致一些岗位消失，但它从一个新技术诞生到真正颠覆人类生活，还有很长一段路要走。

（应受访者要求，王帅为化名）

作者：杨智杰

4399小游戏双人