造霸抖音，干掉谷歌搜刮？AIGC在2022晋升「顶流」

misa2 04-16 4次浏览 0条评论

2022年能够说是AIGC飞速增长的一年，从AI绘图到岁暮的ChatGPT，那些趋向将给将来的互联网与科技行业带来如何的改变？本文总结了2022年AIGC掀起的几大趋向，好比AI绘画、AI生成视频等，同时对AIGC将来的开展提出了前瞻性的观点，期看对存眷AI产物的你有所搀扶帮助。

就在本月，WSJ 引述知恋人士称，做为 2022 年爆红的聊天机器人 ChatGPT 背后的公司，OpenAI 正在会谈以收买要约的形式出卖现有股份，那起交易对 OpenAI 的估值到达 290 亿美圆摆布。在 2021 年的一场交易中，OpenAI 的估值还只是在 140 亿美圆摆布。

估值高涨的背后不但是因为 ChatGPT，OpenAI 旗下另一个 AI 生成图像模子——DALL-E 2 同样展示了生成式 AI 的才能能够有多高。2022 年，从 Stable Diffusion 以开源形式引爆 AI 创做，到 GPTChat 一周内就打破了百万级用户注册，全球呈现了无数生成式 AI 的产物和创业公司，文本、图像甚至视频，掀起了浩荡的 AIGC（人工智能生成内容）海潮。

AI 绘画，图/抖音

基于 Stable Diffusion 开源模子，字节也推出 2022 抖音年度爆款「AI 绘画」，统计展现有 2758.3 万人利用过那款特效。

抖音和快手都看到了 AIGC 手艺在图像利用上的浩荡价值，快手对 AIGC 的规划也证明了那一点。快手在 11 月结合百度 AI 数字人希加加、度晓晓等发布短视频，停止 24 小时 AI 曲播，还通过 AIGC 手艺停止做画、写诗、写歌词等。

6 月，一位谷歌高级软件工程师以至声称，谷歌开发的对话式 AI LaMDA「有意识、有灵魂」，但随后很快被谷歌承认。而在一个月前，谷歌刚刚在 2022 年 I/O 大会上公布了 LaMDA2，称其为谷歌有史以来更先进的对话式 AI，与岁尾红遍全球的 ChatGPT 有着不异的语言模子手艺和原生利用场景。

展开全文

12 月 16 日，出名学术期刊《科学》杂志公布了 2022 年十大科学打破，笔录一年里最严重的科学发现、停顿和趋向，此中一项就是「AI 具备创造力」。用我们更熟悉的词就是：AIGC，即基于 AI 才能的内容创做。当 AI 起头拥有大规模创造内容的才能，良多工作都可能被倾覆。

一、AI做画起头普通化

造霸抖音，干掉谷歌搜刮？AIGC在2022晋升「顶流」

图/OpenAI

2022 年 4 月，人工智能研究公司 OpenAI 发布了新版本的文本生成图像法式——DALL-E 2，随后一张由 DALL-E 2 生成的「宇航员在太空骑马」图片起头蹿红社交收集。比拟前代，DALL-E 2 生成图像有了更高的辨认率和更低的延迟，同样基于用户描述文本停止生成。

不外和之前 OpenAI 推出的产物一样，DALL-E 2 起头其实不对外开放，仅限部门研究人员注册利用该法式，不断到 9 月才公布向公家开放利用，每月仅限 15 个免费图像。

那也为下半年 Stable Diffusion 的爆火和时髦供给了时机。假设说上半年最火的「AI 画师」当属 DALL-E 2 和 Midjourney，8 月 22 日 Stable Diffusion 发布之后根本就成了「AI 画师」的代名词。

在目前的三大 AI 图像模子中，Stable Diffusion 降生得最晚，但因为开展优良的开源社区，它的用户存眷度和利用范畴都超越了 Midjourney 和 DALL-E。任何人都能够免费利用，任何公司也能够基于开源项目定造本身的 AI 生成图像法式。

「我们已经看到 3 岁到 90 岁的人第一次起头创做。」StabilityAI CEO Emad Mostaque 在一次摘访中说，该公司帮助了 Stable Diffusion 的开发。

在海外出名论坛 Reddit 的「StableDiffusion」板块下，天天都有用户分享通过 Stable Diffusion 生成新的图像做品。到如今「AI 画师」已经能够走进千家万户。用户能够在当地摆设，通俗消费级显卡就能称心硬件要求，也能够间接输进一串网址，间接输进描述文本起头创做，那是 2021 年 DALL-E 初代发布的时候不敢想的。

不只如斯，「AI 画师」呈现和时髦也在 2022 年挑战人类的美术和图片财产。9 月，全球更大图库盖蒂图片社（Getty Images）公布制止上传和销售利用 DALL-E、Midjourney 和 Stable Diffusion 等 AI 艺术东西生成的插图。盖蒂认为 AI 产生的图片并不是是一种人类创造性的艺术品。

造霸抖音，干掉谷歌搜刮？AIGC在2022晋升「顶流」

《太空歌剧院》，图/Jason Allen

同月，游戏公司 CEO 兼游戏设想师 Jason Allen 通过 Midjourney 生成的《太空歌剧院》，在美国科罗拉多州展览会举办的艺术展中一举夺得数字艺术组大奖。

但此次获奖也引起了普遍的争论，有人认为那对其他本身创做的人不公允，「那就跟为什么我们不让机器人参与奥运会的原因完全一样。」参与评审的艺术家杜兰（Cal Duran）以至表达，他在评分的时候底子没意识到那幅画由 AI 生成。

比拟之下，百度愈加务实，一起头就确定了本身「辅助」定位。8 月，百度基于本身的文心大模子也推出了AI 绘画平台「文心一格」，更明白定位为面向有设想需乞降创意的人群，基于文心大模子智能生成多样化AI创企图片，辅助创做者的创意设想。在手艺之外，AI 生成图像还在摸索若何处理版权等一系列问题。

二、用嘴做视频？还要再等等

做为 AI 大厂，Meta 和谷歌现实上没出缺席任何一个重要的 AI 手艺，在 AI 视频生成上更是独领风骚。Meta 在 9 月率先推出了 Make-A-Video，言简意赅地表达了它的感化：做视频。更详细地说，Make-A-Video 能够通过文本、图片或者视频来生成一个全新的视频内容，出格是文本间接生成视频，间接让视频创做的门槛大大降低，好比输进「机器人在时代广场跳舞」：

造霸抖音，干掉谷歌搜刮？AIGC在2022晋升「顶流」

图/Meta

仅仅一周后，Google 也发布了本身的 AI 视频扩散模子 Imagen Video。与 Make-A-Video 比拟，Imagen Video 最间接的感触感染就是清晰度更高——画面辨认率能够到达 1280×768，帧率也能到 24 fps 了。

不外，两者现实上都还存在画面不一般颤动、主体畸形、动做不敷顺畅等问题，并且与之前推出文本生成图像法式一样，谷歌和 Meta 都没有抉择对外开放，那也是为什么比拟 AI 画画的时髦，AI 生成视频范畴更多仍是处在看热闹的阶段——就像 2021 年的 AI 生成图像。

字节也看好 AI 视频模子的将来，在抖音内就撑持了「图文成片」功用，输进一段文字，软件智能婚配图片素材、添加字幕、旁白和音乐，主动生成视频。

从一些创做者的反应来看，目前「图文成片」的实现还很初级，智能婚配和生成视频两个环节都很难实正在视频消费环节中利用。

当下 AI 生成视频在手艺上显然还不敷成熟，但比来几年 AI 进化速度在肉眼可见地加快，很难想象本年 AI 视频模子又会发作什么样的量变。

不管 AI 视频模子能否能在本年再度量变，就如百度挪动生态负责人何豪杰在 9 月的 2022 百度万象大会上所说，「将来十年，AIGC 将倾覆现有内容消费形式，能够实现以非常之一的成本，以百倍千倍的消费速度，创造出有特殊价值和独立视角的内容。」

能够预期，AIGC 将是 UGC 用户生成内容呈现之后，又一个内容消费的大变化，最间接的利用就是大大降低视频造造的成本和门槛，那也意味着为视频内容在赐与侧的大发作供给了手艺根底。

那场万象大会上，百度就推出了基于文心 AI 大模子的「创做者 AI 助理团」，由 AI 案牍、AI 画师和 AI 视频造造人构成。

抱负形态下，借助「创做者 AI 助理团」，一小我就能够是一收视频团队。但显然，现实是 AI 视频生成还需要一些时间。

三、ChatGPT，属于AI的「初代iPhone」

12 月初，OpenAI 发布了 ChatGPT——一个对话式 AI，发布后很快就在小范畴内时髦起来，随后继续发酵并风行全网。从敲代码、写稿、写诗、选举到教你学英语、写小说，以至是一场类似人类之间的对谈，ChatGPT 都表示出了惊人的语言对话才能。ChatGPT 以至一度拉响了谷歌搜刮的红色警报。

造霸抖音，干掉谷歌搜刮？AIGC在2022晋升「顶流」

用 ChatGPT 修 bug，图/@amasad

与 OpenAI 之前发布的产物差别，ChatGPT 抉择面向公家大范畴公测，短短 5 天，其用户注册量就打破了百万级，那在互联网增长集体放缓的 2022 年几有些难以想象。

即使到了岁末岁首年月，良多用户仍然在利用 ChatGPT 做陈述、写年末总结等事务，可见其表示带来的用户粘性。

ChatGPT 之所以脱颖而出，普及认为很大水平上是因为它摘用了很天然的措辞停止对话，有网友评判其利用体验「就像通俗聊天」。而 ChatGPT 背后的核心之一是利用 GPT-3 的新版本 GPT-3.5 来停止对话，该版本拥有 1750 亿个模子参数。

事实上，从 GPT-3 引发全球范畴 AI 大模子的军备竞赛起头，那件事必然水平上就是巨头之间的比拼。谷歌在 2021 年推出了万亿级参数的 AI 大模子——Switch Transformer，微软和英伟达烧坏了 4480 块 GPU 后，才开发出 5300 亿参数的天然语言生成模子 MT-NLG（威震天-图灵）。

根据媒体报导，GPT-3 操练的仅是硬件和电力成本就高达 1200 万美圆（约 7500 万人民币），GPT-3.5 应该只高很多。目前 ChatGPT 仍然是免费利用，但显然 OpenAI 不成能不断免费开放下往。另一个对话式 AI 的问题在于——自认为是。大量的用户对话已经证明，ChatGPT 的答复其实不可靠，但它又经常以令人心服的体例「乱说八道」。

OpenAI 也认可，虽然 ChatGPT 生成的答复从语气上已经十分迫近实人，但有时仍会给出完全错误的谜底。那不是在承认 ChatGPT 带来的冷艳。

Box CEO 亚伦·莱维认为:

「当一种新手艺已经到了改动你对计算机的观点时，你会有一种特定的觉得。谷歌做到了，火狐做到了，AWS（亚马逊）做到了，iPhone 做到了，OpenAI 正在通过 ChatGPT 做到那一点。」

过往十年，能够说互联网和智妙手机彻底改动了内容的分发和消费环节，但在内容消费范畴素质上没有过多的改变。而在过往一年，AIGC 已经带来了太多的改变，Stable Diffusion、Imagen Video 和 ChatGPT 别离对应了最次要的内容形式——图像、视频和文本。

当然，AIGC 还在面临良多挑战，包罗版权、生成量量不不变、创做主体争论等，以至 AI 生成视频还没有颠末群众利用验证。但现现在 AIGC 起头「飞进通俗苍生家」，已经具备了成为一项普通化手艺的根底，将来很可能极大地进步内容的消费效率和丰富度。

从《太空歌剧院》获得艺术大奖到今天，AI 的争论仍然没有停行，但就如 Jason Allen 为本身的事务所做的总结：AI 做画法式已经降生，人们能做的只要认可并承受那件事。

做者：雷科技互联网组；编纂：冬日果酱

来源公家号：雷科技（ID：leitech），聚焦科技与生活。

本文由人人都是产物司理协做媒体 @雷科技受权发布。未经答应，制止转载。

题图来自 Unsplash ，基于CC0协议。

谷歌语音搜索