沉迷AI画图三天后，我逐渐理解了一切

misa2 03-05 3次浏览 0条评论

2022年10月的第二个星期五，大约是五六点快下班的时候，我的一个微信群里突然开始聊起了AI画图的事情。

正当大家聊的兴起的时候，一个老哥不声不响地发了一段“平平无奇”的神异代码：

我当时正在兴头上，于是便立刻注册了NovelAI的用户，输进了他给的这段代码。

原图我就不放了，放了号就没了，我只能说：

画面很逼真，效果很哇塞。

实际上，2022年10月的第二个星期的的确确是属于AI绘画的——一个名为NovelAI的网站悄然上线。对于这个AI模型，真正有意思的是它的素材——NovelAI所使用的数据主要来自两处，一部分来自国外的闻名二次元网站Danbooru，另一部分则摘集自特殊渠道—站的成色十分清楚——都不是什么正经的地方。

TMD……这帮洋人程序员，果然是懂人性的。

展开全文

虽然NovelAI利用技术手段从这两个网站上扒数据进行学习的事情引起了不小的舆论风潮甚至法律纠纷，但毫无疑问的是，NovelAI成功了。

NovelAI大获成功之后，国内外的诸多游戏/科技媒体纷纷都在传递着一个消息：AI已经学会画涩图了。

本着“体验前沿科技成果，紧跟技术发展潮流”的精神，局长开始了为期三天的AI画图之旅。

三天后，我好了，除了精神有些萎靡。

但，我逐渐理解了一切。

我的AI绘画体验

我抉择体验的AI绘画平台是NovelAI。原因很简单，因为它的练习素材实在是“给了我一个无法拒绝的理由”。

唯一的不足就是需要花钱且有点贵——先交80块钱作为会员，它会送你1000个点券，然后还可以再花80块钱买10000个点券——每出一张图就要花至少5个点券，看样子倒是不贵，但若是想生成一个没有瑕疵、称心的作品，往往需要调整好几次。平均下来，最后生成一张足够称心的图可能需要几十上百个点券。

10000个点券虽然看上往还挺多，实际上一点也不经用。

对这种收费模式，我的朋友表达：NovelAI的这个生意做的好，让我们这些用户自掏腰包帮他们练习模型。我感觉她内涵我，但我没有证据。

正式进进之后，就可以开始操作了。

所谓的操作，其实就是输进妥当的Prompt（提示词）从而实现预期的效果。

莎士比亚说过“一千个看众眼里有一千个哈姆雷特”，在AI作图上也是如此，人们的恶趣味各有不同，所以prompt的内容也五花八门。但总而言之，prompt无非就是一些简单的描述，比如“黑长直的头发，戴眼镜，打湿的白衬衣，紧身牛仔裤”等等......

由于命令AI生成称心的图片往往需要极度详尽且冗长的prompt，因此网友们便将promt戏称为“咒语”，调整/输进prompt的过程则被称为“念咒”“施法”或“吟唱”。

一个AI绘图平台竟然能在这个灵气稀薄的末法时代里催生出满地的魔法师，霍格沃茨看了都得高唤内行。

除此之外，Prompt的内容还可以分成两类，一类是“你期看实现的效果”，被称为“Positive Prompt”（正咒），另一类则是“你不期看实现的效果”——Negative Prompt（反咒）——之所以会出现“反咒”，主要还是因为现阶段的AI模型开发得还不算齐备，一旦碰到需要精确表达且结构外形复杂的东西就会立刻挠瞎。用户们必须想尽方法来消除掉那些可能毁掉画面效果的瑕疵。

比如，当你需要你需要画面中的人物“用手撩着头发”的时候，AI就经常做出一些令人感到迷惘的东西。

不过，虽然这些离谱的bug暂时还没有被修正，但人们显然已经学会了用“反咒”或者其他方式“糊弄”过往——比如我就经常要求AI把人物的手隐躲起来，反正只要看不见就不能说有问题。

除了精致的人物之外，NovelAI在风景、场景上的表现也是可圈可点。这个画质虽然肯定比不过顶级的插画师的手艺，但用在一些对画面并不太讲究的地方还是没什么问题的。

相比之下，国内某大厂开发的AI模型就显得有点尴尬了。

在自然景物的显现上，国产AI模型表现出了极致的效果，抉择输出“写实主义”风尚的作品时，效果基本已经有了接近照片级的真实感，可以说是吊打NovelAI。

但一旦要求其绘制人物肖像，一种莫名其妙的诡异感觉便展示了出来。

不过这并不算什么大问题，NovelAI团队之前是做“AI续写小说”的，在模型搭建的过程中自然会对文学类语言以及影视、动漫形象有更深刻的理解，加上练习素材也大多来自动漫形象或特殊渠道，所以在人物表现力上自然会更强。

“AI作图”背后是什么？

如今，AI已经开始渗透到了各行各业——“人工智能”，这个起源于1956年的概念，在近70年的发展史中先后经历了两次起伏，最终在2006年深度学习算法突破后开始进进了新的一轮高潮——2017年以来，AI研究开始显现爆发趋势，“算力，算法，数据”成为了本轮AI大潮的主要动力。

以NovelAI为例，提供算力的各种硬件设备当然是最最基础的，联网版本的NovelAI就不多说了，单机版的NovelAI极度依靠于电脑显卡的性能——而GPU恰恰就是如今最主流的“算力引擎”之一——说实话，这几年显卡算是彻底火了，前几年是用显卡挖比特币，现在是用显卡画画。

除了算力，数据也是极为重要的。NovelAI的作品之所以有极为深厚的二次元和游戏CG风尚，正是因为其练习所使用的素材绝大多数都来自于D站和P站——当然，这也阐明了为什么NovelAI生成的图片总有点离谱。

最后则是算法——这可以说是AI的灵魂所在，也就是为什么能做到“从文字生成图像”。目前来看，最热门、最受欢迎的就是Diffusion model(扩散模型)，市面上绝大多数需要通过“吟唱”来绘画的AI平台用的都是这个。

Diffusion model的原理很有意思，简单来说就是不断地“加密”一张图片（添加噪点），直到这张图片变成彻底人鬼莫辨的模糊样子。然后，人们再让AI模型尝试着一步步地将其还原成为最初的样子。

要知道，当加密过程结束后，最后得到的东西是一张已经完全模糊的图片。而当AI模型能够从这样的一团混沌中解析出来正确的图片，也就意味着AI把握了“无中生有”的能力。

不过，假如只有diffusion model，那顶多也就是一个生成图像的工具，我们还不能随心所欲地“召唤”自己想要的画面——我们只需要一个东西将文字和Diffusion model连接起来，而目前，担任这个连接器的东西喊CLIP（Contrastive Language-Image Pre-training）——粗暴点说，它相当于是一个给AI看的“儿童识字图册”，让AI把文字和相关的图像对应起来。

因此，整个AI绘画过程可能是这样的：当我们输进了一大串Prompt“咒语”，CLIP就会产生一个相应的结果“A”（学名喊“表征”）。与此同时，diffusion model里也会随机生成一张图片，而CLIP也会给一个相应的结果“B”。然后，通过不断地计算A和B的相似程度，让A和B无限接近，最终就能够实现“A=B”，也就是让我们输进的描述和电脑生成的结果一模一样。

简单来说，当前AI的工作原理堪称是“大力出奇迹”——开发人员输进海量的数据，算法平台将依据这些数据来练习模型，最终形成AI技术工具。

整个AI产业链基本可以分为三段：基础层、技术层、使用层。

基础层是数据和算力，包括AI芯片、AI基础设施和数据以及服务；技术层则主要指的是基于基础层所开发的算法模型，模型会依据软件框架对数据进行学习，最终获得人工智能技术；使用层则是依据不同场景来运用这些人工智能技术。

在AI领域，中美两国基本上代表了全球最高水准。

AI基础设施领域，随着技术进取，AI算力的基石也发生了改变。在过往，x86服务器是主流，但现在AI芯片、GPU、FPGA、ASIC等芯片为核心的服务器成为了主力——浪潮、华为、曙光、新华三都是国内领先的AI基础设施给予商。

假如陆续深挖，我们会发现AI基础设施的底层其实还是芯片。

事实上，百度、华为、阿里、冷武纪等国内头部科技企业现在都在依托自身的技术和业务优势在布局AI芯片的研发：

华为的升腾910芯片是全球单芯片计算密度最大的芯片，冷武纪的思元370使用了最新的小芯片（也喊芯粒，chiplet）技术，功耗大幅度降低，算力也不差。

但需要注重的是，GPU/FPGA/ASIC这些是目前AI芯片行业的主流，GPU仍然是首选，而全世界最强的GPU厂商则是美国的英伟达。

再结合一下最近的新闻，啧啧，你看看，是不是一切都串联起来了。

我只能说：这棋局，大得很呐！

“AI作图”会消亡谁？

另外，只要谈到AI，有一个问题是绕不开的：AI会取代人类吗？

我无意于解答这个问题，在这里，我们先聊一件旧事：

大家都知道，2015年前后，正是中国互联网经济发展最快的时候。在北京的西二旗、杭州的滨江区、深圳的南山区，到处都是满怀创业热情的新兴互联网企业。

那几年，双十一购物节每一年的销售额都要在上一年的基础上进行一场大跳跃，而这一切的背后的原动力，则是中国互联网用户数量的暴涨。

用户在暴涨，意味着服务用户的种种也要暴涨——比如某个闻名电商平台页面上的海报。特别是当如今大数据和算法日益强势，首页上妥善的产品逐渐变得千人千面，做海报这件事开始变得越来越难——无数种商品，无数个用户，意味着这个电商平台必须要输出数以亿计的海报。

虽然这些海报很简单，无非就是“产品图+广告语+背景素材”的排列组合，但假如靠人来进行操作，且不说设计师们会不会被累到猝死，光是付给设计师团队的工资就是一笔浩大的成本。

于是，AI登场了——这家企业退出了一个名喊“鲁班”的AI设计师，一秒钟可以制造8000张海报，一天时间制造4000万张海报——不仅能做到超高产量，还能称心千人千面的需求。

这就是AI杀进创作领域后所展示出来的力量——事实上，“鲁班”的出现的确使得一批设计师失往了工作，但仍然有相当数量的设计师并没有被冲击到。

之所以这些人没有被“鲁班”所取代，是因为他们把握了或许机器永远无法把握的东西——创意。

从之前对NovelAI操作的介绍中我们会发现，整个操作过程反常“傻瓜”——只要会打字就可以了——但重点从不在于打字，而是“打什么字”——假如你不知道如何表达你的艺术创意，假如你不知道如何让AI按照你的指令显现效果，那么即便没有AI，拿起画笔的你也依旧没有什么竞争力。

说白了，在当前这个阶段，AI依旧只是一种听命于人类指令的机器。严厉意义上，这只能算是“弱AI”

现阶段的AI只是扶助人们省略掉了那些重复劳动的环节，真正决定产品的质量的，依旧是看你能够做出何等水平的指令。

因此，今天仍然没有被“鲁班”取代的设计师，大多数都已经探索出了一条和“鲁班”和睦相处的道路——设计师负责调教“鲁班”，鲁班负责设计和输出海报图片。

AI作图真的会消亡谁吗？

我的看法是：在生产力的革命里，被消亡的永远只是落后的生产关系。

PS：彩蛋：星海娘～

参考资料：

科创板系列—— AI产业链全景图，中国平安

从起因到争议，在 AI 生成艺术元年聊聊 AI，少数派

AI绘画很酷，可是..原理是什么？，庐中漫游，碎光

单机版

“脱离使用开发者的数据库，不会成功”，黄东旭万字长文剖析数据库发展新趋势国产仿真软件的星星之火何以燎原？