AI做画玩腻了?国产AI文生视频又来了,就是画风有点辣眼睛|封面天天见
AI做画玩腻了?国产AI文生视频又来了,就是画风有点辣眼睛|封面天天见
原创2023-03-23 18:46·封面新闻
封面新闻记者 欧阳宏宇
国产人工智能带来的魔性做画已经让你审美怠倦了吗?如今,中国造的文字生成视频AIGC东西又来了。
继谷歌的Imagen和Meta的做个视频(Make-A-Video)之后,阿里达摩院也在近日放出了“文本生成视频大模子”,并在开源模子平台低调对外测试。
据介绍,该模子由文本特征提取、文本特征到视频隐空间扩散模子、视频隐空间到视频视觉空间那3个子收集构成,整体模子参数约17亿。撑持英文输进。扩散模子摘用Unet3D构造,通过从纯高斯噪声视频中,迭代往噪的过程,实现视频生成的功用。
简而言之,“给人工智能一段话,就能还你一段视频”;言下之意,利用AI,你也能够酿成片子人。
那么,那款国产的AI文生视频产物到底好欠好用?生成的视频事实是什么样子?记者停止了测试发现,该大模子的提醒词仅撑持英文输进,每次视频生成的时间在1至4分钟,随后会收到一段2秒钟的视频。根据关键词的差别,所反应的内容也有所差别,且根本都较为清晰顺畅,视觉效果炫酷,只是不含音轨,偶尔还有跳帧的情状。不外,当输进的关键词偏离科学和常识后,所生成视频的画风也起头走偏……
所生成视频时长为2秒
根本契合逻辑与体味规则
记者起首抉择了一些契合日常生活体味和常识的内容。话不多说,间接看效果:
展开全文
熊猫食竹子
一名男骑手骑马
大雨中走路的人
从测试的成果能够看到,目前能生成的视频长度在2秒摆布,视频尺寸为256✖256,生成等待时间在1分多钟到4分多钟之间。同时,视频中的细节衬着也非常到位,诸如布景中散落的竹叶、逐步远离的灌木、卷起大雨的暴风都在视频中表示了出来。
不外,在“一名男骑手骑马”视频中则呈现了跳帧的情状:明明仍是向画面右方行走的马匹突然掉头向画面深处走往,但马的后半截身子仍是向右方挪动的形态。不外鉴于该大模子才刚刚上线,因而也能够理解。
根据文本关键词做视频
只是画风有点奇异
假设发扬想象力,给大模子输进一些不契合现实生活中的体味和逻辑的文本,或者一些笼统的描述,会得到什么成果?说实话,看到之后,相信那做品放到任何社交平台都是相当炸裂的存在。
两端大象在厨房忙着做饭
说实话,那视频人家做的没弊端:有大象、在厨房,固然做的什么不太看得出来,但为了烹饪站到灶台上的大象,显然已经很拼了。
贵妃醒酒
那个就更凶猛了,很有复古文艺风。
再说说那贵妃,看起来雍容华贵又不失仪表肃静严厉。连系常识来说,两旁的侍女梳的发髻就很像初唐时在宫人中很时髦的半翻髻;站在中间的贵妃的发饰则很像盛唐开元年间的双鬟看仙髻……就那个对中国文化的理解就已经很让人钦佩。
但是接下来的画风,就有点希罕了。好比那个……
楚霸王在摩天大楼跳舞
那段视频看起来则是一部科幻片。
摩天大楼像是片子《盗梦空间》里的场景。别的,楚霸王项羽被塑形成了一个像外星人一样的生物,让人想起了一个动漫人物。
假设再增加一些难度,把一些不成能相关的事物联络在一路:
标致的夏季热带海滩上,一只巨龙在食冰激凌
那段视频,AI间接返回了一段灾难片:夏季海滩上,绿色的怪兽带着它的幼仔登上海滩觅食……给人一种异兽吞噬页游的既视感。
AI视频并不是不合常识
或因数据量影响告终果
看起来,AI似乎只是在根据文本描述停止要素的堆砌,几乎不考虑常识和逻辑。
那事实能否如斯?记者随后测试了,让差别的人物或事物在统一个场景下做同样的事,让AI根据“人\香蕉\猫拿着远控器在看电视”别离生成视频,来看看又会有如何的成果。
人拿着远控器在看电视
猫拿着远控器在看电视
香蕉拿着远控器在看电视
根据返回的视频能够看到,AI生成的视频繁然是有逻辑和常识可依的。好比,人能够用手拿着远控器,猫能够用爪子盘弄远控器;而香蕉则不成能有手或者爪子操做远控器,只能呈现在电视画面中。呈现如许的情状或许是可供AI选用的高量量数据不多,只能从现有数据中拔取;而那些现有数据则是契合常识的。
文生视频尚待开展
将成为下流利用的加速器
从素质上讲,视频就是一系列图像,最抱负的效果就是用户给出提醒词,系统主动生成任何风气的对应视频。
根据谷歌此前发布的论文,视频生成框架是七个子视频扩散模子的级联,它们响应施行文本前提视频生成、空间超辨认率和时间超辨认率。借助整个级联,可以以每秒 24 帧的速度生成128帧1280×768的高清视频。
但在现实情状中,生成一个连接的长视频并没有那么随便。因为在那项使命中,可用的高量量数据十分少,并且使命自己的计算需求又很大。因而,从目前此类模子生成视频的期待时间,画面的实在度、清晰度以及长度等各方面来看,间隔产出令人称心的视频还有很大间隔。
此外,文本的完全性也是摆布文本生成视频迭代的一个瓶颈。有研究展现,像之前那种用于图像生成的简短文本凡是不敷以供给对视频的完全描述,视频所需要的是一系列文本或故事。研究人员表达,基于故事的前提视频生成之前从未被摸索过。
不外,文本生成视频已具备浩荡的市场潜力。有研报展现,从头生成视频,无需于其他视频素材,那标记着所有用户无需视频造造身手,均能够参与到AI视频的创做中来,也标记着AIGC正式迈进了视频时代。
国盛证券表达,跟着全民加进AI视频创做,算力需求将会成为愈加重要的资本。在将来,算力将成为决定内容量量与贸易合作力的关键因素,即“算力即权利”。同时,AI视频的放量也将会改动目前如电商曲播、产物告白、影视造造等多个行业的生态,下流利用的加速时刻也将到来。