动画造造效率提拔80%!那个AI软件一键实现高精度视频动捕
机器之心专栏
机器之心编纂部
1 分钟的跳舞动画,美术手工造造或需 20 多天,用 AIxPose 辅助造造仅需 3 天,整个流程缩短了 80% 以上。
AIGC 又出新魔法了!
不消动画师手 K、惯捕或光捕,只需供给一段视频,那个 AI 动捕软件就能主动输出动做。仅需短短几分钟,虚拟人的动画造培养搞定了。
不只是四肢大框架动做,连手部的细节都能精准捕获。
除了单视角视频,还能撑持多个视角的视频,比拟其他只撑持单目识此外动捕软件,该软件能供给更高的动捕量量。
展开全文
同时,该软件还撑持对识此外人体关键点、光滑度、脚步细节等停止编纂修改。从通俗玩家的兴致体验,到硬核玩家的专业需求,它都可称心。
那就是网易互娱 AI Lab 深根多年、连系专业美术反应不竭迭代优化、低调开发的 AIxPose 视频动捕软件。据悉,该软件已经处置了超越数十个小时的视频资本,并利用于游戏剧情动画、热门跳舞动画等资本的造造流程。经现实项目验证,1 分钟的跳舞动画,美术手工造造或需 20 多天,用 AIxPose 辅助造造仅需 3 天,整个流程缩短了 80% 以上。
近日,网易互娱 AI Lab 基于开发该软件的体味,并连系在动捕范畴的相关研究工做停止了整理,其所撰写的论文《Learning Analytical Posterior Probability for Human Mesh Recovery》被计算机视觉顶会 CVPR 2023 领受。
主页地址:
/
论文地址:
该论文立异性地提出了一种基于后验概率的视频动捕手艺 ProPose,可以在单张图像、多传感器合成等差别设定下实现准确的三维人体姿势估量。手艺精度比利用先验的基准概率办法高了 19%,且在公开数据集 3DPW、Human3.6M 和 AGORA 上均超越了过往的办法。此外,关于多传感器合成使命,该手艺也能到达比基准模子更高的精度,且无需因为引进新传感器而修改神经收集的骨干部门。
手艺布景
本研究的使命是从 RGB 图像中揣测人体姿势和外形(human mesh recovery, hmr),现有的办法能够回纳为两类:间接法和间接法。间接法摘用神经收集端到端地回回人体关节的扭转表达(如轴角、扭转矩阵、6D 向量等),而间接法先揣测一些中间表达(如三维关键点、朋分等),然后通过那些中间表达得到关节扭转。
然而,那两类办法都存在着一些问题。关于间接法而言,因为那类办法需要收集间接进修扭转那类笼统表达,与进修关键点、朋分比拟,进修扭转相对困难,因而收集输出的成果有时候很难和图像对齐,且无法完成一些大幅度的动做,如下图 (a) 第一行的右脚无法完全向后伸展。与之比拟,间接法一般能产生更高的精度,但是那类办法的表示很大水平上依靠于中间表达的准确性,傍边间表达因为噪声产生误差时,随便让最末的扭转呈现相当明显的错误,如下图 (b) 第二行的左手所示。
除了前述那些确定性的办法,还有一些办法通过进修某些概率散布来建模人体姿势的不确定性,从而将噪声纳进考虑,进步系统鲁棒性。目前次要的概率建模体例包罗多元高斯散布、原则化流、神经收集隐式建模等,但是那些非 SO (3) 上的概率散布无法实在地反映关节扭转的不确定性。好比在不确定性较大时,高斯散布在 SO (3) 上的部分线性假设不成立。近期的一篇工做间接用收集进修了 matrix Fisher 散布的参数,固然那是一种 SO (3) 上的散布,但该办法的进修体例和间接法类似,收敛表示无法和现有的间接法比拟。
为了同时兼顾高准确性和鲁棒性,提拔概率办法的性能,ProPose 推导了关节扭转的解析后验概率,不只可以受益于差别看测变量带来的高精度,也能权衡不确定性,尽可能削弱噪声对算法的影响。如下图所示,关于输进的图片,ProPose 能够通过输出的概率散布必然水平上度量该关节扭转在各个标的目的的不确定性,如右手沿动手臂轴的扭转、左手臂上下摆动的朝向、左小腿远近的水平等。
手艺实现
人体建模
本研究对人体姿势停止概率建模,目标是求关节扭转 R 在一些看测变量前提下(如骨骼朝向 d 等)的后验概率 p (R|d,⋯)。
详细而言,因为人体的关节扭转位于 SO (3) 上,而子关节相关于父关节的单元骨骼朝向位于 S^2 上,因而可基于那两种流形上的概率散布停止阐发。
起首,SO (3) 上的 matrix Fisher 散布 MF (⋅) 可做为关节扭转 R 的先验散布,如下式所示,F∈R^(3×3) 是该散布的参数,c (F) 是一个回一化常量,tr 表达矩阵的迹。
如下式所示,F 能够通过 SVD 合成间接求解均值 M 和一个表征散布聚集水平的聚集项 K。此中,Δ=diag (1,1,|UV|) 是一个对角正交矩阵,用于包管 M 的行列式为 1,从而能落在特殊正交群中。
其次,考虑到骨骼的朝向能通过关节扭转计算得到,因而可将关节扭转 R 看做隐变量,骨骼朝向 d 做为看测变量,给定 R 的前提下,S^2 上的单元朝向 d 从命 von Mises-Fisher 散布:
此中,κ∈R 和 d∈S^2 别离是该散布的聚集项和均值,l 是参考姿势下(如 T-pose)的单元骨骼朝向,理论上称心 Rl=d,即通过关节扭转将参考骨骼朝向转到当前骨骼朝向。
操纵贝叶斯理论,给定先验散布 p (R) 和似然函数 p (d|R),能够计算以骨骼朝向为前提的关节扭转的后验概率 p (R|d) 的解析形式:
由此可得到结论:后验概率 p (R|d) 同样从命 matrix Fisher 散布,且其参数从 F 更新为 F^'=F+κdl^T。
上述后验概率只考虑了人体骨骼朝向做为看丈量,类似地,还能够妥帖到其它的标的目的看丈量 d_i 或扭转看丈量 D_j(可由此外传感器产生,如 IMUs 等),得到如下一般形式的解析后验概率:
此中 κ_i 和 K_j 是聚集项。g (⋅) 是一个 IK 形式的映射,可以将标的目的看丈量转换到扭转估量,能够摘用最简单的形式如 g (d_i )=dl^T。Z_1 和 Z_3 别离表达标的目的看丈量和扭转看丈量的聚集。
特征
该部门进一步论述后验概率散布相较于先验概率散布有更高的聚集水平。
前述部门介绍了人体关节扭转后验概率的解析形式,该概率由一个新的参数 F' 表征。能够从另一个角度理解后验参数 F^',即 F^' 是与 F 不异的均值项 M 和一个新的聚集项 K^' 的乘积:
此中 M^T dl^T=ll^T 是一个秩 1 实对称矩阵,而 K 也是一个实对称矩阵,即后验的聚集项 K' 同样是实对称矩阵。根据矩阵阐发中关于实对称矩阵的交织定理,能够得到 K' 的特征值 λ_i' 和 K 的特征值 λ_i 具有如下不等式关系:
考虑到聚集项的特征值等价于散布参数的奇异值,而散布参数的奇异值能反映该散布的置信度,因而能够得到结论,当似然项非零时,后验估量比先验估量更集中,能够快速收敛到似然函数偏好的阿谁 mode 上,从而能更随便地被进修。
除了先验概率办法,另一类次要的基准办法是操纵逆运动学(IK)间接通过骨骼朝向计算扭转,下面那张图能够曲看地展现后验概率办法和确定性 IK 办法之间的比照。
上图以人体肘部关节为例。实的三维坐标轴表达实在值,通明三维坐标轴表达估量值。第一行表达确定性 IK 办法,那类办法背后的建模体例是一个表达骨骼朝向的向量,当骨骼朝向估量准确时,剩余的一个自在度(twist)便能缩小到一个圆上(图中球上的虚线圈);当骨骼朝向估量不准确时,则会使得所有可能的估量都与实在值偏离。第二行表达本研究的后验概率模子,由多个差别类型的模子合成而成,球面上的红色区域表达某个扭转的概率,即使骨骼朝向估量有误差,那种体例也有可能恢复到实在值,因为骨骼朝向的噪声可以被先验或其它看丈量所尽可能缓解。
收集框架图和缺失函数
基于前述理论和推导,能够间接构建出下图所示的框架图。操纵多分收收集从单张图片中估量先验散布参数 F、三维关键点 J(从入彀算出骨骼朝向 d)、外形参数 β。通过贝叶斯法例计算得到后验概率,最末可从后验散布中得到姿势估量,从而输出人体 mesh。
缺失函数的抉择比力间接,为如下四个约束的加权和,此中 L_J 表达关键点约束,L_β 表达外形参数约束,L_θ 表达矩阵形式的姿势参数约束,L_s 表达对散布停止摘样后的姿势约束。关于对散布的约束,那里并未间接摘用 MAP 是考虑了回一化参数的数值不变性问题。关于摘样战略,类似之前的工做,将 matrix Fisher 散布转为等价的四元数形式的 Bingham 散布,然后通过回绝摘样得到,此中回绝摘样的定见散布摘用 angular central Gaussian 散布。
尝试成果
尝试部门,本研究在公开数据集 Human3.6M、3DPW、AGORA、TotalCapture 上和过往办法停止了定量比照。能够看到,本研究的办法超越了过往的一寡办法。此中右下表中最初灰色的两行是同期工做,那里为了榜单完全性也列了出来。
下图展现了和现有 SOTA 办法 HybrIK、PARE、CLIFF 的定性比照,能够看到对一些遮挡的情状,ProPose 能够得到更好的效果。
下表展现了一系列消融尝试,次要展现 ProPose 的准确性和鲁棒性。基准办法包罗不利用三维关键点、不利用先验、测试时不利用先验、骨干收集差别位置特征的抉择等,下面左表足够验证了所提出的后验概率散布有着更高的精度。下面右表则展现了后验办法和确定性 IK 办法对噪声的鲁棒性比力,能够看到后验办法可以更大水平地抵御噪声的骚乱。