再探光线追踪兼七彩虹 iGame GeForce RTX 4080 16GB Ultra W OC 测试
现状——硬件光线追踪问世四年后
距离 2018 年第一代硬件光线追踪 GPU GeForce RTX 2080 Ti 发布已经过往了 4 年,依据目前的最新统计,PC 平台上的光线追踪游戏已经达到 102 个,粗略平均的话那就是每年 25 个。
其中的一些大作包括例如· 赛博朋克 2077、古墓丽影之暗影、Far Cry 6、漫威蜘蛛侠重制版、地平线 5、生化危机村庄、地铁离往等等,其中像地铁离往还出了一个逼迫要求显卡支持 DXR 特性的增强版。
除了电子游戏娱乐外,还有不少渲染器也都引进了硬件光线追踪加速,例如以往只提供 Intel CPU 优化的工业渲染器 Keyshot 等也都第一时间跟进了,原因很简单,摘用硬件光线的确显著提升了渲染性能,节约了时间提高了生产力。
对显卡厂商、游戏玩家以及游戏开发商来说,硬件光线追踪或者说视觉感染力和游戏是相辅相成的关系。
电子游戏是离不开视觉感染力的,硬件光线追踪为更强的渲染效果提供了可能,这不仅是画面渲染,还包括了基于光线追踪的音效处理等对玩家同样有直看体验的特性。
相对于 4 年前的 GeForce RTX 2080 Ti,现在的最新世代 GPU 例如 GeForce RTX 4090、GeForce RTX 4080 在性能方面有了显著的提升,例如 RTX 2080 Ti 的单精度性能是 14.2 TFLOPS,而新近发布的 RTX 4080 单精度性能依据我之前的实测达到了 51 TFLOPS,提升了接近 2.6 倍,在相当部分游戏中,像 5800X 这样往年还属于旗舰的 CPU 已经成为瓶颈。
针对 CPU 瓶颈问题,NVIDIA 为 GeForce RTX 4000 系列引进了名为 DLSS 3 的新超摘样技术,在原来 DLSS 2 空间超辨认率的基础上,引进了基于硬件光流加速的时间超辨认率或者说帧合成(frame Generation)技术,能在前后两帧之间生成一张画面,在不增加 CPU 开销的情状下实现更平滑的画面过渡效果。在实际测试中,DLSS3 FG 能提升大约 30% 以上的帧率。
由于 FG 插帧需要渲染两帧后才能完成插帧动作,会增加额外的时延,因此 DLSS 3 还结合了 Reflex 低时延技术,用来确保时延不会大幅度增加。
一路下来,你会发现 NVIDIA 在光线追踪部署方面可谓是有板有眼:中路主打光线追踪,然后加上不断升级 DLSS 技术打辅助,面对 AMD 和 Intel 的叠加围攻下依然不落下风,最近的市场份额甚至是不减反增。
除了硬件不断增强,NVIDIA 在软件方面的动作更为有趣。
以 RTX Remix 为例,这是 NVIDIA 趁着 RTX 4090 发布而推出的一个游戏魔改(Mod)工具集。魔改是游戏社区非常盛行的一种文化,已知的魔改作者数量据闻有数百万,每年下载的游戏魔改模组达到了数十亿次,时下时髦的 10 款电竞游戏里就有 9 款有魔改。
被魔改次数最多的游戏 The Elder Scrolls V: Skyrim(上古卷轴 5:天际)和The Elder Scrolls V: Skyrim Special Edition(上古卷轴 5:天际特殊版),其中被下载最多的魔改模组均为图形方面的魔改包。
展开全文
要修改游戏的图形是一件非常困难的事情,需要开发出特定的工具,为每个素材重建新艺术作品,NVIDIA 表达,为了开发 Quake II RTX,动用了 NVIDIA 工程师、美工、QA 团队数个月时间才搞定,这还是在获得源代码以及其他开发人员提供的魔改工具前提下实现的,这样的开发强度对市面上浩若烟海的游戏不断重复进行是完全不可行的,而且,按照 PCGamingwiki 提供的资料,在已知的 7500 个游戏里,仅有 28 个是提供了已转换的可修改格式。
而 NVIDAI 提供的 RTX Remix 工具则是一个基于 NVIDIA Omniverse 的免费魔改平台,能够为不同的游戏快速创建 RTX On 模组,这些模组能提供增强的材质、完全光线追踪、NVIDIA DLSS 3 和 NVIDIA Reflex 支持,即使游戏使用的是老式的 DX8、DX9 世代渲染流水线。
RTX Remix 提供了被称为 RTX Remix runtime 的 D3D9 runtime,这相当于把游戏的渲染接管为 RTX On 功能运行时,当这些老游戏如常向 D3D9 runtime 发送渲染指令的时候,RTX Remix runtime 会把这些指令拦截下来,将其重命名为不同的数字资产并重组到相同的场景中。
到了这一步后,RTX Remix 将资产和场景转换为广泛摘用的通用场景描述(USD) 开放式 3D 框架,而这个框架也是构建和操作自定义 3D 管道的NVIDIA Omniverse平台的基础。
由于 RTX Remix 是基于 NVIDIA Omniverse 构建的,这些 USD 游戏资产可以轻松导进 RTX Remix 使用程序或任何其他 Omniverse 使用程序或连接器,包括游戏行业准则使用程序,例如 Adobe Substance 3D Painter、Autodesk Maya、3ds Max、 Blender、SideFX Houdini 和 Epic Games 的虚幻引擎。
当资产从 Omniverse 连接器同步到 Remix 的视口时,魔改团队可以协作改良和替换资产,并可视化每个更改。这个工作流程能够改变魔改社区处理他们其游戏魔改的方式,为模组制造者提供一个统一的工作流程,将他们的知识运用到各种游戏而无需学习大量专有工具。
上图是上古卷3晨风的游戏原图。
上图是上古卷轴3晨风经过 RTX Remix 魔改创作后的实际画面
当开发人员制造好 RTX Remix 魔改包后,就可以轻松地将模组导出分享给其他玩家,玩家下载了魔改包后,扔到游戏目录内启动游戏,RTX Remix runtime 就可以完成剩下的工作——RTX Remix 的 64 位 Vulkan 渲染器替换掉旧的渲染 API 和系统。RTX Remix 还提供了这个 runtime 的编辑器,能够让玩家实时定制各种特效选项,例如修改材质属性、添加体积雾等等。
可以看到,RTX Remix 是一个具有划时代意义的魔改工具,对于许多旧游戏来说可能会因此再度焕发新生,在特别是游戏开发成本越来越高的当下,为各种重制版打开了一条新的灵敏开发途径。
抉择——有必要摘用光线追踪吗?
这是一个常见的有趣问题,特殊是目前光栅化渲染还是主流的情状下。
首先,光栅渲染和光线追踪都是用于确定可视性的一种方式。
众所周知,光栅化渲染的原理是将场景中的每个三角形拿出来,扔到屏幕空间上,让光栅器查找该三角形在屏幕上对应的像素,然后依据法线、深度缓存、光照、纹理等信息渲染该三角形对应的像素,理论上每个三角形都要进行这样的操作,为了节约渲染资源,人们引进了各种剔除、修剪和隐面消除等技术,减少渲染的三角形。
而光线追踪则是对渲染辨认率的每个像素发射一条或者一束射线,让其击中最接近的三角形,依据击中点的属性,确定是被吸取、折射还是反射(后两种会产生衍生射线),从而产生出倒影、发散、折射等效果,周而复始。
光线追踪本身只是一种渲染技术的通用名词,目前已经发展出了多种实现,例如路径跟踪、分布式光线追踪、双向光线追踪、光子映射等等,都是针对不同使用情境下提出的各具优点和缺点的光线追踪实现,例如双向光线追踪可能比较适合散焦特效,分布式光线追踪比较适合全局光照。
从光学角度看,光线追踪才是正确的物理实现,光栅化渲染虽然也能达到基于物理渲染的效果,但是因为短缺屏外空间信息,可能需要更多的代码和数据才能接近,否则轻易产生各种古怪的现象。
《猎天使魔女》中基于光栅化的屏幕空间倒影,出现了口红戳眼睛的现象。
《迷失》中基于光栅化的屏幕空间倒影,猫咪在镜子的古怪倒影。
在地铁离往中,屏幕空间倒影(SSR)和光线追踪倒影(RTR)的对比(SSR 里船的倒影随着角度的转变而忽隐忽现,而光线追踪倒影则保持很好的一贯性):
即使是某些宣称是光线追踪的情状,但是由于和真正的光线追踪实现完全不是一回事而存在各种问题,例如Reshade 特效外挂基于屏幕空间实现的伪光线追踪全局光照轻易产生忽有忽无的现象(黄色色染随着梯子移出屏幕外后就突然消失了):
既然光线追踪或者说真正的光线追踪能产生更逼真的画面,那么为何在 RTX GPU 之前极少看到呢?
答案信赖大家都听说过,那就是光线追踪需要大量的计算。
光线追踪产生衍生射线后,会陆续反弹射向下一个物体,且反弹的方向可能是随机的,单条射线难以正确计算出整个物体表面的明暗,随之就会产生噪点,为了减少噪点,要嘛就是每个像素发射更多的射线,例如数千条射线,又或者是结合随机算法进行累积,这些方法都会导致计算量几何级上升,而更复杂的场景和模型(例如复杂的透明模型)会让计算量在此基础上再跳若干个几何级。
NVIDIA 在 Volta 世代开始引进的光线追踪就是支持使用张量内核进行降噪处理,可以实现较少的射线实现接近参考目的图的效果。
到了 Turning 世代,NVIDIA 引进了 RTCore 来实现光线追踪求交加速,目前所有的 GPU 硬件光线追踪加速基本上都是类似于 Turing——通过加进求交加速模块来加速光线追踪,所不同的主要是具体的规模和涵盖的加速特性领域(例如 NVIDIA RTCore 和 Intel RTU 还支持遍历、排序,AMD RDNA2 则还有欠缺,RDNA 3 有少量改良)。
上图是分别是参考图、摘用 NVIDIA 实时降噪器处理的效果以及输进降噪器的光线追踪渲染画面
目前绝大多数的硬件光线追踪加速游戏都是摘用了混合渲染流水线,也就是先用光栅化确定可视性,然后使用光线追踪对屏幕区域中特定的位置进行光线追踪计算,这不失为一种画质与性能的折衷,例如 AMD 的 SSSR 就是针对场景中不同位置使用传统光栅 SSR 和DXR 光线追踪的倒影算法。
经过 4 年的发展,光线追踪加速已经不再陌生,除了折射、倒影、阴影等特效处理外,还有一个重要的使用现在开始逐渐增多,那就是全局光照(Global Illumination,简称 GI)的普及实现。
上图是虚幻引擎编辑器里展示启用 RTXGI,图中的圆球就是全局光照特效常见的探针示意。
上图是游戏 ICARUS 启用基于 RTXGI 全局光照后效果
NVIDIA 在这方面有较长的积存,例如在 2019 年提出的 DDGI(现在的营销名称为 RTXGI),可以在无噪点的情状下实现实时全动态光线追踪全局光照。AMD 在今年(2022 年)10 月也发布了一篇论文,提出了名为 GI 1.0 的全局光照实现方法,在这篇论文中,虽然 AMD RX 6900XT 光线追踪部分的性能只有 RTX 3080 的一半,但是凭借高速缓存的优势,最终达到了持平的性能。
另一个挑战则是场景光照的丰盛性问题,例如目前的光线追踪游戏一般只有两个到十六个主光源,即使是 Quake 2 RTX 中也不过是 100 多个用于光线追踪的光源,NVIDIA 为此提出了 RTXDI 技术(在 2021 年正式摘用这个名称,主要基于 NVIDIA 2020 年前提出的 ReSTIR 技术)。
RTXDI 尝试近似经典渲染方程的方式进行计算,经过优化后,每个像素只用两条射线摘样,结合 NRD 专门为 RTXDI 优化的 RELAX 降噪器,透过多种重摘样技术,就能对百万级数量的光源实施光线追踪,彻底放弃其他所有阴影技术以及环境遮蔽技术,并且可以和 RTXGI 结合实现更逼真绚丽的渲染效果。
RTXDI 可以在 NVIDIA、AMD 等支持 DXR 和 Vulkan 光线追踪扩展的 GPU 上运行,不仅游戏中可以使用,还有一些开发人员已经提供了支持 Blender 的 RTXDI 渲染引擎,适用性相当广。
说了这么多作为展垫,接下来我要做一些光线追踪的相关测试了,这部分分为主要是偏底层的测试和实际游戏测试,手头有一片 GeForce RTX 3080 Ti FE 和七彩虹的 iGame GeForce RTX 4080 16GB Ultra W OC,相对于之前的公版测试,我这次主要是要一些延伸性的测试,特殊是我的 AMD Ryzen 7 5800X 平台上,启用光线追踪是否下相当于“免费”。
测试平台
CPU:AMD Ryzen 7 5800X 锁定 4.5GHz,开启超线程
主板:华硕 ROG Strix X570E Gaming
内存:TT Tough DDR4-3600 8GB*4
电源:TT Tough 850W 80 Plus 白金认证
显卡:七彩虹iGame GeForce RTX 4080 16GB Ultra W OC
显卡:NVIDIA GeForce RTX 3080 Ti FE
展示器:DELL U2413
驱动程序:GeForce Game Ready 驱动 v526.98
操作系统:Windows 11 22H2 22621.819 专业工作站版,电源治理卓著性能模式,关闭 Windows Defender
主板 BIOS 设定:开启 ResizableBAR 支持
七彩虹 iGame GeForce RTX 4080 Ultra W OC
这次参与对比的新卡是来自七彩虹的 iGame 系列 GeForce RTX 4080 16GB Ultra W OC:
七彩虹的 iGame GeForce RTX 4080 16GB Ultra W OC 是我接触的第一款非公版 RTX 4080,和公版一体化设计相比,iGame GeForce RTX 4080 16GB Ultra W OC 的更长,这样设计的目的是为了容纳 3 个风扇,提供更良好的散热效果。
散热器外甲摘用波普艺术风尚,显卡侧面引人瞩目的是“漫画特效”的Ultra灯组(可以使用 iGame Center 2.0 进行灯光同步设置),在开机后会亮起,内部散热模组摘用了 5*6 mm + 2*8 mm 热管,热管和鳍片摘用了回流焊高度融为一体,三组双滚珠轴承风扇的扇叶直径均达到 100mm,9 片风扇叶片是利于聚风的环形叶片。
位于顶部的电源接口是12VHPWR(PCIE 5.0)电源接口,随卡提供了一条 3* 8pin PEG 转接线,当然假如可以的话最好电源也摘用 ATX 3.0 带 12VHPWR 连接线,这样可以让机箱空间更简洁。
虽然七彩虹iGame GeForce RTX 4080 16GB Ultra W OC 的尺寸比 NVIDIA FE 公版更长(大约是 32.5cm vs 30cm),但是在整体重量上由于摘用了三风扇开放式散热设计反而要轻不少,不像公版那样有一大圈金属包围,这样的好处除了散热更好外,对于主板来说也是降低了负担,而用户需要注重的是机箱内部需要有足够的空间。
七彩虹iGame GeForce RTX 4080 16GB Ultra W OC 提供了一键超频功能,在显卡挡板处有一个按钮,按下后就能启用一键超频:
使用 3DMark Speed Way 测试结果如下:
一键超频略显保守,性能改良幅度大约是 1.3%,好处是比较简单,而且是有官方质保的。
下面就让我们进进具体的光线追踪测试环节。
底层测试
底层测试的目的是期看尽可能获知硬件的理论性能,特殊是像 RTCore 相对较少资料的单元,我们对其细节更是布满好奇。
底层测试——光线追踪峰值性能测试
为了探测 GeForce RTX 4080 的光线追踪底层性能,我这次使用 Matt Pettineo 的 DXR Patht Tracer 进行了简单的对比,测试条件是每像素 16 射线、8 次反弹、32 光源,并且启用了若干常见的渲染效果:
这是一个很简单的场景,但是请注重,我们测试的是一个路径跟踪器,性能和取样数、光照路径长度有较大关系。
前面我们说过,常见的光线追踪渲染实现方式是指从摄像机方向发射射线穿过屏幕像素直到击中场景中某个三角形,这一步被称作求交,在完成求交计算后,光线渲染程序中的 anyhit 代码会依据击中点的属性确定是否产生衍生射线以及抉择相应的后续计算。
由于会产生多次的衍生射线碰撞,光线追踪需要进行大量简单而重复的求交测试计算,所以求交测试模块是光线追踪加速单元的最主要组成部分,我们在这里的底层测试就是为了探测出 GPU进行一定特效处理的情状下每秒可以进行的射线求交能力。
从测试结果来看,RTX 4080 可以每秒跑出 31.1 Grays(Giga Rays,十亿条射线),而 RTX 3080 Ti 则是 18.4 Grays,两者此时的性能比值为 1.69 倍。
底层测试——Ray Tracing in Vulkan
这里我使用的是 GPSnoopy 的 Ray Tracing in Vulkan,这是 Tanguy Fautre 按照 Peter Shirley 的 Ray Tracing in One Weekend光线追踪短训教程在 github 上发布的代码实现,最初使用的是 NVIDIA 私有 Vulkan 扩展,后来 KHR 发布了官方 Vulkan 光线追踪扩展后,所有代码也随之移植到官方 Vulkan 扩展上来,这意味着包括 AMD、Intel 等 GPU 也能运行这个程序。
假如有看过我之前测试的话,应该也了解到我之前是跑过这个程序的。这次我测试的是 github 上的最新代码版本,使用 VS 2022 和 Vulkan SDK 编译。
程序提供了 5 个场景,分别是:
Ray Tracing In One Weekend
Planets In One Weekend
Lucy In One Weekend
Cornell Box
Cornell Box Lucy
程序答应修改射线取样数量(默认每像素 8 条射线,最高 128 条)和射线反弹次数(默认 16 次,最高 32 次)。
虽然程序每个场景跑一遍只需要 60 秒,但是我这次使用的测试脚本是涵盖了每像素 1、2、4、8、16、32 条射线以及一次、两次、四次、八次、十六次、三十二次反弹,一轮跑下来可能需要数个小时。
测试结果如下:
由于程序渲染的场景相对简单,也不涉及降噪等着色器操作,比较轻易体现光线追踪加速环节或者说求交性能上的性能区别。
由于 RTCore 对我们来说还是一个黑匣子,里面好多细节我们都知之甚少,NVIDIA 提供了一个名为 RT TFLOPS 的指标,但是这个东西是依据游戏运算量统计百分比,揉合了 SM 单精度性能、RTCore 等效性能、张量内核性能的东东,纯粹度略显不够。
为了简化描述,我这里将每个 RTCore 每周期跑的操作集称之为 RTCore-Ops。
七彩虹iGame GeForce RTX 4080 16GB 运行程序时候的 3D 内核频率为 2805 MHz,乘与 76 个第三代 RTCore 的话,理论上就是每秒跑 213,180 百万次第三代 RTCore-OPs。
NVIDIA GeForce RTX 3080 Ti 12GB 运行程序时的频率波动相对较大,在 1835 MHz 到 1905 MHz 之间,取中间值 1870MHz 的话,乘与 80 个第二代 RTCore,那就是每秒跑 149,600 百万次第二代 RTCore-Ops。
单纯看 RTCore-Ops 的话,七彩虹iGame GeForce RTX 4080 16GB 是 NVIDIA GeForce RTX 3080 Ti 12GB 的 1.42 倍。
但是从 GPSnoopy Ray Tracing in Vulkan 的测试结果来看,七彩虹iGame GeForce RTX 4080 16GB 的实测光线追踪性能是 NVIDIA GeForce RTX 3080 Ti 12GB 的 1.61 倍(平均值),多出来的 20% 显然是来自于第三代 RTCore 或更大高速缓存(64MB L2 vs 6MB L2)所带来的。
我还测试了包括其他每周期射线数量(每像素 1、2、4、16、32 射线)的情状,在较少摘样的情状下,例如每像素一射线的时候,两者的平均性能比值区别会少些——152%,在更多摘样的时候,性能比值基本一样。
提升幅度较少的是场景 4,这个场景的特征是没有透明、镜面物体,这意味着衍生射线的数量以及随之而来的复杂着色计算会更少,在每像素 1 条射线的时候,七彩虹iGame GeForce RTX 4080 16GB 是 RTX 3080 Ti 的 142%,相当于两者的 RTCore-Ops 比值。
在摘样数量增加到每像素 8 条射线后,七彩虹iGame GeForce RTX 4080 16GB 在场景四的性能是 NVIDIA GeForce RTX 3080 Ti 12GB 的 148%,依然接近两者 RTCore-Ops 1.42 倍比值。
由于支持提供 RTCore 状态特性信息 Nsight 目前只对企业用户以 NDA 的形式提供,普通人难以接触,故此想进一步正确获知相关细节的正门目前是堵死的,因此这次测试只能依据表面结果做推断。
考虑到测试场景不涉及动态模糊或者其他射线插值计算的情状,因此第三代 RTCore 的每周期三角形求交能力两倍于第二代 RTCore 的特性在这里应该是体现不出来的。
对于上面这些测试结果,我很轻易得出下面的结论:
对于涉及较多透明、镜面反射物体的场景,NVIDIA GeForce RTX 3080 Ti 12GB 或者说 Ada 架构可以从较大的高速缓存以及着色器性能显著获益,而对于透明、镜面或者说反弹次数较少的场景,基本上就是两者单元规模和频率乘积的高低区别。
游戏实测
在游戏测试方面,我这次企图精简一下,只抉择三款光线追踪游戏,分别是赛博朋克 2077、地铁逃离增强版以及蜘蛛侠重制版,其中赛博朋客 2077 具备光线追踪倒影、阴影计算,地铁离往增强版摘用了光线追踪来实现全局光照、倒影、阴影,蜘蛛侠重制版是从主机平台移植过来的,提供了光线追踪倒影特效,上述上个游戏均提供了 DLSS 超辨认率技术,其中蜘蛛侠重制版以正式版的方式提供了 DLSS 3 插帧支持,赛博朋克 2077 以内测版的方式提供了 DLSS 3 插帧支持,地铁逃离增强版提供了 DLSS 2 支持。
地铁逃离增强版
地铁:逃离增强版:地铁逃离增强版是一个出色的第一人称单人游戏,摘用 4A Engine 开发,是第一个逼迫要求显卡必须支持 DXR 的游戏。
七彩虹 iGame GeForce RTX 4080 16GB Ultra W OC 在这个游戏中实现了 95fps 的 4K 全开最高 DLSS Performance 性能,在 2560x1440 则是达到了 121 fps。
蜘蛛侠重制版
蜘蛛侠重制版:蜘蛛侠重制版是一个移植自游戏机的第三人称动作游戏,摘用 Insomniac 游戏引擎,最新版提供了 DLSS 3 插帧支持。
从测试结果来看,蜘蛛侠重制版在我们的测试平台上碰到了 CPU 性能瓶颈,在 2560x1440 的时候启用光线追踪+DLSS 3 插帧可以达到 1.73 倍于插帧之前的性能。相较之下,4K 光线追踪+ DLSS 3 插帧是启用插帧之前的 1.48 倍。
和关闭光线追踪相比,启用光线追踪 + DLSS 2 后的性能会更快,以七彩虹 iGame GeForce RTX 4080 16GB Ultra W OC 为例,此时的性能是关闭光线追踪时的 1.24 倍。
赛博朋克 2077
赛博朋克 2077:赛博朋克 2077 是一个跨平台游戏,摘用的游戏引擎是 REDengine 4,提供了光线追踪倒影、光线追踪阴影等特效支持,我们这里测试的版本是提供了 DLSS 3 插帧支持内测版。
NVIDIA 在 9 月份的时候 已经将赛博朋克 2077 列为 DLSS 3 游戏,但是具体的正式支持时间尚不清楚,可能会和 Overdrive 光线追踪(RTXDI)一同发布?
在 4K 辨认率下,七彩虹 iGame GeForce RTX 4080 16GB Ultra W OC 启用光线追踪+ DLSS 2 后的性能是关闭光线追踪、不启用 DLSS 2 的 1.22 倍。在打开光线追踪模式下, DLSS 2 Performance 能实现 2.62 倍于启用 DLSS 2 之前的性能。
对于 DLSS 3 插帧性能表现,作为参考,七彩虹 iGame GeForce RTX 4080 16GB Ultra W OC 启用 DLSS 3 插帧后,4K 时的性能提升了 47%(假如是单纯和启用光线追踪相比则是 289%),而在遭遇 CPU 性能瓶颈的 2560x1440 下提升幅度达到了 73%(假如是单纯和启用光线追踪相比则是 215%)。
为了获知更多的细节,我将蜘蛛侠重制版和赛博朋克 2077 的更多 CaoframeX 细化测试结果整理为下面的两个表格:
上面表格中除了大家常见的平均帧率外,还有低于 1% 的平均帧率、使用时延、GPU 耗电、GPU 每 10 瓦耗电帧率以及 GPU 占用率等指标。
1% 频率低帧率是指按照从最高到最低帧率来排列,然后取位于末尾或者说最慢的 1% 帧率进行平均取得的均值,英文一般称为 1% Low Averags FPS被认为是反映卡顿的最佳指标,这个指标越高游戏顺畅性感受就越好。假如你对游戏卡顿比较敏锐的话,意见关注一下这个指标。
关于 App Latency 指标,按照作者的介绍(以及presentmon1、presentmon2)的信息, App Latency类似于 NVIDIA frameview 中的 PCLatency,是指电脑 I/O 端口接收到外部人机设备指令后到显卡完成渲染发送数据到展示器的这段耗时。这个指标完全独立于展示器和人机设备,只考虑电脑系统内的情状,可以最大限度反映电脑内部渲染时延问题,该指标的单位一般是毫秒表达。
但是依据我的实际对比,发现 App Latency 和 PCLatency 还是存在一定差异的,特殊是在启用了 DLSS 后:
可以看出,在 DLSS Perf + FG on 的时候,PCLatency 测试结果为 50ms,比 CapframeX 的 13ms 高不少。
在启用光线追踪后,单纯启用 DLSS 的话,PCL 只有 34ms,比关闭光线追踪、关闭 DLSS 的时候快 29.4%,改良幅度比平均帧率还高。
GPU Power 表达显卡的全卡耗电,而 GPU fps/10W 代表的是每 10 瓦耗电能达成的帧率。
GPU Usage 表达测试过程的平均 GPU 占用率。
从测试结果可以确认蜘蛛侠重制版在 2560x1440 的时候的确更轻易受到 CPU 性能影响,在启用 DLSS 2 后 GPU 平均占用率只有 52%,此时耗电为 123 瓦,每 10 瓦帧率为 6.92 fps/10瓦。
启用 DLSS 3 插帧后,耗电会有所提升,达到 161 瓦,增加 30%,但是性能耗电比会显著提升达到 10.42 fps/10瓦,提升了 51%。
网络上有人表达关闭超线程的话,蜘蛛侠重制版的性能会有所提升,我试了一下,的确是一定的改良:
帧率从 85.1 fps 提升到了 96.5fps,不过 1% Low Avg 只有 1 fps 的改良,最慢帧时间有较大改良。
依据笔录数据,此时 CPU 的耗电是 86 瓦,降低了两瓦,而 CPU 最大使用率从 81% 提升到了 96%,GPU 耗电基本持平——125 瓦。
假如你是游戏玩家的话,不妨尝试到 BIOS 里关闭掉超线程,很可能会有一点小惊喜。
全文总结
经过四年的发展,光线追踪在软硬件方面已经有了大幅度的改良,当前的旗舰硬件光线追踪 GPU 在 4K 辨认率下配合超辨认率、插帧等技术下轻松每秒破百帧,在这样硬件能力下,越来越多游戏和使用开发商纷纷加进到支持硬件光线追踪加速的行列,像 PC 平台上的硬件光线追踪游戏数量就从零增加到 100 款以上。
光线追踪对画面的改良不是体现在纹理、模型的细节上,而是更真实的物理光学体验,例如自然而然的全局光照(RTXGI)、不会忽有忽无的倒影、“接地气”的阴影、缤纷绚丽的夜景(RTXDI)等等。
硬件光栅渲染经过近 30 年的发展,能做的改良已经不多,难以征服的地方是时候交给光线追踪来完成了。
在这次测试中,我们了解了 GeForce RTX 4080 16GB 的峰值光线追踪性能大约是每秒 31.1 GRays,是上一代 Ampere 架构 RTX 3080 Ti 每秒 18.4 GRays 的 1.69 倍,在演示场景测试中一般幅度会在 1.65 倍左右,而在游戏中,这个幅度是 1.35 倍左右,原因和目前游戏基本摘用混合渲染流水线有关。在混合渲染流水线中,游戏使用光栅器确定每个三角形在屏幕上的位置,然后依据需求决定是否在这些位置上进行光线追踪渲染。
DLSS 技术是实时光线追踪的最佳伴侣,经过多次版本迭代后,DLSS 的画质有了显著的改良,新加进的插帧技术让需要更高画面顺畅体验的玩家多了抉择。
对于旗舰级的显卡例如七彩虹 iGame GeForce RTX 4080 Ultra W OC 来说,CPU 的确会在很多游戏中成为瓶颈,但是随着 DLSS 3 插帧技术的妥善,即使 CPU 成为瓶颈,也能实现更平滑的画面顺畅体验,关闭超线程有时候会带来一定的小惊喜。
当然,假如游戏本身并非电竞类,你可以尝试透过帧率约束将游戏帧率上限 60fps,这并非没有意义,因为帧率更低的话,意味着耗电、风扇噪音更低,同样能带来更好的游戏体验。