技嘉RTX 4070 Ti GAMING OC首测 对标RTX 3090 Ti
作为2023年的第一张显卡,RTX 4070 Ti如期和我们见面了,今天为大家带来技嘉GeForce RTX 4070 Ti GAMING OC 12G这张显卡的首测。
作为RTX 40系显卡的第一张“Ti”产品,它的出现其实更像是意外,通过本次RTX 4070 Ti的各项参数来看,对比之前公布的RTX 4080 12G,发现CUDA数量、核心频率,显存等方面的数据都与之相同。
不过有一点不同就是降价了!原本在发布会中RTX 4080 12GB的价格为7199元,现在更名后的RTX 4070 Ti官方意见价格为6499元,直降700。
其实作为一款中高端型号显卡,假如参考RTX 30系的话,6499元这个价格还是太贵了,究竟当年的RTX 3080作为次旗舰仅仅5499元。不过在RTX 4080售价9499元的衬托下,似乎也还是挺便宜的。下面我们来看看这张技嘉GeForce RTX 4070 Ti GAMING OC 12G显卡的性能表现如何。
1
技嘉GeForce RTX 4070 Ti GAMING OC 12G概览
技嘉RTX 4070 Ti GAMING OC在RTX 40系显卡中的改动也比较大,整体以黑色为主。不过作为技嘉旗下的平价系列显卡,更以实用性为主。
展开全文
配件方面,由于技嘉RTX 4070 Ti GAMING OC摘用的是尾部与机箱固定称重,所以没有传统意义上的显卡支架,并且还附赠了一包螺丝用以固定。
另外虽然RTX 4070 Ti的功耗有所降低,不过RTX 40系全员摘用了16pin供电接口,所以还附赠了一个双8pin的转接线。
技嘉RTX 4070 Ti GAMING OC的整体尺寸为336×140×58mm,作为一张中高端性能显卡,并且是RTX 40系,尺寸上算得上比较小巧了。
散热方面,技嘉RTX 4070 Ti GAMING OC摘用三个100mm直径9叶风扇,依然是正逆转设计,搭载智能启停技术。内部散热摘用7根复合铜热管散热,对于这张RTX 4070 Ti来说完全够用了。
值得一提的是,技嘉RTX 4070 Ti GAMING OC在风扇上摘用了石墨烯纳米润滑剂,依据官方说法,它可以使风机寿命延长2.1倍,接近双滚珠轴承寿命,且更清静。
这次技嘉RTX 4070 Ti GAMING OC的背板设计也相当简洁,整体为裸色金属,加上一些线条点缀,形成立体视觉效果。
不过最让人震动的还是通过镂空部位目测出来的PCB尺寸,几乎只有整卡的一半大小,其余大部分位置均为散热系统。
视频输出接口上,依旧摘用了HDMI 2.1 + DP 1.4a*3的四接口设计。HDMI 2.1可支持4K 120Hz HDR、8K 60Hz HDR。
本次RTX 4070 Ti摘用单16pin的辅助供电,推举电源750W及以上。不过从本次包装内附送的双8pin转接线也能看出,之前的电源完全可以适配,但无奈NVIDIA这次统一接口,所以只能中间转接这一下。
虽然功率没有那么大,但有条件的还是意见大家抉择ATX 3.0电源,它自带12VHPWR的16pin供电接口,最高可支持600W供电。
需要注重的是,目前适用于RTX 30系列的12pin接口和电源转接器与RTX 40系列显卡不兼容。
在供电接口上方的则是BIOS切换拨杆,左侧为“BIOS OC”也就是性能模式,而右侧为“SILENT”清静模式,玩家拿到手后默认为性能模式。
2
技嘉智能管家(GCC)软件及灯光
本次技嘉的掌握软件再次进行了更新,相较上一版整体的UI设计更漂亮,操作方法也更简明扼要。
显卡可调剂的部分均在第二栏,包括风扇、超频以及灯光调剂。风扇部分玩家可以抉择默认的自动模式,或是依据自身超频情状来设置自定义模式,并且支持保存或导进当前配置文件。
在超频界面中同样比较简洁,简化了不少操作,玩家主要调剂的就是加速频率一项,不过假如要超频的话,对应的也需要加压和加功耗。关于超频其实没有太多技艺,就是一点一点试,这也正是超频的乐趣。在界面的最右侧为显卡当前的各项参数。
RGB灯光调剂的界面很贴心的为大家设置了一个比较大的大雕logo,方便取色的时候直接看看效果。
技嘉RTX 4070 Ti GAMING OC的背光依旧是在风扇内圈,不过相比上一代直接将灯珠装在风扇上,风扇内圈发光的方式视觉效果更好,不会出现那么多视觉残影。
3
NVIDIA GeForce RTX 4070 Ti 架构浅析
本次发布的GeForce RTX 40系显卡由全新的NVIDIA Ada Lovelace架构打造,TSMC 4N NVIDIA定制工艺,旗舰核心AD102达到了恐惧的760亿个晶体管,而在RTX 30系显卡中为280亿个。
与上一代NVIDIA Ampere相比,NVIDIA Ada Lovelace在相同功率下,具有2倍以上的性能提升,最高可达到90-TFLOPS的着色器数据吞吐量。
本次发布的GeForce RTX 4070 Ti达到40-TFLOPS,而不久前发布的RTX 4090则为83-TFLOPs。
完全AD102核心
完全AD104核心
RTX 4070 Ti所使用的AD104
本次GeForce RTX 4070 Ti使用了AD104芯片,准则的5组GPC,NVENC单元削减了3个。
我们再来详尽的看看每个SM单元,其中与NVIDIA Ampere架构有着同样的FP32 CUDA核心,同样的FP32/INT32混合CUDA核心,同样的L1级缓存等等。当然,每个SM单元内部的Tensor Core升级为第四代。
不过转变最为显著的,则是第三代光追核心,我们结合两代架构来看。在第二代光追核心中,包含负责边界交叉测试的Box Intersection Engine引擎,和负责三角形交叉测试的Triangle Intersection Engine引擎。
而在第三代光追核心中,还增加了两个新的引擎:Opacity Micro-Map Engines(OMM)和Displaced Micro-Mesh Engines(DMM),这两个新的硬件单元可以极大地提升光追性能(具体原理后文详尽介绍)。
至此,每2个SM单元组成一个TPC单元,每6组TPC单元组成一个完全的GPC顶层单元(在部分核心中,会出现5组TPC组成一个GPC单元的情状)。
而每个GPC单元又搭载一个独立的光栅引擎、两组ROP分区(每组包含8个ROP单元)。
由于整体架构分析篇幅较长,关于NVIDIA Ada架构的其他新特性就不在这里介绍了,将在文章末尾以附录的形式展开阐明,有兴致的用户可翻至最后。
4
测试平台简介
首先介绍一下测试平台,为了保障技嘉RTX 4070 Ti GAMING OC这张显卡的性能发扬,我们的平台也再次进行了全面更新。
本次测试平台的处理器摘用了Intel最新的13代i9-13900K,性能绝对强悍,并且电源和展示器上进行了着重升级。
首先看一下GPU-Z的参数,RTX 4070 Ti摘用全新的AD104核心,拥有7680个CUDA,这与之前曝出的RTX 4080 12GB的参数相同。本次测试的技嘉RTX 4070 Ti GAMING OC的Boost频率为2640MHz,对比公版的2610MHz有一定提升。
RTX 4070 Ti摘用12GB GDDR6X Micron显存,位宽为192bit,显存带宽达到了504.2 GB/s,光栅单元和纹理单元为80和240。
5
理论性能测试
下面先进行的是用来衡量显卡DX11理论性能的3DMARKFS套装:FS,FSE,FSU三者分别对应显卡在1080P、2K、4K的理论性能,取显卡分数实际测试结果如下:
这里着重阐明一下,i9-13900K在测试3DMARK FS成果中存在BUG,GPU占用不足,导致分数较低;这里的FS成果为i9-13900K处理器关闭小核心测试所得。
在针对显卡DX11性能的3DMARKFS套装测试中,技嘉RTX 4070 Ti GAMING OC主要对比上一代旗舰RTX 3090 Ti,其中FS提升了5%;FSE提升了1%;FSU差距在5%,综合来看相比RTX 3090 Ti的性能提升约为3%。
而对比刚刚发布的RTX 4080,综合成果相差22%左右。
而在针对DX12环境下的Time Spy和Time Spy Extreme测试中,技嘉RTX 4070 Ti GAMING OC相较RTX 3090 Ti的成果分别为:TS提升3%;TSE成果差距在4%左右。
PortRoyal是3DMARK中专门针对光追性能的测试项,技嘉RTX 4070 Ti GAMING OC相较RTX 3090 Ti的分数差距约为5%,而对比RTX 4080的成果相差约24%。
综合来看,技嘉RTX 4070 Ti GAMING OC在1080p以及2K辨认率下相比RTX 3090 Ti的优势比较明显,而4K辨认率下还是有差距的。
究竟两款显卡的显存带宽相差一倍,尽管RTX 4070 Ti的L2缓存达到了惊人的48MB,而RTX 3090 Ti只有6MB,但高位宽高带宽整体的优势依然明显。
Speed Way测试是3DMARK最新更新的用于测试DirectX12 Ultimate 性能的显卡基准测试。要运行此测试,显卡必须支持 DirectX 12 Ultimate 并包含 6GB 及以上显存。
这项测试结合了实时光线追踪和传统渲染技术来测量显卡性能。场景含有光线追踪反射、实时全局光照、网格着色器、体积照明、粒子和后处理效果。并且有意思的是,Speed Way测试支持自由探索场景,可查看光照及摄像机设置的改变如何影响视觉效果。
在该项测试中,我们对比了刚刚发布的RTX 4080显卡,从1080p辨认率到8K的差距依次为:27%/27%/27%/56%,目前常见的三种辨认率差距几乎相同,但8K这种次时代的超清辨认率,绝对是用显存来说话了。
另外我们使用3DMARK刚刚更新的DLSS 3进行了相关性能测试。依然是对比之前发布的RTX 4080,除了8K辨认率下关闭DLSS 3的成果,两款显卡的差距一直保持在20%左右。
6
常规游戏 性能测试
由于本次RTX 40系加进了DLSS 3新技术,所以后面会进行单独测试,这里依然抉择主流的几款3A大作进行游戏性能对比。
在《地平线5》中,技嘉RTX 4070 Ti GAMING OC相比RTX 3090 Ti的提升分别为:1080p提升39%;2K提升36%;4K提升26%,综合提升34%。
在《刺客信条:英灵殿》中,技嘉RTX 4070 Ti GAMING OC相比RTX 3090 Ti的提升分别为:1080p提升41%;2K提升25%;4K提升4%,综合提升23%。
在《无主之地3》中,技嘉RTX 4070 Ti GAMING OC相比RTX 3090 Ti的提升分别为:1080p提升10%;2K相差3%;4K相差13%。
《光明记忆:无限》的光追测试软件是独立于游戏的测试工具,比游戏中用到的光线追踪技术更多,测试条件为“RTX最高/DLSS质量”。所以测试帧数相对较低,但实际游戏配置相当亲民。
在另外一款国产游戏《边陲》的跑分软件中,情状基本与《光明记忆:无限》相同,测试条件均在“RTX最高/DLSS质量”下进行。
在常规游戏测试中,不难发现在1080p辨认率下RTX 4070 Ti能够有很大优势,但凭借24GB大显存以及1000 GB/s的带宽,在高辨认率下RTX 3090 Ti的优势非常明显。
所以综合来说,RTX 4070 Ti其实与RTX 3090 Ti算是实力相当,只不过两款显卡的“战场”不同,但假如在用户普及使用的1080p和2K辨认率来说,RTX 4070 Ti的优势更大,更不要说它还能够开启DLSS 3这一神技。
7
DLSS 3性能测试
目前已有超过 35 款游戏和使用公布即将支持 DLSS 3,其中 15 款游戏已经上市。目前已有超过 250 款游戏和使用支持 DLSS,并且还在逐月增加。
其中11月15日已有13款加进DLSS 3的游戏,包括《逆水冷》、《微软模拟飞行》、《毁灭全人类2:重新探测》、《瘟疫传说:安魂曲》、《光明记忆:无限》、《暗影火炬城》、《F1 22》、《生死轮回》、《漫威蜘蛛侠:重制版》、《超级人类》。最新发布的则有《WRC Generations》、《极品飞车:不羁》、《战锤40K:暗潮》
下面就让我们来实际测试,拥有全新的DLSS 3的游戏,能达到何种帧率。
本次DLSS 3的测试图表比较繁琐,并且增加了1% Low FPS和延迟的测试,普通的FPS好理解,那么这个1% Low FPS是什么意思。
首先,游戏benchmark通常测试的FPS即为,一段时间内的游戏平均帧。而1% Low FPS则是将一段时间内的帧数从大到小排列,取最小的1%出来,再对这1%的数求平均值。
其实简单来说,这两个数值都不能代表我们在游玩时,具体哪一刻的感受,但FPS更注重整体,而1% Low FPS则是从最差的里面求平均,更谨慎一些。
看懂了1% Low FPS,我们再来看这张图表,在坐标轴左侧的为延迟(越低越好),坐标轴右侧的均为帧数(越高越好),并且由于牵扯到正负坐标,所以两侧的值有可能会不同。
本次RTX 4070 Ti定位于2K辨认率下的电竞级帧率,在《赛博朋克2077》中的数据反映比较真实稳定,可以看到在DLSS关的光线追踪最高的情状下,即便技嘉RTX 4070 Ti GAMING OC显卡也只有44帧,并且延迟达到了91.5毫秒。而在开启DLSS 3后,帧数为118。
对比RTX 3090 Ti来看,虽然在关闭和DLSS 2模式下的分数几乎相同,但假如RTX 4070 Ti开启DLSS 3后,提升幅度达到了55%左右,非常大。
《暗影火炬城》在开启光追后对于性能要求明显提高。在两款显卡的对比中,在不开启DLSS 3的情状下RTX 4070 Ti相较RTX 3090 Ti也几乎都有着10帧的领先优势。而开启DLSS 3后,提升幅度为18%左右。
在Unity的测试软件中,将会自动播放一段即时演算视频,我们通过FrameView笔录全程。不过由于程序仅提供关闭和开启DLSS 3的操作,所以我们取两组分数。
可以看到在关闭DLSS 3后,即使在2K辨认率下平均FPS也有37帧,延迟也高达120.4ms。而开启DLSS 3后提升非常大,性能提升达到了127%,演示效果肉眼可见的顺畅。
在UE5提供的测试游戏中,方便的给出了DLSS的灵敏测试,这里分为DLSS关(超辨认率关+帧生成关+Reflex关);DLSS 2(超辨认率性能+帧生成关+Reflex开);DLSS 3(超辨认率性能+帧生成开+Reflex开)三档测试。
这组对比中,由于场景受限,我们抉择固定镜头测试,所以三组数据1% Low帧数相对较高。
当然针对画质方面,我们也进行了测试,在上图中我们截取《赛博朋克2077》中的一角,可以看到在两种DLSS模式下,相较原画质几乎没有明显转变,只在栅栏处的光影效果有所不同,但对于如此大幅度的帧数提升,这点瑕疵几乎可以漠视不计。
8
生产力工具测试
虽然RTX 4070 Ti为彻彻底底的游戏卡,不过我们也对渲染及编码等内容进行了部分软件的测试。
Blender
Blender是一款专业的三维渲染软件,本次推出了固定的benchmark跑分软件,省往了安装软件下载素材的麻烦。这款跑分软件只需下载好启动程序,软件会自动渲染测试monster/junkshop/classroom共三个场景。
上图为RTX 4080显卡得分,分别为4850/2239/2333分,平均3141分;下图为技嘉RTX 4070 Ti GAMING OC显卡得分,分别为3640/1660/1837分,平均2379分。两张显卡的性能差距在32%左右。
DaVinci_Resolve_18.0.2
下面我们通过达芬奇来对NVIDIA AV1编码进行实测,对比输出为H.264编码。输出尺寸为4K UHD,质量抉择最好,来看看两组成品有何区别。
本次的RTX 4070 Ti测试中,我们重新对该素材进行编码渲染,不过最终的渲染时间同样是1分50秒左右,与RTX 4080几乎相同。
由于我们没有固定码率,而抉择了相同的画面质量,可以看到在同质量下,AV1所生成的视频码率更低,几乎为H.264的三分之一。
而低码率也就意味着视频体积越小,该段视频摘用AV1编码的大小为H.264编码的四分之一,对于硬盘的空间节约非常明显,下面再来看看两段视频的画质表现如何。
左AV1 右H264(点击查看大图)
我们抉择NVIDIA的ICAT软件进行分屏对比,首先在较低的缩放倍率来看,两段视频在色彩和清楚度上完全相同,而在放大500%后,可以看到噪点情状。使用AV1编码像素过度更平滑,几乎没有很明显的颗粒感,从而使场景看起来更干净。
9
温度及功耗测试
功耗测试中,我们抉择FurMark软件进行拷机测试,并摘用GPU-Z检测温度,功耗仅计算显卡自身。
在半小时的拷机中,技嘉RTX 4070 Ti GAMING OC显卡满载状态下峰值温度掌握在60℃左右,热点温度也仅有70℃左右。可以看到整卡功耗为283W左右,假如TDP达到100%则为285W左右。
值得一提的是,本次我们在拷机测试中,虽然最大板载功耗为285W左右,TDP达到了99%。但在实际游戏测试中,大部分3A游戏只在220W左右,甚至部分不消耗性能的游戏在200W左右。
这里我们抉择了最消耗性能的《赛博朋克2077》,在4K辨认率下的光追超级预设,笔录了benchmark整个过程的功耗情状。表格中左侧为功耗,下方则为当前帧。
可以看到在功耗峰值点,这张RTX 4070 Ti只有245W左右,而在整个benchmark测试中的平均功耗为238W。所以在实际的使用过程中,由于不同游戏负载不同,GPU的实际功耗是动态转变的,类似于FPS随时间的转变,RTX 40系列很难触及功耗墙。
10
对标RTX 3090 Ti
本次发布的RTX 4070 Ti相比RTX 4080确实存在着不小的差距,假如像此前都喊RTX 4080,只在显存名称区分,对于大部分用户来说确实有点混杂。
而这张RTX 4070 Ti的发布才终于和上一代的RTX 30系显卡有所交集,之前发布的4080以及4090都属于吊打上一代产品。
这张卡的亮点部分则是对比RTX 3090 Ti的上一代旗舰,从整个测试来看,在1080p以及2K辨认率,RTX 3070 Ti都有着较大的优势,但在4K辨认率下会被RTX 3090 Ti扳回一城。
但RTX 3090 Ti本身的定位就是生产力工具,24GB的大显存高带宽都是助力更好的内容创作。所以对于游戏玩家来说,即便追求极致性能买了RTX 3090 Ti,显存算是浪费了一大半。
RTX 4070 Ti则是定位中高端游戏卡,而2K@144Hz已经算是目前比较高级的展示器规格,这张卡完全可以驾驭,况且加上DLSS 3这样的神技,在4K辨认率下上百帧也是不虚的。
对于广大3A玩家来说,这张RTX 4070 Ti绝对是性能之选,甚至是性价比之选。究竟9499元的RTX 4080虽然在性能上强过RTX 4070 Ti不少,但3000元的差价,足以让任何人再三斟酌了。
并且对比RTX 3090 Ti来说,虽然输在4K辨认率下,并不属于全面超越。但价格优势同样明显,一款6499元的RTX 3090 Ti你不动心吗?
最后,本次RTX 4070 Ti显卡的售卖时间比性能解禁时间晚一天,为1月5日的22:00点,有兴致的用户不妨关注起来。
11
附录1-NVIDIA Ada Lovelace架构解析
Shader Execution Reordering (SER)着色器执行重排序
SER主要的作用是提升着色器性能,它可以将效率低下的工作负载,动态重组为更高效的工作负载。主要针对光线追踪的性能提升非常大。
简单地说,GPU在执行类似工作的时候效率最高。但随着光追效果越来越强大,每个场景可能有数百万条光线照射在不同材质上,而我们知道不同材质的反射率,以及反射效果也是不同的。所以这样就为着色器创建了大量的、发散的,效率低下的工作负载。
SER则可以将这些杂乱的指令重新分门别类,动态重组为更高效的工作负载。依据NVIDIA的说法,SER可将着色器性能最多提升2倍,并将游戏帧率最高提升25%。
举个简单的例子,当光线第一次从发射端到碰撞端是非常有法则的射线,而碰撞到物体后的二次光追,则会出现大量发散的、无法则的反射,这对于光追负载是非常高的。而从图中便能看到,SER可以将这些指令进行二次排序,以发扬出着色器的最大性能。
不过好在这么实用的功能并不是RTX 40系的专利,它是一个易于集成的SDK,目前需要游戏开发商集成在游戏中。另外由于它是一个通用的逻辑,后续也有可能直接集成在Windows的API中,这样游戏开发者就无需特意引用,直接调用系统API即可。
可以说SER对于手持RTX 20系及以上(能够开启光线追踪)的N卡用户来说,是极大地福音。究竟免费提升的光追性能,谁不喜欢呢。
第三代 RT Cores
RT Core的作用在于更快的光线追踪计算能力,假如说在RTX 30系显卡中,想要畅享4K高帧率游戏有点食力,那么RTX 40系显卡中,将显得轻而易举。
在GeForce RTX 4090这张显卡上,达到了191 RT-TFLOPs的处理能力,而RTX 30系显卡最快处理能力为78 RT-TFLOPs,足足为2.4倍。并且依据NVIDIA的官方说法,第三代RT Core的峰值RT-TFLOPs相比于前代提高了2.8倍。而这只能阐明,这张4090并非Ada Lovelace架构的最终形态。
Opacity Micro-Map Engines
在第三代RT Cores中引进了两个重要的硬件单元,首先是Opacity Micro-Map Engines,可以理解为微映射透明度引擎,它主要的作用是优化光线追踪渲染,可大幅减轻着色器的工作负担。
比如树叶之类的复杂物体,不同的光线都会影响它的表现状态,以及树叶之间的光线反弹,所以对于光线追踪的计算量是浩大的。
不过Opacity Micro-Map Engines可以将光线追踪特性烘焙到不透明蒙版中,所以那些不规则外形和半透明的对象,也就能够更快更精准的渲染出来,从而极大减轻着色器的工作负担。
Displaced Micro-Mesh Engines(DMM)
Displaced Micro-Mesh Engines可理解为微网格置换引擎,它构建光线追踪的BVH(Bounding volume hierarchy)的速度提高了10倍!所使用的的显存减少了20倍!
DMM由第三代RT core本地处理,与前几代相比,它只使用基本三角形渲染复杂几何图形,极大减少了存储和处理需求。
具体的工作原理从图中一目了然,新的DMM可以将面数非常多的复杂图形做简化,发明出简单的模型,但整体的光线追踪效果不变。
通过一些模型数据我们可以具体看到,新的DMM将模型简化了多少。原本1100万三角面的模型,经过简化后,只有15万左右的微网格,BVH的构建速度提升了8.5倍,小了6.5倍。
而这还不是最夸饰的,越复杂的模型往往优化的效果越好,在官方展示的这几组对比示例中,最快可提升大于15倍的速度,容量简化20倍的模型。
第四代 Tensor Cores
除了光追单元的升级外,第四代张量核心的升级更加恐惧。它摘用了新的FP8张量引擎,在GeForce RTX 4090这张显卡上,吞吐量达到了1.32 Tensor petaFLOPs,提高了5倍。
注重这里的单位——petaFLOPs。以往的TFLOPs为万亿次浮点运算,而petaFLOPs则为千万亿次浮点运算。
DLSS 3
本次推出的DLSS 3也是RTX 40系一大卖点,从DLSS 2.3直接迈进了DLSS 3版本,也能看出此次的升级之大。而DLSS 3也被NVIDIA官方称为神经网络渲染新时代。
全新的DLSS 3在原有的DLSS超辨认率的基础上,添加了光学多帧生成技术,以生成全新的帧,而不像原来只能生成像素。
DLSS 3结合了DLSS超辨认率、DLSS帧生成和NVIDIA Reflex这三大技术,能够重建八分之七的像素,极大提高性能。
在GPU受限的游戏中,比如2K辨认率及以上的更高辨认率,DLSS 2能够将帧率提高2倍,DLSS 3则能够提升4倍。
本次DLSS 3跨越了一个大版本,从想法和原理上也再度升级,完全“猜想”1帧的技术,我们阐明起来简单,但实施起来需要大量的推理与演算,以及绝对超前的想法。
不过“凭空”生成的1帧,在延迟上绝对要比DLSS 2高。所以此次完全的DLSS 3中,捆绑了NVIDIA Reflex,可以有效扶助减小延迟。
这也不负NVIDIA给它起了个“神经网络渲染新时代”的名号。纵看目前市面上的XeSS、FSR技术,DLSS绝对称得上“巨人的肩膀”。当然,连年的创新,苦的是手持上一代显卡的玩家,想体验DLSS 3的帧生成,目前唯一的方法就是购进一张RTX 40系显卡。
New Optical Flow Accelerator
New Optical Flow Accelerator光流加速器是在第四代Tensor Cores中最新引进的,这也是为何DLSS 3中的帧生成为RTX 40系显卡独享。
光流加速器在原本DLSS 2的基础上,还可以计算两个连续帧内的光流场,能够捕捉游戏画面从第1帧到第2帧的方向和速度,从中捕捉粒子、反射和光照等像素信息。并分别计算运动矢量和光流来获得精准的阴影重建效果。
以《赛博朋克2077》为例,在第一帧,光流加速器会捕捉到每一个像素中的粒子、反射和光照等信息。并在第二帧中查找匹配的像素区域,计算帧之间的差值。
假如说原来DLSS 2能够“猜”出一张图剩下的像素,那么DLSS 3除了这些,还能够“猜”出下一帧的画面。
另外由于DLSS 3的帧生成是在GPU中处理和运行的,所以即使碰到CPU瓶颈的游戏,AI同样能够提升帧率。这也是为什么在此次发布会中说到,DLSS 3能够突破CPU的限制来提升帧数。
双AV1编码器
本次升级的第八代NVENC编码器可以说是直播、视频、后期工作者的极大福音。它首次加进了对AV1编码的支持,最显而易见的效果就是直播。
相比传统的H.264编码,AV1编码的效率平均提升了40%,在同码率下AV1编码的画质将更好。目前大部分直播的辨认率和清楚度,均受限于平台规定的最大比特率。以Twitch限制的8Mbps为例,可以看到在同等带宽下,同为2K 60帧的画面,摘用AV1编码的清楚度明显比H.264更高。
说起直播,OBS信赖大家都不陌生,在10月份即将发布的补丁中,OBS就加进了对NVENC的AV1编码支持
当然,直播只是我们更轻易见到的AV1优势,在视频工作的所有环节,AV1编码都可以带来极大提升。
所以,如图所见。NVIDIA已经为广大用户展好了一条完全的生态链,从编码API、软件、平台到播放器,将全面支持AV1编码。
另外再说一下NVIDIA一直强调的双AV1编码。顾名思义,即部分显卡内搭载了两个编码器,它所带来的效果也是显而易见的。
首先,依据官方宣扬的,在4K H.265的导出速度上,RTX 4090是RTX 3090 Ti的2.2倍;在8K H.265的导出速度上更是达到了2.5倍。这部分的提升,大家常用的剪映同样适用,感兴致的用户不妨亲自体验一下。
除了导出速度,8K 60帧的视频录制在以前简直难以想象,而双编码器的好处就是可以将图像一分为二,两个编码器分别处理7680×2160的图像信息,最后拼合完全。
关于编码部分,可能大部分用户的感受不深,但当有一天,你想录屏的时候,却发现显卡不支持,才会发觉它的重要性……
随着图像逐渐进进到超清时代,硬件编码和渲染几乎已经成为不可或缺的帮手。虽然论质量,硬件编码仍不及CPU软编,但软编做到了极限画质,也要承担时间的无穷长。甚至在一张8K渲染图中,两种编码方式的时间差距就已经达到了几个小时,遑论一段10秒的CG动画。在不断进取的硬件编码中,质量和时间也在不断地被挑战和刷新。
12
附录2-Ada Lovelace是谁?
Ada Lovelace(1815-1852)是英国数学家、计算机程序创始人,建立了循环和子程序概念,被称为世界上第一位程序员。
Ada从小对数学有极高天赋,其父称她为“平行四边形公主”,后来的协作伙伴Charles Babbage称她为“数字女巫”。在19岁时Ada嫁给了自己曾经的科学家庭教师,婚后的她对数学热情不减。
1842年到1843年花了9个月时间翻译了Babbage的《分析机概论》的备忘录,写了很多注记,其中给出了用计算机进行Bernoulli数求解的详尽阐明。由此,Ada被广泛认为是世界上第一个程序员。
而以她名字命名的语言——ada语言,已经成为了美国军方开发战斗机等尖端武器的语言。
从几行简短的生平简介中,不难看出Ada的生命虽然只经历了短暂的37个春秋,但却足以被后人铭记。
这也是为什么此次NVIDIA RTX 40的先行宣扬中,用到了“以未来敬传奇”的slogan。