手机号
验证码

正在加载验证码......

请先拖动验证码到相应位置

密码
确认密码
已有账号, 立即

已发送密码重置邮件到您的注册邮箱,请立即点击密码重置链接修改密码!

验证邮件24小时内有效,请尽快登录您的邮箱点击验证链接完成验证。若未收到邮件请先确认是否在垃圾邮件中。

查看邮箱

找回密码

手机号
验证码
新密码
确认新密码
没有账号? 立即 注册
Follow us on
@EVOLIFE 公众账号
On Wechat
@爱活新鲜播
On Weibo
@EVOLIFE.CN
On Instagram
Nina@evolife.cn
Mail us
@RSS
Follow our feed
追光者 NVIDIA GeForce RTX 2080 Ti图灵架构浅析
penylo|2018/09/14测评 电脑 
36 39
测评 电脑 
penylo2018/09/14
追光者 NVIDIA GeForce RTX 2080 Ti图灵架构浅析

扮演领导者:图灵显示引擎及视频引擎

Turing 的显示引擎采用了全新的设计,可以支持 DisplayPort 1.4a。

DisplayPort

DisplayPort 1.4a 的带宽规格和 1.4、1.3 一样,都是每信道 8.1Gbps,四信道的时候有效带宽是 25.92 Gbps,只能满足 8K 30fps 的 24.48Gbps 带宽需求。

不过 NVIDIA 现在也支持 DSC 1.2 视频流压缩技术,可以在视觉无损的情况下提供 8K 60fps 的显示器支持。

当然,前提除了用户需要有Turing 显卡,还需要支持 DSC 1.2 的 8K 显示器和 DP8K 认证信号线,缺一不可。

Turing 的显示流水线内建了 HDR 处理支持,支持 HDR Tone Mapping(影调映射),可以实现在标准动态范围显示器上呈现类似于高动态范围画面效果。Turing 的 Tone Mapping 方程由 ITR 最新的 BT.2100(比 BT.2020 增加了 PQ 和 HLG 两种传输函数)定义,能避免在不同 HDR 显示器上的色彩偏移问题。

USB-C 和 VirtualLink 显示接口

此外,Turing 还首次引入了 USB-C 和 VirtualLink 显示接口界面的支持,这对于改善目前高端 VR 头盔的线缆汤面有显著的好处。

例如下图是 HTC VIVE 的线缆链接示意图,可以看到头盔需要连接三条电缆,分别是反馈信号的 USB、显示信号线、头盔电源线。

DSCF9779

现在的VR线材布局惨不忍睹

Turing 引入的 USB-C 输出可以支持 HBR3 四信道 DP 支持或者 HBR3 双信道 DP+ 双信道 SuperSpeed USB3 支持。

而 VirtualLink 则跟进一步,在提供 HBR3 四信道 DP 的同时还支持 SuperSpeed USB 3 用于传输反馈控制信号。

USB-C 和 VirtualLink 都能为头盔供电,其中 USB-C 提供了 100 瓦的可选供电支持,而 VirtualLink 则是强制 5 瓦、可选 27瓦。

_DSC7229

如果头盔的耗电在 27 瓦内,使用一根 VirtualLink 就能满足包括供电、显示、控制反馈,比目前的三根线要简单多了,而它的接口同样是 USB-C。

目前 VirtualLink 获得了 NVIDIA、AMD、微软、Oculus、Valve 的支持,但是 VR 头盔的重要厂商 HTC 并不在列。

增强的视频编解码单元

Turing 对视频引擎做了增强,NVENC 视频编码器现在可以支持 H.265 8K 30fps 编码,比之前 GP102/GP104 的码率降低 25%,而 H.264 方面也实现了 15% 的码率改善。

在视频解码器 NVDEC 方面,Turing 现在可以支持 HEVC YUV 4:4:4 10/12 HDR 30FPS、H.264 8K、VP9 10/12 HDR 等规格视频的硬件解码。

速度更快、码率更低的视频编解码速度可以让超高清直播成为可能。

NVLink 高速 SLI 并行渲染

1

SLI 是 NVIDIA 在 2004 年的时候推出的多卡并行渲染技术,它可以让不同的显卡一起渲染画面并合并输出,实现性能的提升。

早期的 SLI 根据产品定位的不同,分为需要和不需要使用桥连接器两种,使用桥连接可以绕过 PCIE 总线实现更快的画面合成。

但是现在 NVIDIA 已经把 SLI 定义为高端发烧级应用,像 GeForce GTX 1060 已经不再支持 SLI,GeForce GTX 1060 要实现多卡并行的话,需要游戏使用显式 MGPU 代码才能实现。

所以,像 Pascal 或者说 GeForce 10 这一代显卡,只有 GP104、GP102 提供了 SLI 支持,它们都提供了 SLI 桥接用于提升 SLI 速度。

nvidia_architecture_gp102_another_form_evolife

GeForce 10 使用的 SLI 桥接器叫做 SLI HB,HB 即高带宽的意思,其带宽是像素时钟频率 0.65GHz 乘与 3 字节(RGB 各一个字节),合计约 1.95GiB/s 带宽。

1.95GiB/s(15.6Gbps) 的带宽可以满足 4K 60Hz(12.54Gbps)输出使用,但是遇到更高分辨率例如 8K 或者 4K 高刷新率的时候就会欲求不满。

nvidia_architecture_turing_another_form_evolife

基于 Turing 的 TU102 和 TU104 都集(NVIDIA 称之为两个 Brick)的 NVLINK 2.0 高速总线,其中 TU102 集成了双通道,可以提供各向 50GiB/s 的带宽,TU104 集成了单通道,可以提供各向 25GiB/s 带宽,均远远高于 HB SLI 的 1.95GiB/s。

NVLINK 最初用作超算应用的,还曾经出现过有 NVLINK 的 GPU 不允许销售至中国的说法。

现在,基于 TU102 的 GeForce RTX 2080 Ti 和基于 TU104 的 GeForce RTX 2080 都以 NVLINK 总线提供 SLI 桥连接,桥接器的名字就是叫 GeForce RTX NVLINK Bridge。

有了 NVLink 后,SLI 跑 8K 多屏环绕也成为了可能,而且可以满足疯狂玩家高帧率游戏、超高分辨率 VR 渲染应用。

_DSC7227

后手:图灵的高级渲染

NVIDIA 介绍了多种 Turing 架构的高级渲染技术,其中有 Mesh Shading(网格着色)、Varable Rate Shading(比率可变着色)、Texture Space Shading(纹理空间着色)、Multi-View Rendering(多视图渲染)、Resource Management and Binding Model(资源管理及模型分仓)。

其中 Foveated Rendering 包括了三种应用:Content Adaptive Shading(内容自适应着色)、Motion Adaptive Shading(运动自适应着色)、Foveated Rendering(中央高细节渲染)。

这些高级渲染技术涵盖了复杂场景、虚拟实景以及 DX12 补完,我们现在先说一下 Mesh Shading。

Mesh Shading

图形渲染要模仿的真实世界是五彩纷呈,构造复杂的。户外场景尤其如此,包含数以千计的元素:石头、树木等。计算机辅助设计也面临类似的复杂构造挑战。

例如,一张包含有 20 万个物体的画面,在实时渲染中,留给几何计算的时间片可能只有两毫秒,而每个物体的 LOD(细节层级)计算和渲染调用只有 10 纳秒(0.00001 毫秒),对 CPU 来说太难了。

目前的图形渲染流水线中的顶点、tessellation 以及几何着色等工位跑单个物体的细节都是非常高效,但是依然存在限制。

每个物体需要有自己来自于 CPU 的渲染调用,而着色器模型是个逐线程模型,这限制了可用算法的类型。

图灵的网格着色(Mesh Shading)引入了一个新式、更灵活的模型,让开发人员消除 CPU 渲染调用瓶颈,使用更高效的算法来生成三角形。

mesh_shading

上图所示就是基于 Mesh Shading 的流水线(下)和传统几何处理流水线(上)对比。

在目前的几何处理流水线上,开发人员可以使用顶点着色器为光栅器直接生成三角形,也可以使用 Tessellation Shader(Hull Shader、Tessllation、Domian Shader)处理片元(patch),使后者被细分后生成最终的三角形交给光栅器处理。

而在 Mesh Shading 流水线中,引入了两个新的着色器工位:Task Shader 和 Mesh Shader,它们分别对应旧流水线上 Vertex Shader 以及 Tessellation Shader,但是灵活得多。

Mesh Shader 的作用是生成三角形给光栅器,但是不再是以单线程的方式跑,它内部是以类似 Compute Shader 的协作式多线程方式运作。

在 Mesh Shader 前面的还有 Task Shader,它执行的操作类似 Tessellation Shader 的 Hull Shader 工位,但是内部也是类似于 Mesh Shader 那样采用了协作式多线程,不再是固定的获得一个片元然后由 Tessellation 工位决定输出,而是由开发人员定义其输入和输出。

mesh_demo_2

上图是 NVIDIA 的 Mesh Shading 技术演示程序截图,场景呈现除了一个充满挑战性的环境, 在这个画面中, 屏幕视角有广泛的视野,其中包含了数十万个单独物体。

在采用 Mesh Shading 流水线的情况下,开发人员现在可以向 GPU 发送一个包含有许多物体的列表,而不是像旧式流水线那样每个对象都以一个渲染调用的方式从 CPU 发送至 GPU。

Task Shader 收到物体列表后,将并行地处理该列表,然后启动 Mesh Shader 来计算相关的三角形,处理后的三角形之后就会递交到到光栅器完成光栅化处理。

这种处理方式避免了 CPU 进行物体处理的瓶颈,实现物体数量超过一个指数级增长的场景的实时渲染。

mesh_demo_3

上图是计算机辅助设计中常见的汽车动态剖视图画面(软件是 NVIDIA Holodeck,图中是一辆来自瑞典 Koenigsegg 公司的跑车),图中球形边界定义的球形剖面内的所有几何体都被消除,呈现出了汽车在该区域内各个元素结构的细节。

Mesh Shder 和 Task Shader 能根据相对于球面的位置来剔除和修改几何体来实现动态执行这项操作。

Varable Rate Shading(比率可变着色)

随着每代新游戏计算性能需求的与日俱增,NVIDIA 一直尝试寻找可以让开发人员消除着色处理操作而又不影响最终渲染画面品质的办法。

在之前的 GPU 世代中,NVIDIA 曾经引入了包括多分辨率渲染(MRS)、镜头匹配着色(LMS)来 VR 相关的优化渲染负载。

VR 系统的一个重要特性是它的透镜系统在光学上焗油不同的分辨率和视面采样率。

MRS 和 LMS 可以让开发人员将渲染表面拆分为 16 块,让每个区域都与镜片取样率相匹配,而非对所有地方都以满足最高局部取样率的方式进行过度渲染。

Turing 架构引入了一个灵活百倍的新功能——比率可变着色(VRS),该功能可以实现着色比率的控制。

有了 VRS 后,着色比率可以动态调整至极为精密的水平——屏幕上每个 16 像素 x 16 像素(合计 256 个像素)的区域都可以具备不同的着色比率。

如此精密的控制可以让开发人员部署新的算法,实现之前难以实现的着色比率优化,进而提升性能。

vrs_001

上图左侧是不同着色比率的色彩示例,右侧画面中的不同色块代表了该区域使用的着色比率。

如果没有 VRS 的话,上图场景中的所有像素都会被独立着色,相当于 1×1 栅格所示那样。

有了 VRS 后,三角形的像素着色比率就可以动态调整了。

对于每个 16×16 像素块,开发人员可以有 7 种选项可选(例如上图左侧),例如设置为只渲染 4 个像素、16 个像素,甚至是非正方形的像素比率,例如 1×2 或者 2×4。

Turing 的 VRS 可以让场景以每个可视性样本渲染一次或者是每 16 个可视性样本渲染一次的多种比率来渲染。

开发人员可以使用纹理来在空间上指定着色比率以及每个图元的着色比率属性。如此一来,每个三角形就可以使用多种渲染比率来渲染,让开发人员具备粒度非常细的控制。

NVIDIA 提供了三个可以使用 VRS 的强大算法:

内容自适应着色:在渐变色区域降低着色比率;

运动自适应着色:可以不停地对运动对象的着色比率作调整;

视网膜中央凹着色(Foveated Rendering):对远离视野中心的区域降低着色比率。

内容自适应着色

内容自适应着色就是通过考虑空间和时间(跨帧)颜色连贯性等因素,对着色比率进行降低。

也就是说,下一帧画面不同部分的着色比率,是由当前帧结束时的一个后处理步骤计算得出。

如果当前帧某个区间(例如天空、墙壁)的细节度相对较低,则下一帧该区域的着色比率会被局部调低。

后处理分析的输出结果是一张按照每 16×16 为一个分块标记一个着色比率的纹理,该纹理会被用于确定下一帧画面着色比率。

开发人员只需要稍微修改一下着色器程序,就可以使用内容自适应着色缩减而无需对已有的渲染流程做出调整。

content_adaptive_shading_full

content_adaptive_shading_vrs

上图左上角是场景中的某个画面,其中的绿色框框住的位置被我们拿出来放大便于观察,其余三张图片都是方框部分,这三张图片都使用了前面的不同颜色的覆盖层来表示着色比率。

左下角的垂直平坦墙壁使用了最低的着色比率(红色 4 x 4),仪器和表盘则使用了最高的着色比率(没有覆盖层,也就是 1 x 1),画面中的其余部分使用了不同的着色比率。

右边两张分别是内容自适应着色关闭和开启的对比(它们都没有画上代表着色比率的覆盖层),可以看到在视觉上两者并没有差别(画面存在的差别部分主要是因为截图的时间不一样而仪器是在运作的)。

运动自适应着色

VRS 的第二个算法应用是运动自适应着色。

人眼对运动物体的跟踪是线性方式的,所以即使物体移动我们的眼睛也能看清上面的细节。

然后对于液晶显示器来说,显示的物体并非平滑的或者说不连贯的,这些物体是以显示器刷新速度例如 60Hz 更新一次”跳”到下一个位置。人眼会尝试平滑地跟踪显示器上画的物体,由于物体前移的位置要落后于眼部跟踪的轨迹,所以这些物体看起来像是在视网膜上来回摆动。这样产生的最终结果就是我们看到的是低分辨率或者模糊的版本,没法看清楚显示器上移动物体的细节。

如下图所示:

vsr_mas

上图中左侧的 NVIDIA 商标显示于显示器上,当它从左边向右边移动,在眼睛看来却像是跳跃式的往返。眼睛对运动整合后,看到的就是上图右下方的图像,一个较低分辨率版本的商标。

这种现象揭示的意义是,当物体在场景中快速移动的时候,使用全分辨率来对它着色是会造成浪费的,使用较低的着色比率来渲染的话,其画面效果和使用更高的渲染比率可以视作相等,但是效率会更高,而优化着色后节省出来的资源可以实现更高的帧率。

VRS 此时可以派上用场,我们可以使用运动的方向和幅度来直接确定每个区块的着色比率。

例如运动模糊效果,一般都是显式渲染的,程序可以直接算出单个物体的模糊方向和程度,然后我们就可以使用模糊的延伸量来设置物体每个三角形的着色比率了。

内容自适应渲染和运动自适应渲染可以合并使用,每个像素区域和三角形的最终着色比率可以透过一个应用程序指定的双比率函数来计算得出。

视网膜中央凹着色(Foveated Rendering)

VRS 的第三个应用就是视网膜中央凹着色,所谓的视网膜中央凹着色就是,根据日常观察,我们发现眼睛的可感知分辨率取决于视角。

1_QOGfDSjnv06FJqFf5myqxw

Foveated-Rendering-on-the-Oculus-Go

视网膜中央凹着色是基于这样的观察结果:人类眼睛的感知取决于视角,对于视野范围内的中信物体我们的眼睛具有最好的视觉分辨率,但是对外围物体的视觉分辨率要低得多。

因此如果眼睛的位置是确定的话,就可以将这个原理应用于调整着色比率:对视野外围物体使用较低的着色比率,对视野中心区域的物体使用更高的着色比率。

最后,除了调低着色比率外,VRS 还可以让开发人员增加着色比率,例如在执行多样取样抗锯齿(MSAA)的时候,开发人员可以使用 VRS 调高每个像素基线的着色比率,例如 2x、、4x、8x,不过着色比率数量不能超过 MSAA 的取样数。

纹理空间着色(Texture Space Shading)

Turing 引入了名为纹理空间着色的技术,它的概念就是动态计算着色值并将其作为纹理空间中的纹理元素存放到纹理中。稍后,当像素被纹理映射的时候,也就是屏幕上的像素被映射至纹理空间后,对应的纹理元素就会被标准纹理查找操作进行采样和过滤。

有了 TSS 这项技术后,我们就能以完全独立的比率和分离(脱耦)的坐标系统对可视性和外观进行采样。开发人员透过 TSS 可以重新使用脱耦的着色空间里已经完成的着色计算,实现性能和画面品质的同步提升。

我们可以使用 TSS 来拓展空间域和时间域的渲染冗余。透过将着色处理从屏幕像素栅格脱耦,TSS 可以达到高稳定性的帧率,因为着色的位置不再是从一帧到下一帧了。这种时间域稳定性对于像 VR 这种在画面品质、无混淆失真、时间域闪烁等有极高改进要求的应用来说是至关重要的。

由于继承自纹理贴图的 MIP-map 层次结构或者说金字塔式的图片结构,TSS 具有与生俱来的多分辨率灵活性。

当对一个像素进行着色的时候,开发人员可以调整其至纹理空间的 mipmap,其 mipmap 级别或者说细节度会被选定,相当于对着色比率进行精细的控制。由于在低细节度时候的纹理元素较大,这些纹理元素可能会覆盖物体的更大部分,可能会跨越多个像素。

TSS 会记住哪些纹理元素已经被着色,它只会对那些新近请求的纹理元素进行着色处理。被着色过的纹理元素,可以在同一帧、相邻场景或者随后的帧中的其他着色请求中被重复使用。

透过控制着色比率以及对之前的纹理元素重复使用,开发人员就能管理渲染时间,在诸如 VR、AR 等应用中维持固定的时间预算。

开发人员也可以透过同样的机制,对一些低频现象的画面(例如烟雾)调低其着色比率。将着色结果保存起来的好处还可以适用于顶点和通用计算上。

TSS 的底层结构使它可以记住并重复使用任何复杂计算结果。

纹理空间着色的的运作机制

mechanics_of_tss

上图所示的是传统光栅化和着色过程。场景被光栅化后,就会转换为屏幕空间上的像素,这些像素会进行可视性测试、外观着色以及深度测试。同一个屏幕空间上像素栅格里每一个像素都会执行这些操作。

TSS 的两个主要的操作——可视性采样(光栅化和 Z-Testing 或者说深度测试)以及外观取样(着色),都可以脱耦方式以不同的比率、不同的采样栅格甚至不同的时间线上执行,其着色过程不再与屏幕空间像素密切对应,因为所有的一切发生在纹理空间内。

tss_process

上图所示首先依然是几何体被光栅化至屏幕空间,可视性测试也是在屏幕空间进行,然而接下来发生的着色并非在屏幕空间,原本输出的像素被纹理元素取代。

换句话说,就是屏幕空间的像素覆盖处已经被映射到了一个分离的纹理空间,纹理空间里对应位置的纹理元素执行着色处理。映射至纹理空间是一个标准的纹理操作,对细节度和各向异性过滤等具有相同的控制。

为了生成最终输出到屏幕空间的像素,需要从已经着色的纹理上进行采样。纹理是根据采样需求创建的,只有被引用的纹理元素会生成输出值。

tss_for_vr

TSS 应用的其中一个场合是提升 VR 渲染的效率,例如上图所示。

在 VR 应用中,渲染的是成对的立体化图片,左眼看到的所有元素几乎都会出现在右眼视图中。有了 TSS 后,可以对左眼视图进行完全的渲染,然后对已经完成的左眼视图进行采样完成右眼视图的渲染。右眼视图只需要在没效样本的位置(例如左眼看不到但是右眼可以看到的背景物体)执行新的纹理元素着色处理。

如前所述,有了 TSS 后,每个像素的着色比率可以动态且持续地被纹理细节度控制。透过改变细节度,我们就能根据需要选择不同的纹理 MIP 级别,减少被着色的纹理元素数量。这意味着 TSS 的采样方法也能同样用于实现 VRS 的许多着色比率缩减技术。选择哪一种技术取决于开发人员的选择,VRS 对渲染流水线的影响是轻量级的,而 TSS 更灵活支持更多的应用场合。

多视图渲染(MULTI-VIEW RENDERING)

多视图渲染可以让开发人员从多个视点高效渲染场景,甚至一个渲染过程就渲染完角色不同姿势的多个实例。

Turing 硬件每个渲染过程可以支持多达四个视图,在 API 级别可以最高支持 32 个视图。

在渲染多版本视图时,透过单次完成几何体拾取、着色,Turing 最佳化地实现了对三角形及其关联的顶点属性的处理。

在使用 D3D12 的 View Instancing API 来访问的时候,开发人员只需要使用变量 SV_ViewID 来索引不同的转换矩阵、参考不同的混合权重,或者是根据其喜好控制任何着色器的举止,这一切取决于开发人员正在处理的视图。

有了 MVR 后,每个三角形都可以有一个视图相依的属性以及视图不相依属性的混合体,其数值被所有视图共享。例如,视图相依的其中一个属性是反射方向,它取决于眼睛的位置、顶点位置、法线向量。

为了提高效率,NVIDIA 的编译器会分析输入着色器,然后编译出一个执行一次的视图不相依代码,其执行结果会共享至所有输入视图,而每个视图都需要使用其视图相依属性执行一次必要的计算。

Turing 的 MVR 技术其实就是 Pascal 架构同步多投影(SMP)的扩展,

不过 SMP 存在若干限制,例如视图数最多是两个,相依属性局限于顶点 x 轴及光栅化的视口,每个视图可以多路投射到最多 16 个预配置的投影机或者视口上,用以支持诸如镜头匹配着色等应用。

而 MVR 则去掉了视图相依属性限制,增加了可支持的视图数量,同时还继续提供了每个视图最多 16 个视口的支持。

MVR 最常见的一个应用就是作为 Pascal 架构 SPS(单次立体化)功能的扩展,加速虚拟现实渲染。

最初的 SPS 允许眼睛只能以与投影相同的方向彼此水平偏移,这样的头戴式显示器(HMD)配置既简单有合乎逻辑,因为人脸是非常对称的,而 HMD 几乎都使用单一投影平面。

许多 HMD 都对双眼使用单个物理显示器,不过高端 HMD 以及具备广角视场的新设备需要更高的视图灵活性,以便使用上 VR 工作负载中仍然可用的冗余几何处理。

mvr_case

上图所示的是一个视角达到 200 度的 HMD 配置,其中使用了两个倾斜显示面板,这正是 MVR 发挥用武之地的场合。

MVR 的灵活性还有助于支持标准立体 VR 显示器实现更精确的用户脸部对齐校准。在立体渲染中,有一个简单的假设:认为眼睛只在 x 方向或者说水平方向移动,这样的假设是不太正确的。在实际中,存在一些额外的不对称性,需要独立投影才能实现最高立体视觉保真度对齐。

mvr_case_02

上图是 MVR 其他的其他应用场景。

其中,左上方展示的是 MVR 实现单次完成四个阴影缓存渲染。

右上角是来自于同一个网格渲染的两个角色,这个网格只拾取一次,其视图 ID 被用于控制单次渲染生成两个实例。

下方几个图框展示的是单次级联阴影贴图(cascaded shadow map)渲染。

资源管理以及模型绑定

在 DX12 中,引入了允许着色器程序直接访问资源视图而无需显式资源绑定步骤的功能。

Turing 进一步拓展了资源管理的能力,可以支持常数缓存视图(Constant Buffer View)与 UAV(Unordered Access Views,无序访问视图)的绑定,这是属于 DX12 Resource Binding Specification 的 Tier 3 功能。

Turing 更灵活内存模型可以允许多个不同的资源类型(例如纹理和顶点缓存区)共同位于同一个 heap (堆)中,从而简化了应用程序内存管理的各个方面。Turing 可以支持 DX12 Reouce Heap 的 Tier 2 层。

突破次元壁障:Turing 与虚拟现实

vr_turing

Turing 有大量和 VR 相关的新技术,可以显著提升 VR 和 HMD 体验,例如光线追踪、新的着色技术、连接界面等等,这一节就是专门把前面 VR 相关的内容整合起来给关心 VR 技术的读者阅读的。

首先,Turing GPU 集成了专门电路来实现 USB-C 和 VirtualLink 支持,这是新式的开放性工业标准,单根 USB-C 接口电缆就提供了 VR 头盔所需要的供电、显示、数据传输三大功能,使得 VR 头盔从目前的三个线缆减少到一根线缆,大大降低了连接的复杂性,提高了 VR 使用体验。

另一个 Turing 实现的 VR 体验增强功能是 Multi-View Rendering (MVR)。MVR 是 Pascal 架构引入的 SMP 功能的扩展,SPP 可以对跨越两个不同投影平面的单个几何数据流进行处理,使其可以跨越至两个不同的投影中心,实现高效 VR 立体显示渲染。Turing 的 MVR 对 SPP 进一步拓展,使得视点投影平面数量从两个拓展到四个,使 HMD 制造商能够将额外的视点投影用于倾斜的环绕式侧视图,从而提高其沉浸感。

视网膜中央凹着色(Foveated Rendering)是 Turing 新的 VRS 技术在 VR 上的一个应用。VRS 可以让开发人员以非常小的粒度进行着色比率控制,视网膜中央凹着色则是利用 VRS 实现画面中心采用较高着色比率而外围使用较低着色比率的着色方式,可以有效提高 VR 渲染性能,同时又维持较高的画面品质。

VR 沉浸感不仅取决于画面,VR 中的三维音效同样起着至关重要的作用。目前所有的三维游戏都透过简单的直接声音定位来提供三维声音。NVIDIA VRWORK Audio(Pascal 开始引入)透过 OptiX 软件光线追踪引擎提供了双耳声音元素,用来实现更好的间接音效。Turing 集成了 RT Core,可以硬件加速的方式实现该功能。

5
文章来自:爱活网
了解更多

发表评论

全部评论 39条
  1. 匿名:

    这谁写的,还能不能让人开开心心的看了……

    1. 匿名:

      为啥不能开心看啊?

  2. 匿名:

    听说这次不怎么样?

  3. 匿名:

    这是英伟达的工程师退休后来爱活当编辑了么?

  4. 匿名:

    纠个错,第二页最后一张图上面的“每个子核可以每个周期执行一个 Warp 或者说 32 个单精度 FMA 操作”应该是“32 个指令操作才对”吧,没SM只有16FP+16INT,要双周期才能跑一个Warp的fp32 FMA啊

  5. 匿名:

    第五页内容自适应着色部分的配图错了吧

  6. 匿名:

    感觉超过了anandtech

  7. 匿名:

    爱活网把开箱文写成了航空母舰,这是要上天啊

  8. 匿名:

    我不是针对谁,其他站的图灵文相比之下都是。。。。。

  9. 匿名:

    爱活又出了一篇全网模板

  10. 匿名:

    原来rtc和s“m”是一一对应的

  11. 匿名:

    原来rtc和sm是一一对应的

  12. 匿名:

    终于搞明白了smx tpc smm的区别,赞

  13. 匿名:

    我有个问题,以前把Pixel Shader和Vertex Shader合到一起都费牛劲,现在又分开成RT Core和CUDA Core,那不是又效率低了么 ?

    1. 匿名:

      因为是简单且”大量”重复的操作,做成硬线后,性能耗电比会高很多呀,你可以把 RT Core 想象成纹理单元之类的东西,更重要的是,raytracing 这个东西以后就是趋势,RT Core 不像着色器那样每个开发人员都有不同的想法,它集成的就是很简单的操作。

      1. 匿名:

        vs/ps分离设计也很有效率。rtcore应该打散融入smx,公用寄存器才是最理想的?

  14. 匿名:

    原来光追是集成在各sm里的?

  15. 匿名:

    Volta是NV竞标美国超算中标之后,专门为橡树岭SUMMIT做的,不用来给消费端很正常吧

  16. 匿名:

    文章规格上我有问题,之前我跑GP10x L1跑出来都是16k,哪有宣称的32k/64k?

  17. 匿名:

    值得其他媒体小编抄袭

  18. 匿名:

    不亚于当年的zen评测

  19. 匿名:

    跪着看完了,比学校讲的透

  20. 匿名:

    哇,小纯觉得好厉害

  21. 匿名:

    重点是光线追踪游戏什么时候可以玩到

  22. 匿名:

    光学追踪这么厉害的吗?

版权 © 2017 爱活网 Evolife.cn 科技进化生活
[沪ICP备2021031998号]