UE5 离线渲染工具架构 & 第三方库调研

公司里我所在的小组每两周会安排人轮流在组会上进行分享（也没这么规律）。内容以技术为主，比如纯技术，或者比较通用/有特色的业务，或者相关的前沿领域（也有讲游戏设计的）。由于没在做什么很通用的模块，对各种东西也没有很硬的了解，我基本上就介绍一下UE的某个业务模块，主要是怎么用，大致思路是什么。

上班以来我已经做了两次分享了（虽然看人数其实不应该这么频繁），就在这里留个档。当然不会把做的各种资料直接放出来，主要是把提纲整理一下备忘。

后续如果我有更多的分享也会继续在博客里同步一份。

这段时间我主要在做试用期的大活，就讲了一下调研阶段看的一些东西。由于事先就写了一些调研文档，所以这次分享的内容成型的比较快。

第一部分是 UE 相关的源码学习，没什么多说的。第二则是图像、视频库（在分享的时候只看了图像库，但后续干活又看了视频库，现在就一起整理一下）。内容涉及一些影视、音视频领域的专业知识。我对各种视频后期软件都基本会用，很早的时候也有一个便宜的单反相机（新鲜劲一过就吃灰了），但对领域专业知识其实没了解过，所以经常看到一些眼熟但又不明所以的概念，挺有意思的。

跟把大象装到冰箱里一样，离线渲染也可以划分为三步走：

组织场景数据送去渲染
读回渲染结果
把渲染数据输出到磁盘上

如果仅从工具层面上理解 MRQ，不关心 Sequencer 工具（负责把场景组织为用户想在这一帧看到的样子）、渲染模块（负责渲染并提供接口从 GPU 读回渲染结果）的事情，剩下的也是这次分享的主要内容：

驱动游戏以合适的 delta time 前进，在该渲染的时候进行渲染
把渲染结果输出到磁盘上

这也是为什么题目是离线渲染架构，而不是离线渲染本身，因为渲染那块我暂时不需要看（也看不懂）。

1. 如何使用 UE5 制作视频

Movie Render Queue 是 UE5 的高质量离线渲染方案，从 UE 4.25 被引入。

UE（尤其是 5.0 以后）本身的渲染特性非常强大，MRQ 也支持一些高级的离线渲染设置比如抗锯齿、运动模糊、高分辨率等。现在在视频网站上可以看到很多使用 UE 渲染的片子（比如渲染大赛、PV、广告、MMD之类的），可以说把 UE Sequencer MRQ 加入到离线渲染工作流是现在比较主流的选择了。

MRQ 其实只能输出图片，用户需要再将图片序列自己合成视频。MRQ 之前的离线渲染框架叫做 Movie Scene Capture，是可以直接输出 .avi 视频的，我看了一下是用的 windows 的 directshow，实在是太古老了。MRQ 顶替掉 MSC 后，UE 的 Sequencer 就不支持直接输出视频了，没做的原因我想可能是因为 FFmpeg 的 license 并不是完全的可发布可商用吧。

（不过我调研的时候好像看到 experimental 里好像有 UE 准备在做的自己的视频编码工具。其实有点记不清了。）

2. 驱动游戏以合适的步长前进

对步长的要求

离线渲染跟实时渲染不同，对游戏的 delta time 有两个要求：恒定和准确。

恒定

第一，输出帧之间使用固定的 delta time，视频跟游戏不同，帧之间必须是固定的步长，要不后期没法做了。

注意是“输出帧”之间的间隔恒定，而不是“渲染帧”。因为如果使用时序抗锯齿，或者动态模糊等高级设置，每一个输出帧内会进行多次渲染，把多个渲染帧的结果融合为输出帧的结果。

MRQ 的做法是内部有一个自己的管线 MoviePipeline，在录制的时候会直接接管引擎的 tick 步长的计算。

Engine tick 开始前，计算这一帧的 delta time，并使用计算出来的 delta time 驱动游戏世界的更新；Engine tick 结束后，将游戏世界送去渲染，读回渲染数据并处理成图片，写入磁盘。

准确

第二，尽量使用准确的时间表示方法

主要原因是离线渲染很容易让浮点误差快速累积：

需要支持 23.976 （N 制）这种历史遗留的行业标准帧率，还要跟 24 fps （P 制）区分开
要支持 240 这种非常高的帧率
要支持扩展一些时序上的高级离线渲染设置（如动态模糊），把一个输出帧继续分为多个渲染帧

UE 的做法是在 UE 4.20 引入了时间重构，在 Sequencer 内部引入了 FFrameRate、FFrameTime 两个表示时间的数据结构，使用整数替代一部分浮点数。具体见 https://docs.unrealengine.com/4.27/zh-CN/AnimatingObjects/Sequencer/TechDocs/TimeRefactorNotes/。

FFrameRate 理解为一个”率“，由除数、被除数两个 int 组成。FFrameTime 理解为一个 ”量“，分为整数部分的 uint + 小数部分的 float。

步长的计算

MRQ 中用于计算步长的数据主要有这几个：

TickResolution：率，度量每秒有多少个 ticks
- 不再以秒作为时间单位，把每秒拆分为若干个 ticks，TickResolution 就可以度量 level sequence 逻辑上的播放速率
- 在 Sequencer 点开 Advanced Options 可以修改 TickResolution ，默认是 24000，可以支持绝大多数的真实影片帧率（23.976 = 2400/1001，29.97=3000/1001，24000 是分子的公倍数）
TicksPerOutputFrame：量，度量每个输出帧的 ticks 数
- 根据用户设置的帧率和 Tick Resolution 计算而来
- 24 fps（24/1）每个输出帧就有 1000 ticks，23.976 fps（24000 / 1001）则是 1001 ticks，这样就很好地区分开了
ShutterAnglePercentage，TicksWhileShutterClosed，TicksWhileShutterOpen：量，用于支持动态模糊
- 可以看影视飓风的科普文章 https://zhuanlan.zhihu.com/p/69271958，了解相关的影视概念，文章里 270° 快门角度的图画错了，可以看我下面改的
- 引入动态模糊后，把一个输出帧分为镜头开启、镜头关闭两部分，这些变量度量开启、关闭各有多少 ticks
- 动态模糊可以在 MRQ 里作为高级离线渲染设置被开启，也可以被场景内的后处理盒子、相机设置开启
TicksPerSample：量，度量每个时间采样的 ticks 数，用于支持时间采样
- 也就是把镜头开启时间再划分为多个时间采样，用来做时间上的抗锯齿
- 时间采样在 MRQ 离线渲染设置中进行配置
DeltaFrameTime：量，这一次时间采样的 ticks 数
- 如果不开启时间采样，DeltaFrameTime 其实就是 TicksPerOutputFrame
- 如果开启时间采样
  - 第一个采样的 DeltaFrameTime 为 TicksWhileShutterClosed + TicksPerSample
  - 后续的采样的 DeltaFrameTime 为每一采样的 ticks 数，也就是 TicksPerSample

一图流：

此外，每个采样会把小数部分累积下来，把整数部分加到每个输出帧的第一个采样中。

最后会用 DeltaFrameTime 跟 TickResolution 反算回这一次采样的浮点数步长，传给 engine loop。这样使用整数进行中间乱七八糟的计算，很大程度上避免了浮点数在计算、存储上的误差。

这一部分其实只会介绍 delta time，剩下的都是特定框架下的实现，就不属于此分享里的内容了

在每个采样时间读回渲染数据
累积多个采样的渲染结果，生成输出帧数据

3. 转换渲染数据并输出到磁盘

ImageWriteTask 调度和执行

UE 封装一个 ImageWriteTask 负责从渲染数据到磁盘上的图片之间所有转换工作。每一帧渲染结束后，MoviePipeline 获取这一帧的渲染数据。下一帧渲染开始前，把前一帧的渲染数据组装到 ImageWriteTask。

这个 Task 会 enqueue 到一个 ImageWriteQueue，然后再加入 UE 的任务系统。具体怎么调度的就不细说了，UE 任务这一块虽然很重要不过我也没仔细去看。只简单跟了一下，做了下面这个图示意一下。

ImageWriteTask 执行的时候就会把渲染数据转换为磁盘上的图片文件，主要做这么几件事：

像素预处理
使用封装的第三方库进行图像编码
使用 UE 序列化模块进行存盘

像素预处理首先会做 gamma 矫正。我看了一堆资料，说什么的都有。目前我的理解就是为了提高暗部亮度的存储精度。然后就是转换颜色空间到 sRGB。

图像频库调研

写了使用方法的是我自己用过的。

其中 libpng 库可以说是 .png 格式毫无疑问的选择了，实际用的时候在性能上发现了一点问题：

在缺省情况下，在压缩图片时，libpng 会对图片的每一行都根据某种规则选择五种之一的 filter 进行压缩。

在一个调研（https://github.com/Beep6581/RawTherapee/issues/4045）中发现，在编码生成的图像质量/体积基本相同的情况下，把 filter 指定为 PNG_FILTER_PEATH，把 compression strategy 指定为 Z_RLE 算法。

UE5 使用 libpng 的过程中没有指定具体的参数，但不知为何编码速度比较快（可能是因为测试的图像内容比较单一，也可能是对库进行了修改，没有细究）。

4. MRQ 的其他部分

到此介绍的内容有：

计算 delta time 并与 engine tick 交互
创建写图片任务，在任务系统中调度
执行写图片任务，进行像素预处理、压缩、存盘

MRQ 真正做的事情比这些要多得多，作为高质量离线渲染解决方案，MRQ 会根据用户的高级设置（抗锯齿、时间/空间采样、超分辨率等），自行组织数据送去渲染。

我们今天只介绍了时序上如何 tick 到一个渲染帧进行渲染。对每个渲染帧，其中也会进行若干次的渲染，结构是这样的：

for_loop (tile_y)
{
    for_loop (tile_x)
    {
        for_loop (spatial_render_samples)
        {
            for_loop (render_pass)
            {
                render_pass->RenderSample_GameThread();
            }
        }
    }
}

tile 就是为了支持超分辨率，把一张图片横竖分成很多块分开渲染，再把结果拼起来。此外会对每个空间采样也进行渲染，主要是为了支持抗锯齿（文中只讲了时间采样，其实空间也会采样的）。最后会对每个 render pass 都进行渲染，这个 render pass 就是用户在 MRQ 渲染设置里配置的关于 deferred rendering 的若干选项。

补充：视频和FFmpeg

基本概念

FFmpeg 也是视频领域毫无疑问的选择了（虽然 license 我还没完全看明白怎么回事，暂且先用了）。

FFmpeg 是一个开源软件项目，由一套用于处理视频、音频和其他多媒体文件和流的库和程序组成，是相关领域最被广泛使用的第三方库。FFmpeg 的绝大多数部分使用 LGPL license，少部分使用 GPL license。

MP4、AVI、MKV、FLV 等通常说的视频格式可以理解为容器，里面装着各种具体内容。在一些视频相关的资料中，用 “文件格式” 和 “编码格式” 来区分这两个概念。

AVI 格式是微软在 1992 年提出的封装标准，比较古老，不兼容一些使用现代压缩技术的编码格式
MPEG-4 Part 14（简称 MP4）是目前最常用的容器格式，可用于存储视频、音频、字幕、静态图像等数据，主要用来封装以 MPEG-4 系列标准编码的视频文件
- H.264/AVC 是 MPEG-4 Part 10，是迄今为止最常用的视频内容录制、压缩和分发格式
- H.265/HEVC 是 MPEG-H Part 2，是新兴的高级编码格式，应用也比较广泛。与 AVC 相比，HEVC 在相同的视频质量水平下提高了 25% 到 50% 的数据压缩程度，也就是在相同的比特率下明显提高了视频质量

如 MP4 容器可以装 AVC/H.264 或者 HEVC/H.265 等编码格式的视频 + AAC 或者 MP3 等编码格式的音频 + 一些编码格式的字幕。不同容器能装的格式有所不同，AVI容器比较古老，装不了 264、265 等较高级格式的视频。

在视频编码时 FFmpeg 对指定的 .avi 文件会默认推断为使用编码器 AV_CODEC_ID_MPEG4；对于MP4格式，可以指定两种编码器 AV_CODEC_ID_H264、AV_CODEC_ID_HEVC 分别编码 H.264/AVC 和 H.265/HEVC 的视频。

FFmpeg 使用细节记录

在指定开始帧、需要立刻输出到文件的情况下必须把 tune 设置为 “zero-latency”，其中 AVC 格式的对应为 “zerolatency”（没有 ‘-‘）。如果设置为别的选项，编码、输出会延迟，通常用于直播推流等场合。

参考 FFmpeg 官方的 muxing 示例（https://ffmpeg.org/doxygen/5.1/muxing_8c-example.html），使用比较时间戳（`av_compare_ts()`）的方式判断当前写视频是否应该结束。

主要有 -crf 、-preset 两个参数来控制编码视频的画面质量和压缩质量。在这篇文档中，对这两个参数都有所提及：https://blog.csdn.net/happydeer/article/details/52610060

crf 参数在使用上的一些共识：

FFmpeg 不同编码器的 crf 默认值：H.264 是 23，H.265 是 28
通常认为 <=18 就是视觉无损范围
crf 每相差 6，视频体积约相差一倍

-preset 用来适配在编码速度和压缩率之间做的不同的权衡。编码速度越慢，压缩比率更高，文件更小。FFmpeg 所有的编码速度选项按降序排列为：ultrafast，superfast，veryfast，faster，fast，medium（缺省），slow，slower，veryslow，placebo。

很多视频软件都支持了这个配置。

视频相关概念扩展

① 转换颜色空间

视频的像素格式转换过程均为：RGBA->RGB->YUV420P。由从GPU读回的RGBA渲染数据，先舍弃A通道，然后转换为视频使用的YUV420P格式（sws_scale()）。

RGB不利于压缩，YUV引入了亮度概念，认为没必要存储全部颜色信号，而把一些带宽给了人眼敏感度更高的亮度信号。Y指亮度（Luma），U和V指蓝色、红色的色度（Chroma）。

详见百科：https://en.wikipedia.org/wiki/YCbCr

② IBP 帧和 gop size

详见百科：

https://en.wikipedia.org/wiki/Group_of_pictures

除了对单张图片数据进行了像素上的压缩，视频需要在时间上也进行压缩。目前最主流的方法是使用IBP帧。

I 帧：intra coded 图像，可以理解为关键帧，具有全部数据，独立进行编码
P 帧：predictive coded 图像，不存储全部的图片数据，只存储跟其它帧（称为参考帧）的偏移
- 在较旧的设计中，每个 P 帧只能引用一个参考帧，并且该图片在显示顺序和解码顺序上都必须先于 P 帧，并且参考帧必须是 I 或 P 帧。在 AVC 和 HEVC 已经取消了这些限制
B 帧：bipredictive coded 图像，包含相对于先前解码图像的运动补偿差异信息
- 在较旧的设计中，每个 B 帧只能引用显示顺序位于 B 帧前后的 2 帧，并且参考帧必须是 I 或 P 帧。AVC 和 HEVC 已经取消了这些限制
- 有时编解码器会使用单向 B 帧。理解为一个没有其他帧依赖于它的 P 帧，它也不使用未来帧的数据
- B 帧的一个基本属性是它们可以被丢弃而不影响其他帧的正确解码。

一般来说，视频流的 I 帧越多，它的可编辑性就越高，也会增加视频编码所需的比特率。