CineMaster: 用于电影文本到视频生成的 3D 感知且可控的框架。

news/2025/2/27 9:19:39

CineMaster是一种 3D 感知且可控的文本到视频生成方法允许用户在 3D 空间中联合操纵物体和相机，以创作高质量的电影视频。

论文介绍

CineMaster是一种用于 3D 感知和可控文本到视频生成的新型框架。目标是让用户拥有与专业电影导演相当的可控性：在场景中精确放置物体、在 3D 空间中灵活操纵物体和相机，以及对渲染帧进行直观的布局控制。

CineMaster分两个阶段运行：

第一阶段：设计了一个交互式工作流程，允许用户通过定位对象边界框和定义 3D 空间内的相机运动来直观地构建 3D 感知条件信号。
第二阶段：这些控制信号（包括渲染的深度图、相机轨迹和对象类别标签）作为文本到视频扩散模型的指导，确保生成用户想要的视频内容。

此外，为了克服具有 3D 框和相机姿势注释的野生数据集的稀缺性，论文精心建立了一个自动化数据注释管道，从大规模视频数据中提取 3D 边界框和相机轨迹作为控制信号。大量定性和定量实验表明，CineMaster 明显优于现有方法，并实现了卓越的 3D 感知文本到视频生成。

物体和相机运动控制演示

物体运动控制演示

相机运动控制演示

它是如何工作的？

CineMaster是一个框架，它使用户能够在 3D 空间中操纵对象和相机以生成文本到视频。CineMaster 包含两个阶段。首先，我们提出了一个交互式工作流程，使用户能够以 3D 原生方式直观地操纵对象和相机。然后，控制信号从 3D 引擎渲染并输入到文本到视频的扩散模型中，指导用户生成想要的视频内容。