Step1 大模型先验

<aside> 💡

问题描述

请基于Raft光流预训练模型 [5],输入训练视角之间的图片 (Ground truth),输出光流预测结果并可视化。

基于GeoWidzard 预训练模型 [6],对输入训练视角的图片 (Ground truth),输出深度与表面法线预测结果并可视化。

数据集可选用LLFF,场景可挑选,也可以选择其他的常用基于可微渲染的新视角合成数据集。

</aside>

1.1 基于RAFT预训练模型的光流预测与可视化

1.2 基于 Moge2 预训练模型的表面法线与深度预测与可视化

<aside> 💡

这里使用fern/image/img_4026.jpg

img_4026.jpg

</aside>

Step 2. 深度,光流与表面法线渲染

<aside> 💡

问题描述

请基于代码[2], 并结合高斯渲染后端[3],实现当前训练视角的深度和表面法线渲染,以及训练视角之间的光流渲染(参考上述公式), 并可视化出结果,光流可视化代码参考 [4]。

</aside>

2.0 rgb渲染

颜色重建的正确性可以验证权重导入等步骤的正确性,是深度图、法线图和光流图渲染成功的前提。由于显存有限,训练过程中进行了4倍下采样,所以渲染出来的效果肯定不如原图。因此在这里我把训练获得checkpoint之后默认执行的新视角合成任务的rgb图拉出来对比,以证明自己实现的重建的正确性。

000.png

rgb_llff.png

左侧为output/dolly_rgb/000.png,右侧为手动实现。手动实现还原了pointrix官方流程的大部分几何结构,但不得不承认,颜色灰灰的,而且图片比较模糊,出现了一些杂乱雾状结构。

2.1 深度渲染

方法

在本项目中,深度图的渲染主要围绕 高斯点云 (Gaussian Splatting)相机参数校正 展开,具体方法如下:

  1. 基于高斯点云的可微渲染
  2. 相机参数与坐标系的处理