Step1 大模型先验

<aside> 💡

问题描述

请基于Raft光流预训练模型 [5]，输入训练视角之间的图片 (Ground truth)，输出光流预测结果并可视化。

基于GeoWidzard 预训练模型 [6]，对输入训练视角的图片 (Ground truth)，输出深度与表面法线预测结果并可视化。

数据集可选用LLFF，场景可挑选，也可以选择其他的常用基于可微渲染的新视角合成数据集。

</aside>

1.1 基于RAFT预训练模型的光流预测与可视化

<aside> 💡

这里使用fern/image/img_4026.jpg

</aside>

环境配置
- 非常麻烦，涉及到很多版本的冲突问题，调整了一下午，终于跑通了，具体的细节就不展示了，最终的关键依赖版本是，torch==2.4.0+cu121,torchvision==0.19.0+cu121,xformers==0.0.27.post2.

运行命令

python run_infer.py \\
--input_dir input/mine \\
--output_dir output/mine \\
--ensemble_size 3 \\
--denoise_steps 10 \\
--seed 0 \\
--domain indoor

获得结果：

<aside> 💡

问题描述

请基于代码[2], 并结合高斯渲染后端[3]，实现当前训练视角的深度和表面法线渲染，以及训练视角之间的光流渲染(参考上述公式), 并可视化出结果，光流可视化代码参考 [4]。

</aside>

颜色重建的正确性可以验证权重导入等步骤的正确性，是深度图、法线图和光流图渲染成功的前提。由于显存有限，训练过程中进行了4倍下采样，所以渲染出来的效果肯定不如原图。因此在这里我把训练获得checkpoint之后默认执行的新视角合成任务的rgb图拉出来对比，以证明自己实现的重建的正确性。

左侧为output/dolly_rgb/000.png,右侧为手动实现。手动实现还原了pointrix官方流程的大部分几何结构，但不得不承认，颜色灰灰的，而且图片比较模糊，出现了一些杂乱雾状结构。

在本项目中，深度图的渲染主要围绕 高斯点云 (Gaussian Splatting) 与 相机参数校正 展开，具体方法如下：

基于高斯点云的可微渲染
- 使用 MsplatRender 作为渲染器，将训练得到的高斯点云（位置、尺度、旋转、透明度及球谐系数）作为输入。
- 在渲染过程中，对点云进行投影和累积，得到深度图、RGB 图等特征图。
- 通过与训练时保持一致的激活函数（尺度取 exp，透明度取 sigmoid），保证渲染结果与模型训练时的定义一致。
相机参数与坐标系的处理
- LLFF 数据集提供的 poses_bounds.npy 中包含相机外参 (c2w) 和内参 (focal, H, W)。
- 通过矩阵求逆得到 world→camera 的外参，并对 LLFF 的 OpenGL 坐标系做适配性修正（翻转 y、z 轴），确保与渲染器使用的右手坐标系一致。
- 在实践中发现图像方向存在旋转问题，通过引入 swap_wh_in_renderer选项，对 图像宽高 进行交换，解决了渲染图像逆时针旋转 90° 的问题。