<aside> 💡
问题描述
请基于Raft光流预训练模型 [5],输入训练视角之间的图片 (Ground truth),输出光流预测结果并可视化。
基于GeoWidzard 预训练模型 [6],对输入训练视角的图片 (Ground truth),输出深度与表面法线预测结果并可视化。
数据集可选用LLFF,场景可挑选,也可以选择其他的常用基于可微渲染的新视角合成数据集。
</aside>
dropbox下载预训练模型失败,网络连不上
显存爆炸
运行命令 python demo.py --model=raft-sintel.pth --path=/home/yonom1/datasets/temp_640 ,得到如下光流图

<aside> 💡
这里使用fern/image/img_4026.jpg

</aside>
环境配置
torch==2.4.0+cu121,torchvision==0.19.0+cu121,xformers==0.0.27.post2.运行命令
python run_infer.py \\
--input_dir input/mine \\
--output_dir output/mine \\
--ensemble_size 3 \\
--denoise_steps 10 \\
--seed 0 \\
--domain indoor
获得结果:
normal

depth

<aside> 💡
问题描述
请基于代码[2], 并结合高斯渲染后端[3],实现当前训练视角的深度和表面法线渲染,以及训练视角之间的光流渲染(参考上述公式), 并可视化出结果,光流可视化代码参考 [4]。
</aside>
颜色重建的正确性可以验证权重导入等步骤的正确性,是深度图、法线图和光流图渲染成功的前提。由于显存有限,训练过程中进行了4倍下采样,所以渲染出来的效果肯定不如原图。因此在这里我把训练获得checkpoint之后默认执行的新视角合成任务的rgb图拉出来对比,以证明自己实现的重建的正确性。


左侧为output/dolly_rgb/000.png,右侧为手动实现。手动实现还原了pointrix官方流程的大部分几何结构,但不得不承认,颜色灰灰的,而且图片比较模糊,出现了一些杂乱雾状结构。
在本项目中,深度图的渲染主要围绕 高斯点云 (Gaussian Splatting) 与 相机参数校正 展开,具体方法如下:
exp,透明度取 sigmoid),保证渲染结果与模型训练时的定义一致。poses_bounds.npy 中包含相机外参 (c2w) 和内参 (focal, H, W)。swap_wh_in_renderer选项,对 图像宽高 进行交换,解决了渲染图像逆时针旋转 90° 的问题。