在三维重建不断走向工程化的今天,前馈式3D Gaussian Splatting(Feed-Forward 3DGS)正火速走向产业化然而,现有的前馈3DGS方法主要采用“像素对齐”(pixel-aligned)策略——即将每个2D像素单独映射到一个或多个3D高斯上。

这一做法看似直观,但仍面临两道不可忽视的“天花板”:二维特征难以在三维中精确对齐、以及高斯基元数量被像素网格死死绑定,无法按场景复杂度智能分配VolSplat大胆抛弃像素对齐的固有范式,提出“体素对齐”(voxel-aligned)的前馈框架:在三维空间中融合视图信息,从根本上破局,让高质量的多视角渲染变得更鲁棒、更高效、更易工程化。

前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息(插图

在公开数据集上的对比实验显示,VolSplat在RealEstate10K和ScanNet(室内)数据集上的视觉质量与几何一致性上均优于多种pixel-aligned baseline这些数值既说明了视觉质量的提升,也反映了几何一致性的增强。

前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息(插图1

VolSplat 的核心思路:把“对齐”从二维搬到三维原有的像素对齐前馈3DGS ,正面临两项无法回避的痛点第一,多视图对齐难题:基于2D特征的匹配难以可靠地解决多视角间的几何一致性问题——当深度估计不稳、遮挡或视角差异出现时,2D特征难以在三维空间里精确对齐,常导致浮空伪影与几何畸变。

第二,高斯密度受限:Gaussian的生成往往被像素网格所束缚,无法根据场景复杂度进行自适应分配;往往导致复杂结构表达不足,而平坦或冗余区域却消耗了大量表示容量综合来看,这两点直接阻碍了前馈3DGS在稠密视角、复杂结构与大场景下的扩展与稳健表现。

为了突破这两项挑战,VolSplat的核心思路直截了当却极具穿透力:不再在二维像素层面孤立预测,而是将多视角的二维特征利用每视图预测的深度图反投影并聚合到统一的三维体素网格(voxel grid)中,在这个统一坐标系里进行聚合与多尺度特征融合与细化(refine)(采用稀疏 3D U-Net实现),最好仅在那些被占据的体素上回归Gaussian参数。

前馈3D高斯泼溅新方法,浙大团队提出“体素对齐”,直接在三维空间融合多视角2D信息(插图2

这一范式的效果即时且深远:在3D网格内,视图间的不一致被天然消融;高斯密度不再被像素网格绑架,而是基于体素的“有无”和复杂度动态分配这一范式带来的直接好处可以概括为四点:(1)

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。