1.3d视觉应用场景
开放词汇识别与分类对于全面理解现实世界的 3D 场景至关重要目前,所有现有方法在训练或推理过程中都依赖于 2D 或文本模态这凸显出缺乏能够单独处理 3D 数据以进行端到端语义学习的模型,以及训练此类模型所需的数据。
2.osg三维视景仿真
与此同时,3DGS 已成为各种视觉任务中 3D 场景表达的重要标准之一然而,有效地将语义理解以可泛化的方式集成到 3DGS 中仍然是一个难题为了突破这些瓶颈,我们引入了 SceneSplat,第一个在 3DGS 上原生运行的端到端大规模 3D 室内场景理解方法。
3.3d视觉算法
此外,我们提出了一种自监督学习方案,可以从未标记场景中解锁丰富的 3D 特征学习为了支持所提出的方法,我们采集了首个针对室内场景的大规模 3DGS 数据集 SceneSplat-7K,包含 7916 个场景,这些场景源自七个现有数据集,例如 ScanNet 和 Matterport3D。
4.3d视觉解决方案
生成 SceneSplat-7K 所需的计算资源相当于在 L4 GPU 上运行 150 天我们在 SceneSplat-7K 上进行了开放词汇和语义分割的测试,均达到了 state-of-the-art 的效果。

5.3d position sensor
文章链接:https://arxiv.org/abs/2503.18052项目主页:https://unique1i.github.io/SceneSplat_webpage/数据集:https://huggingface.co/datasets/GaussianWorld/scene_splat_7k

图 1: SceneSplat-7K 从 7 个不同的公开数据集采集了了 7916 个完整 3DGS 场景,并且做了语义标注;基于这一高质量数据集,我们大规模训练了 SceneSplat 模型,这是首个能够在单次前向传播中预测数百万个 3D 高斯分布的开放词汇语言特征的模型。

视频:SceneSplatSceneSplat 数据集大规模 3DGS 重建为支撑在 3D 高斯点(3DGS)上的原生语义学习,我们构建并发布 SceneSplat-7K数据来源覆盖 7 个权威室内数据集:ARKitScenes、Replica、ScanNet、ScanNet (含 v2)、Hypersim、3RScan、Matterport3D,统一转化为 3DGS 表示,形成跨真实与合成场景的多样化数据集。
SceneSplat-7K 包含


评论(0)