1.多模态 transformer

上海人工智能实验室推出了一款革新的多模态生成理解一体化的扩散语言模型 ——Lumina-DiMOO基于离散扩散建模(Discrete Diffusion Modeling),Lumina-DiMOO 打破了多模态任务之间的壁垒,在同一离散扩散框架下,完成从 文本→图像、图像→图像、图像→文本的全栈能力闭环。

Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解(插图Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解(插图1

2.多模态nlp

论文标题:Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

3.多模态自然语言处理

论文链接:arxiv.org/pdf/2510.06308GitHub 地址:Alpha-VLLM/Lumina-DiMOO

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。