1.庞若是什么意思

数月前,苹果基础模型团队负责人、杰出工程师庞若鸣(Ruoming Pang)离职加入 Meta扎克伯格豪掷两亿美元招揽庞若鸣加入超级智能团队根据庞若鸣的领英信息,他已在 Meta 工作了大约三个月的时间。

庞若鸣还有苹果论文?改善预训练高质量数据枯竭困境(插图

2.你知道庞若寒是谁

但令我们出乎意料的是,这两个多月来,庞若鸣在苹果参与的工作还在不断发表中,其中仍不乏一些高价值研究在苹果期间,庞若鸣领导着苹果基础模型团队,主要负责开发 Apple Intelligence 及其他 AI 功能的核心基础模型的工作。

3.庞明教授

庞若鸣的工作在推动基础大模型进步的领域中具有很高的影响力和研究价值就比如我们即将介绍的这一个:

庞若鸣还有苹果论文?改善预训练高质量数据枯竭困境(插图1

4.庞huan

论文标题:Synthetic bootstrapped pretraining论文链接:https://arxiv.org/html/2509.15248v1我们知道,大规模的语言模型是以海量的互联网文本作为基础进行训练的,受到规模效应「Scaling Law」的影响,数据量越大,多样性越强,模型的能力也会有相应的提升。

5.庞鸣放最新

但从互联网上获取的数据不可能无限制的增加准确的说,我们已经达到了真实数据规模的瓶颈:高质量文本数据已经在迅速枯竭我们已经触及到了「规模壁垒」,因此在大模型训练中亟需重新思考如何更高效地利用现有数据在大模型训练中,预训练的成功主要依赖于文档内部 token 之间丰富的因果关联。

6.mr.庞

然而,这并不是预训练数据集中唯一存在的相关性来源例如:一个实现注意力机制的代码文档,往往源自 Transformer 论文的 arXiv 预印本;《哈利・波特》的小说在结构上与其电影剧本存在相似性这些现象表明,除了文档内部的强相关性之外,还存在一种较弱的跨文档相关性,它来源于预训练文档的某种潜在联合分布。

7.庞哓戈简介

根据以上发现,研究团队提出了假设:这种额外的信号在标准预训练过程中被忽视,而它可以通过合成数据加以捕捉这为提升模型性能提供了一条尚未被充分探索的路径为充分利用这一潜在机会,研究者们提出了 Synthetic Bootstrapped Pretraining (SBP),一种新的语言模型预训练流程,分为三个步骤:。

8.庞明著作

相似文档对识别:SBP 首先在预训练数据集中识别语义上相似的文档对 d1,d2,例如 Transformer 论文及其代码实现条件建模:SBP 接着对 d2|d1 的条件概率进行建模,从而构建一个「数据合成器」,该模型能够在给定种子文档的情况下生成新的、相关文档。

9.庞明老师最新消息

数据扩展:最后,SBP 将训练好的条件合成器应用于整个预训练语料库,从而生成一个大规模的新文本语料该语料显式编码了原始预训练中未被利用的跨文档相关性通过直接从预训练语料库中训练数据合成器,SBP 避免了依赖外部教师语言模型来「拔高」性能的陷阱,从而保证了改进来源于对同一预训练数据的更优利用。

庞若鸣还有苹果论文?改善预训练高质量数据枯竭困境(插图2

10.庞鸣放宣判

SBP 的三步流程:(1) 通过最近邻搜索识别语义相似的文档对,(2) 训练一个合成器模型来生成相关内容,以及 (3) 扩展合成以创建用于与原始数据联合训练的大型语料库核心问题大规模语言模型正面临所谓的 「规模壁垒」:可用于预训练的高质量、独特文本语料正在迅速枯竭。

现有的标准预训练方法主要依赖 下一词预测,学习单个文档内部的 token 级依赖关系虽然这种方法在实践中取得了显著效果,但它基本忽视了一类潜在的、极其丰富的信号 —— 语料中不同文档之间的关联关系例如,一篇研究论文及其对应的代码库,或者一部小说及其影视改编,本质上存在深层的概念联系,尽管它们在形式和风格上迥异。

现有的预训练范式将它们视为完全无关的样本,从而丢弃了这些跨文档关系所蕴含的价值合成自举预训练(Synthetic Bootstrapped Pretraining, SBP) 正是为了解决这一问题,通过将文档间的相关性转化为新的训练信号。

SBP 通过三个顺序执行的步骤,将跨文档关系转化为合成训练数据:步骤 1:最近邻配对首先,在原始预训练语料中识别语义相似的文档对具体而言,每个文档都通过一个较小的外部模型(Qwen3-Embedding-0.6B)编码为 1024 维向量。

随后,系统使用

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。