1.sftl和rol

本文的第一作者曾敏来自 vivo AI Lab,主要研究方向为大语言模型、强化学习、agent监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。

2.sfr与mtf

SFT 和 RL 在训练的过程中都存在各自的特点:SFT 直接对着答案「死记硬背」,简单且有效,收敛速度快,但是泛化能力不行而 RL 通过探索来获得答案,泛化能力强但强化学习只会一味地探索,而不学习答案,学习速度缓慢,可能出现长期无法得到收敛甚至最后出现训练不稳定的现象。

3.rflp和rapd

为了解决这些难题,最近,vivo AI Lab 算法团队提出了一种新的大模型后训练框架

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。