1.neurips2025截稿时间

作者为北京航空航天大学的肖宜松,刘艾杉,应宗浩,刘祥龙,新加坡国立大学的梁思源,新加坡南洋理工大学的陶大程本文已被 NeurIPS 2025 录用LLM 已在智能创作、企业服务等领域广泛应用,但其内容安全问题仍是落地过程中的关键挑战。

2.neurips 2025 最佳论文

仇恨、歧视、威胁性言论等潜在风险,使得 LLM 的安全部署与可信使用面临困难,而现有的内容过滤或对齐方案在效果、效率与成本之间往往难以兼顾近期,来自北航等机构的研究提出了一种新的解决思路:自回归奖励引导表征编辑(ARGRE)框架。

3.neurips 2025 openreview

该方法首次在 LLM 的潜在表征空间中可视化了毒性从高到低的连续变化路径,实现了在测试阶段进行高效「解毒」

NeurIPS 2025 | ARGRE框架实现高效LLM解毒:自回归奖励引导,安全对齐更快、更准、更轻(插图

4.neurips 2025 papers

论文标题:Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing论文地址:https://arxiv.org/abs/2510.01243

5.neurips 2025 个性化

实验结果显示,ARGRE 在降低模型毒性(62.21%)、缩短推理时间(47.58%)的同时,几乎不影响模型原有能力,为提升大模型内容安全提供了新的方向在 8 个主流 LLM(参数覆盖 355M 的

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。