目录:
1.neurips2025截稿时间
2.neurips 2025 最佳论文
3.neurips 2025 openreview
4.neurips 2025 papers
5.neurips 2025 个性化
6.neurips 2025 spotlight比例
7.neurips属于什么级别的论文
8.neurips论文什么水平
9.neurips 2025 accept paper
10.neurips 2025 poster
1.neurips2025截稿时间
作者为北京航空航天大学的肖宜松,刘艾杉,应宗浩,刘祥龙,新加坡国立大学的梁思源,新加坡南洋理工大学的陶大程本文已被 NeurIPS 2025 录用LLM 已在智能创作、企业服务等领域广泛应用,但其内容安全问题仍是落地过程中的关键挑战。
2.neurips 2025 最佳论文
仇恨、歧视、威胁性言论等潜在风险,使得 LLM 的安全部署与可信使用面临困难,而现有的内容过滤或对齐方案在效果、效率与成本之间往往难以兼顾近期,来自北航等机构的研究提出了一种新的解决思路:自回归奖励引导表征编辑(ARGRE)框架。
3.neurips 2025 openreview
该方法首次在 LLM 的潜在表征空间中可视化了毒性从高到低的连续变化路径,实现了在测试阶段进行高效「解毒」

4.neurips 2025 papers
论文标题:Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing论文地址:https://arxiv.org/abs/2510.01243
5.neurips 2025 个性化
实验结果显示,ARGRE 在降低模型毒性(62.21%)、缩短推理时间(47.58%)的同时,几乎不影响模型原有能力,为提升大模型内容安全提供了新的方向在 8 个主流 LLM(参数覆盖 355M 的
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。


评论(0)