ChatGPT到底学了多少「污言秽语」？清华团队首提大语言模型中文语料污染治理技术-源码库

本文第一作者是清华大学博士生张清杰，研究方向是大语言模型异常行为和可解释性；本文通讯作者是清华大学邱寒副教授；其他作者来自清华大学、南洋理工大学和蚂蚁集团如果我们的教科书里包含大量的污言秽语，那么我们能学好语言吗？这种荒唐的问题却出现在最先进 ChatGPT 系列模型的学习过程中。

来自清华大学、南洋理工大学和蚂蚁集团的研究人员发现，GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文词表污染高达 46.6%，甚至同时包含「波*野结衣」、「*野结衣」、「*野结」、「*野」、「大发时时彩」、「大发快三」、「大发」等色情、赌博相关词元（如下图所示）。

研究团队对 OpenAI 近期发布的 GPT-5 和 GPT-oss 的词表也进行了分析，它们词表的中文 token 没有变化。

ChatGPT到底学了多少「污言秽语」？清华团队首提大语言模型中文语料污染治理技术插图

图 1：GPT-4o/o1/o3/4.5/4.1/o4-mini 的中文词表污染高达 46.6%，主要涉及色情、赌博研究团队认为，这种现象是由于来自互联网数据的大模型预训练语料库不可避免地包含污染内容，导致在此之上构建的大语言模型（LLM）词表包含污染词。

那么，这些污染词会如何影响 LLM 的性能？与污染数据的关系如何呢？为了系统性研究 LLM 的中文词表和数据污染问题，研究团队首先定义和分类了中文污染词（Polluted Chinese tokens,

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

ChatGPT到底学了多少「污言秽语」？清华团队首提大语言模型中文语料污染治理技术