1.ai如何画手指

扩散概率模型(diffusion probability models,DPMs)在图像生成任务上取得了卓越的成就,但它们仍频繁产生与现实世界知识相悖的“幻觉样本”(hallucinations),例如生成有六根手指的手掌或者漂浮在空中的多余物体 。

2.怎样用ai软件画一只手

尽管这类问题普遍存在,社区却一直缺乏系统性量化这些事实性错误的方法,这阻碍了下一代高可信度生成模型的研发进程为填补这一空白,来自阿德莱德大学、美团和上海交通大学的研究团队,首次对扩散模型中的一类特殊幻觉——“。

3.ai手绘工具在哪里

计数幻觉” (counting hallucination)进行了系统性的研究 他们提出了几个关键问题:如何准确量化扩散模型“数错数”的问题?增加采样步数等常用求解器优化技巧是改善还是加剧了这个问题?FID等主流图像质量评价指标能否有效捕捉到这类细粒度的错误?以及如何缓解扩散模型中的计数幻觉问题?

4.ai手绘过程

为了回答这些问题,该团队构建了首个用于量化计数幻觉的数据集套件CountHalluSet,并通过大量实验揭示了计数幻觉与扩散模型中不同采样条件之间的复杂关系。

AI画手总是六根手指?阿大/美团/上交首次系统量化扩散模型计数幻觉(插图

5.ai手绘是什么意思

更重要的是,他们基于实验提出了一种简单而有效的联合扩散模型(Joint-Diffusion Model,JDM),能够显著减少复杂真实图像中的计数幻觉和其它非计数类失败问题。

AI画手总是六根手指?阿大/美团/上交首次系统量化扩散模型计数幻觉(插图1

6.ai绘制手部图形

CountHalluSet: 计数幻觉评测基准研究团队构建了包含三个数据集的CountHalluSet套件,其可数物体的形态复杂性逐级递增:ToyShape: 包含简单的几何图形(三角形、正方形、五边形)。

7.ai怎么画里画双手

SimObject: 包含照片级逼真度的日常三维物体(杯子、苹果、时钟)。RealHand: 包含真实的、姿态各异的人手图像。

AI画手总是六根手指?阿大/美团/上交首次系统量化扩散模型计数幻觉(插图2

8.ai画人手

CountHalluSet由三个覆盖不同形态复杂度层级的可计数对象数据集组成:ToyShape(三角形、正方形、五边形)、SimObject(马克杯、苹果、时钟)以及RealHand(手指)此外,每个数据集有着各自的计数规则。

9.怎么用ai画手

在ToyShape和SimObject数据集中,每张图像最多包含每个类别的一个实例,且至少包含一个对象,而在RealHand数据集中,每张图像必须严格包含五根手指所谓计数幻觉,是指生成模型产生的图像违反了该数据集的计数事实,例如在一张图中生成了两个苹果,或仅生成了背景而没有任何对象,而这些模式在SimObject数据集中从未出现过。

AI画手总是六根手指?阿大/美团/上交首次系统量化扩散模型计数幻觉(插图3

10.ai手绘教程

各个数据集的计数幻觉评测流程如上图所示对于ToyShape与SimObject数据集,生成图像可直接用于计数评估,由于它们的简单性和罕见的严重低质量图像而在RealHand数据集中,团队引入了“可计数性指示器(counting-ready indicator)”,用于区分计数幻觉样本与其他非计数类失败样本(如严重变形的手指)情况。

具体地,他们使用了一个MaxViT作为可计数性指示器,它是二分类器,在超过2.5千张代表性样本上训练得到对于ToyShape与SimObject数据集,团队构建了一个超过400,000个样本的大型ToyShape/SimObject数据集,每个样本出现0-3次,以微调ResNet-50得到它们对应的“。

计数模型(counting model)”对于RealHand数据集,他们在超过2k张手部生成图像上对YOLO-12模型进行了微调,训练检测指尖,来得到该数据集的计数模型利用这些计数模型,团队可以检测生成图像中的对象出现次数,从而判断它们是否违反了数据集中的计数规则,最终实现量化计数幻觉。

比如,给定一个counting-ready样本,如果YOLO模型检测出该样本存在6个指尖,那么它就会被归类为计数幻觉样本实验及核心发现量化实验研究者们在扩散模型不同的采样条件下,量化了各个数据集生成样本的计数幻觉率,结果如下表所示:。

AI画手总是六根手指?阿大/美团/上交首次系统量化扩散模型计数幻觉(插图4

发现一:采样步数对幻觉的影响呈现“合成–真实”分化趋势研究发现,在常用的ODE求解器(25、50、100步)设置下,增加采样步数能有效降低合成数据集(ToyShape、SimObject)的计数幻觉率(CHR)

,但在真实数据集(RealHand)中却反而提升了计数幻觉率这表明:合成数据因结构简单、分布规则,能从更细粒度的求解器中获益;而真实数据分布更复杂,额外的采样步可能过度拟合局部不一致,从而放大幻觉发现二:更高阶的ODE求解器可降低总体失败率,却提升计数幻觉率

作为另一种ODE优化策略,DPM-Solver-2在相同步数下生成质量一般优于DPM-Solver-1尽管这一策略显著降低了RealHand数据集的总体失败率(TFR),但却增加了计数幻觉率这揭示出:更高阶求解器虽能稳定全局结构,但可能削弱了模型对对象计数约束的敏感性。

发现三:祖先采样(DDPM)在幻觉抑制上表现最优在所有对比中,DDPM始终实现最低的计数幻觉率、非计数类失败率和总体失败率这意味着:祖先采样为生成模型的失败率提供了一个现实下限,尤其在计算效率不是主要限制时,是最有效的减幻觉策略。

发现四:更合理的初始噪声可显著降低幻觉率相较于标准高斯噪声(Normal),使用“扩散”噪声(Ground-truth初始噪声)能同时降低计数幻觉率、非计数类失败率和总体失败率这一结果表明:初始化的一致性对生成稳定性至关重要,更符合训练分布的噪声可有效缓解幻觉现象。

发现五:对象形态越复杂,计数幻觉越显著随着对象形态从简单几何体(ToyShape)、中等复杂的合成物体(SimObject)到真实生物结构(RealHand)逐渐复杂,计数幻觉率持续上升这表明:结构复杂性显著挑战了扩散模型保持正确对象计数的能力。

模型在处理高复杂度形态时更容易出现对象的“遗漏”或“重复”,解释了为何当前扩散模型尽管生成能力强大,却仍普遍存在幻觉问题相关性实验计数幻觉本质上是事实性幻觉的一种具体的形式直觉上,人们或许会认为,当扩散模型在感知层面生成质量更高、分布差距更小的图像(即更低的FID)时,其事实一致性也会相应提升。

然而,该研究团队的系统性实验结果表明——事实并非如此研究者们在不同数据集与求解器条件下进行了相关性分析,发现如下表所示:

AI画手总是六根手指?阿大/美团/上交首次系统量化扩散模型计数幻觉(插图5

发现一:计数幻觉与FID之间的相关性并非固有,而取决于数据集与求解器类型在SimObject数据集中,计数幻觉率(CHR)与FID呈显著正相关(Pearson = 0.8762, p = 0.0119),表明更低的FID对应更少的计数幻觉;然而在RealHand中却出现强负相关(Pearson = -0.9134, p = 0.0109),说明两者关系可能反转。

进一步地,当将DDPM结果纳入分析时(“incl. DDPM”),这种相关性显著减弱,揭示了其依赖于采样条件与求解器的非稳定性发现二:非计数类失败率与FID之间的相关性则稳定且显著与计数幻觉率(CHR)不同,非计数失败率(NCFR)与总体失败率(TFR)在各条件下均与FID高度正相关(Pearson/Spearman

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。