1.谢赛克简历

要说真学术,还得看推特。刚刚,谢赛宁自曝团队新作iREPA其实来自4个多月前的,一次与网友的辩论。

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码(插图

2.谢赛璐简介

这场短暂的线上辩论虽然以谢赛宁被网友说服告终,但在3个多月后,居然有了意料之外的后续——多个团队合作,沿着这一思路写出了一篇完整的论文,而且核心框架仅需3行代码。

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码(插图1

3.谢赛克图片

致谢部分还感谢了当时参与讨论的网友。

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码(插图2

4.谢赛克比赛视频

一篇推特引发的学术论文事情是这样的一位网友在8月份表示:别再痴迷于ImageNet-1K的分类分数了!自监督学习(SSL)模型应该专门为稠密任务(如REPA、VLM等)进行训练,因为这些任务真正依赖的是patch tokens中的空间和局部信息,而不是[CLS]token所代表的全局分类性能。

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码(插图3

5.谢赛月资料

(注:稠密任务就是要求模型对图像中的“每一个像素”或“每一个局部区域”都做出预测的计算机视觉任务,这类任务需要精确的空间和局部细节信息,而不仅仅是全局分类标签)对于网友的观点,谢赛宁表示:不,使用patch token并不意味着就是在做稠密任务。

6.赛宁谢峥

VLM和REPA的性能与它们在IN1K上的得分高度相关,而与patch级别的对应关系只有很弱的关联这并不是[CLS]token的问题,而是高层语义与低层像素相似性之间的差别

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码(插图4

7.base 谢宁

对于谢赛宁的反驳,网友举出了SigLIPv2和PE-core优于DINOv2 for REPA的例子。

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码(插图5

8.谢赛克妻子

与此同时,另一位网友也加入了战斗:这是个合理的问题为了做直接对比,在没有DINOv3早期checkpoint的情况下,或许可以用REPA来比较PEspatial和PEcore其中,PEspatial可以理解为:将PEcore的Gram-anchor对齐到更早的网络层,并结合SAM2.1。

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码(插图6

对此,谢赛宁表示:非常好!感谢你的指路/提示。我很喜欢这个方案。否则干扰因素会太多了。两个checkpoint都已经有了(G/14,448 分辨率),希望我们很快就能拿到一些结果。

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码(插图7

3个多月后,谢赛宁表示自己之前的判断站不住脚,而且这次的论文反而带来了更深入的理解。还有贴心小贴士,提示网友可以看看致谢部分。

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码(插图8

对于自己在致谢中被提到,参与讨论的网友之一表示很有意思:也谢谢你一路跟进!被致谢提到我也很受宠若惊。

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码(插图9

谢赛宁还表示,这次讨论本身就是一次小实验——他想看看,一种新的“线上茶水间效应”是否真的能够发生他很享受这种状态:先有分歧、有争论,再通过真正的实验和投入,把直觉拉回到可被验证的科学结论上不得不说,这样开放、即时、可纠错的学术讨论,确实值得多来一些。

接下来,我们就一起来看看由此催生的最新论文空间结构才是驱动目标表征生成性能的主要因素承接上面的讨论,这篇最新论文探讨了一个核心的基础问题:在用预训练视觉编码器表征来指导生成模型时,究竟是表征的哪一部分在决定生成质量?。

是其全局语义信息(ImageNet-1K上的分类准确率)还是其空间结构(即补丁tokens之间的成对余弦相似度)?论文给出的结论是:更好的全局语义信息并不等于更好的生成,空间结构(而非全局语义)才是表征生成性能的驱动力。

传统观念(包括谢赛宁本人)认为具有更强全局语义性能的表征会带来更好的生成效果,但研究却表明更大的视觉编码器反而可能带来更差的生成性能其中,线性检测准确率只有约20%的视觉编码器,反而可以超过准确率

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。