1.broadcast 英伟达

英伟达还能“猖狂”多久?——不出三年!实现AGI需要新的架构吗?——不用,Transformer足矣!“近几年推理成本下降了100倍,未来还有望再降低10倍!”这些“暴论”,出自Flash Attention

2.英伟达官宣

的作者——Tri Dao。

Flash Attention作者最新播客:英伟达GPU统治三年内将终结(插图

3.英伟达发布

在最新播客《Unsupervised Learning》中,Tri Dao分享了对GPU市场、推理成本、模型架构以及AI未来趋势的深度洞察,并针对上述“暴论”展开了有理有据的分析:未来2-3年内,随着针对不同工作负载类别的专用芯片出现——包括低延迟的智能体系统、高吞吐量的批量处理以及互动式聊天机器人——

4.英伟达gpu系列介绍

AI硬件格局将从NVIDIA当前约90%的主导地位,转向更加多元化的生态系统MoE架构、推理优化、模型量化、模型架构和硬件的协同设计等技术促成了模型推理成本的下降未来将会出现三类工作负载模式:传统聊天机器人、极低延迟场景、大规模批处理/高吞吐场景,硬件供应商可以针对不同的工作负载做出相应的优化。

5.英伟达dynamic super resolution

……Tri Dao不仅是Flash Attention的作者,而且还是Mamba的作者之一同时,他也是TogetherAI的首席科学家、普林斯顿大学教授《Semi Analysis》曾盛赞他在英伟达生态中的贡献,是其护城河的重要组成部分。

Flash Attention作者最新播客:英伟达GPU统治三年内将终结(插图1

6.英伟达gpu技术大会

可以说,他对硬件市场以及AI硬件未来发展的判断极具参考价值接下来,就和我们一起看看吧!访谈全文整理如下:(注:为方便阅读,调整了部分语气词和过渡)访谈内容Nvidia 的主导地位及其竞争者Q:在英伟达生态体系,比如芯片层面或者GPU系统整合方面,会看到新的竞争者吗?。

7.英伟达inception

Tri Dao:我确实花了不少时间思考芯片,我认为当然会有很多竞争者进入这个领域AMD已经在这里很久了英伟达之所以占据主导,有几个原因:他们设计了非常好的芯片,同时也做出了很好的软件,这形成了一个完整的生态,让大家在此基础上开发更多的软件。

8.英伟达最新动态

但我认为,随着工作负载(work load)逐渐集中在特定架构上,比如Transformer、MoE等,设计适配这种工作负载的芯片会变得更容易在推理端,AMD有一些优势,比如更大的内存,现在我们已经开始看到一些团队在尝试。

9.英伟达宣传视频

在训练端则更困难一些,网络通信(networking)是主要瓶颈,而英伟达在这方面仍然领先但人们已经理解了:打造优秀训练芯片的挑战是什么,打造优秀推理芯片的挑战又是什么最后比拼的就是执行力所以我会说,这是一个非常令人兴奋的领域。

10.英伟达gpu活动

我和很多在设计新芯片的人交流过,无论是推理还是训练我预计未来几年,部分工作负载会进入“多芯片”时代,不会像现在这样90%都在英伟达上运行,而是会跑在不同的芯片上Jacob Effron:你认为当前的架构是否已经足够稳定,可以支撑对未来两三年推理和训练工作负载的长期押注,还是说目前仍存在不确定性,各家初创企业和公司各自下注,最终可能只有一两家脱颖而出?。

Tri Dao:我认为在架构层面,从宏观来看,好像已经在Transformer上趋于稳定但如果你仔细看,会发现其实还在发生很多变化最近这两年最显著的就是Mixture of Experts(MoE)它让模型变得更大,参数更多,但计算是稀疏的。

这带来一些权衡,比如需要更多内存,但计算量可能相对更小对一些芯片制造商来说,这会增加难度,因为他们可能原本是针对稠密模型设计的,计算分布很均匀,而现在要面对稀疏计算,设计起来更复杂再比如attention已经存在十多年了,但至今仍在不断演变,这其实会让一些事情变得困难。

像DeepSeek就提出了一种multi-head latent attention,它和传统的attention有些不同比如他们使用了非常大的head dimension如果你的系统里矩阵乘法引擎只有某个固定大小,可能就不匹配了。

像这样的一些问题,一旦你深入到细节里就会出现所以这是架构上的挑战在工作负载层面,人们使用这些模型的方式也在发生很大变化传统的用法是聊天机器人(虽然“传统”也不过就是过去两三年的事),但现在出现了新的负载,比如编程工作负载——像Cursor、Windsurf这样的工具。

这类更接近agent的工作负载,不仅仅是运行模型,还需要调用工具,比如运行Python解释器、做网页搜索等等这会带来芯片设计上的挑战如果芯片只专注于让模型本身跑得最快,就可能忽略了与主机连接去执行网页搜索这类任务的能力。

所以我会说,虽然从高层来看架构似乎稳定了,但在底层仍然有很多变化而且工作负载本身也在演变,所以这始终是一场“竞速”,看谁能更快适应新的负载芯片设计中的挑战Q:如果说现在90%的工作负载还在英伟达芯片上运行,那么你觉得两三年后会怎样?。

Tri Dao:我认为在推理端,会出现多样化,我们已经开始看到像Cerebras、Groq、SambaNova这样的公司带来的挑战他们强调可以做到极低延迟的推理,这对某些场景非常棒我们和一些客户交流时发现,他们。

非常在乎尽可能低的延迟,并且愿意为此支付更高成本同时也有客户特别关注大批量、高吞吐量的推理,比如海量数据处理、合成数据生成、或者强化学习训练中需要快速rollout、生成大量轨迹的场景所以我认为市场一定会多样化,因为工作负载本身也会越来越多样:。

低延迟、高吞吐,甚至可能是视频生成,这都会对算力和内存提出不同的要求Jacob Effron:初创公司如何押注不同类型的优化?Tri Dao:如果是创业公司,你就必须下注你投资的时候,其实就是要做一个超出常规的押注。

你可能会赌说,聊天机器人最终会消失,人们真正关心的其实是别的东西,比如视频模型、视频生成模型、世界模型,或者机器人之类的然后你就掷骰子,说,好吧,那可能会占据50%的工作负载那么我们要如何为这种工作负载设计芯片呢?你只能希望自己的押注是对的。

我觉得这就是创业公司的角色如果你不押注,而只是说我要为通用的工作负载优化,那么大厂会在执行力上完全碾压你Jacob Effron:为什么不去尝试除了英伟达以外的其他公司?硬件领域会出现巨额薪资吗?Tri Dao :我个人其实和很多不同公司的工程师都有合作,包括英伟达、AMD、谷歌、亚马逊等等。

我花很多时间在英伟达的芯片上,纯粹是因为这是我们现阶段能用到的最普及的产品他们设计了非常好的芯片,也有非常好的软件支持,这让我能够做很多有意思的事情,而这正是我追求的:能不能做出有意思的东西比如我们之前和AMD合作过一个版本的Flash Attention,并且把它集成进了公共仓库。

所以我们确实有跟他们合作至于最好的合作模式应该是什么,我现在还不太确定不过,最近我更多地在思考:我们需要什么样的抽象?不仅是针对英伟达芯片,而是针对GPU和加速器整体在最低层级,我还是会花很多精力榨干这些芯片的性能。

但随着我们在Together AI的扩张,我们必须考虑:如何让后来加入的工程师更快上手?其中一部分就是构建能在英伟达芯片上工作的抽象,同时也可能适配其他芯片另一个让我很兴奋的问题是:我们能不能设计一些抽象,让AI本身替我们完成部分工作?。

我觉得答案还没有完全清晰但作为人类的技术负责人,我们的任务就是构建合适的抽象,让别人能够快速上手,这样你做的事情才能跨芯片、跨工作负载发挥作用Jacob Effron:你觉得现在我们已经有那种能跨不同芯片都能用的抽象了吗?。

Tri Dao

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。