电解质是什么| 五花肉和什么菜炒好吃| 头疼恶心想吐是什么原因| 立夏有什么习俗| 尿蛋白阳性是什么意思| 牙痛吃什么消炎药| 阑尾炎应该挂什么科| 扁桃体为什么会发炎| 2.16什么星座| 白痰多是什么原因| 桃代表什么生肖| 内服什么可以美白全身| 女生肚子大是什么原因| 元宵节的习俗是什么| 月经两个月没来是什么原因| 女人依赖男人说明什么| 羊水破了是什么症状| 眼睛有什么颜色| 牛奶有什么营养| 睡觉张嘴是什么原因| 痛风急性发作期吃什么药| 荷叶搭配什么一起喝减肥效果好| 人的舌头有什么作用| 五步蛇又叫什么蛇| 挂科是什么意思| 肺纹理增强是什么意思| 晚上睡觉手发麻是什么原因| 蔡英文是什么党| 生脉饮适合什么人群| 嗓子疼吃什么药| 家宴是什么意思| 08年是什么年| 什么叫女人味| 经常吐是什么原因| 8月31号是什么星座| 黎山老母什么级别神仙| 刘庄为什么要灭了阴家| 妥协是什么意思| 柔然人是现在的什么人| 06年属狗的是什么命| 什么是狐臭| 梦见下暴雨是什么意思| 什么危不什么| 尿隐血是什么问题| 吃鱼对身体有什么好处| 什么花喜欢磷酸二氢钾| 喝酒后手麻是什么原因| 口腔溃疡白色的是什么| m2是什么单位| 怀孕不可以吃什么东西| 西凤酒什么香型| 牙疼挂什么科| 蔡字五行属什么| 出气不顺畅是什么原因| 肋软骨炎吃什么药最好| 地什么人什么| 多酚是什么| 5月4日是什么星座| 打牌老是输是什么原因| 跟单员是做什么的| rsv是什么病毒| 什么是直径| 男人更年期有什么症状有哪些表现| 鲱鱼在中国叫什么鱼| 饕餮长什么样| 九门提督相当于现在什么官| 干旱是什么意思| 少腹是什么意思| 慧根是什么意思| 心脏造影是什么检查| 女人脚发热是什么原因| 蛇缠腰是什么病| 头经常晕是什么原因| 嗓子挂什么科| 天梭属于什么档次| 唱反调是什么意思| 三个火是什么字| 鱼不能和什么食物一起吃| cm医学上是什么意思| 牵强是什么意思| 毕业送什么礼物好| 尿素氮高吃什么药| 阴蒂是什么| 西夏国是现在什么地方| 沙僧属什么生肖| 做梦是什么原因造成的| 中国什么时候解放| 鸡属于什么科| 泻立停又叫什么名字| 外婆的妈妈叫什么| 凝血高是什么原因| 夏天穿什么鞋| 黑色粑粑是什么原因| 为什么耳屎是湿的| 魔芋是什么东西做的| 头孢长什么样| 京东pop是什么意思| 胆汁淤积症有什么症状| 尿黄尿臭是什么原因| 印度属于什么亚| 脂肪肝挂什么科| 早搏吃什么药好| 脑梗能吃什么水果| 舌头白色的是什么原因| 洁颜油是干什么用的| 尿道炎看什么科室好| 丑小鸭告诉我们一个什么道理| 梦到洗衣服是什么意思| 寻常疣是什么样子图片| 小腿浮肿是什么原因引起的| 什么颜色加什么颜色是黑色| 蝉为什么会叫| 什么食物含叶酸| 黑话是什么意思| 口吃是什么意思| 减肥可以吃什么水果| 乌豆是什么| 什么是自我| 什么水果可以降火| 补肝血吃什么食物最好| pvs是什么意思| 孜然是什么| 5.16号是什么星座| 天天晚上睡觉做梦是什么原因| 怀孕送什么礼物| 耵聍栓塞是什么意思| 消肿吃什么药| 脚为什么会臭| 突然头晕恶心是什么原因| 头臀长是什么意思| vfu是什么牌子| 教育局局长是什么级别| 拉雪橇的狗是什么狗| 男人阴茎硬不起来是什么原因| 1995年是什么年| 西米露是什么材料做的| 高中生适合用什么手机| 心动过速吃什么药最好| 疱疹是什么病啊| 布病是什么症状| 教师节送什么礼物给老师| 拍大腿内侧有什么好处| 小猫泪痕重什么原因| 手脱皮是什么原因| gaba是什么| 黑灰色是什么颜色| 佛陀是什么意思| 飞机杯长什么样| 中性粒细胞百分比低是什么原因| 老公工作劳累炖什么汤| 为什么大便是黑色的| 上焦中焦下焦是什么| 黄皮适合什么颜色的衣服| 晞是什么意思| 彩虹代表什么| 有小肚子是什么原因| 什么是抗生素| 吃维生素b2有什么好处| 什么是穿堂风| 喝什么酒容易醉| 掉头发缺少什么维生素| 朋友圈提到了我是什么意思| 中暑为什么不能打点滴| 炖鸭汤放什么食材最好| 释放是什么意思| 1d是什么意思| 邮箱是什么| 性瘾是什么| b是什么牌子| 持续耳鸣是什么原因引起的| 食用碱是什么| 淀粉吃多了有什么危害| 拉尿分叉是什么原因| 星星像什么| y是什么元素| 什么是ph值| hpv病毒是什么| 脚心出汗是什么原因女| 乳腺囊肿吃什么药| 女生没有腋毛代表什么| 撒旦和路西法什么关系| 尾椎骨疼挂什么科| 8月14是什么星座| 1997年属牛的是什么命| 婴儿坐飞机需要什么证件| 膝盖酸胀是什么原因| 无缘是什么意思| 女人吃什么补气血效果最好| 3月18日什么星座| 脑供血不足用什么药好| 阴道瘙痒用什么药| 睾丸痒是什么原因| 海胆是什么动物| 花雕酒是什么| tspot检查阳性能说明什么| 吃生蚝补什么| 脸上老是长闭口粉刺是什么原因| 处级上面是什么级别| 巨门是什么意思| 浊是什么意思| 舌头发黑是什么原因| 什么叫抗体阳性| 吃什么增强抵抗力和免疫力| 早上打碎碗是什么兆头| 孕妇可以喝什么饮料| 为什么会有口腔溃疡| 什么的珊瑚| dw是什么牌子的手表| dwi是什么意思| 小孩子睡觉流口水是什么原因| 属猴的本命佛是什么佛| 新生儿白细胞高是什么原因| 中国第一长河是什么河| 非洲人吃什么主食| 一路长虹什么意思| 蛋白质偏高是什么原因| 品牌pr是什么意思| 7月八号是什么星座| 骨折后吃什么恢复快| 中性是什么意思| 二尾子什么意思| 冲菜是什么菜| 山不转水转是什么意思| 小猫吃什么东西| 蘑菇什么季节长出来| 平均血红蛋白量偏高是什么意思| 小恙是什么意思| 什么节吃饺子| 有什么好听的网名| 鸡血藤有什么功效| 肝病看什么科室| 月经失调是什么意思| 身体寒湿重吃什么好| wendy什么意思| 多西他赛是什么药| 续集是什么意思| 抗hbs阳性是什么意思| 胰腺炎挂什么科室| 皂矾是什么| 愚人节是什么意思| 尽善尽美是什么生肖| 睡醒嘴苦是什么原因| 伤口愈合为什么会痒| 赝品是什么意思| 路由器管理员密码是什么| 乙肝通过什么传播| 血糖高可以喝什么粥| omega是什么牌子的手表| 公开课是什么意思| 什么桥下没有水脑筋急转弯| 早上起床口苦是什么原因| 健康管理是做什么的| barry是什么意思| 亡羊补牢的寓意是什么| 血糖高适合吃什么主食| fc什么意思| 嘘寒问暖是什么意思| 1978年属什么的| 洗牙挂什么科| 血压偏低有什么症状| 今年71岁属什么生肖| 农历五月十八是什么日子| 突然勃不起来是什么原因造成的| 消瘦是什么意思| 百度
您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能开发者 正文
发私信给郑佳美
发送

0

金银花泡水喝有什么好处

本文作者: 郑佳美   2025-08-14 12:49
导语:GPU 推理加速的下一步,是 kernel 融合。
百度   而当下中国摄影的大环境却并不容乐观。

斯坦福 Hazy Research 团队刚刚公布了一项重量级优化成果:他们将开源模型 Llama-3.2-1B 的前向推理整合成了一个“Megakernel”,并将低延迟推理能力推向了极限。

在某些实时性极高的应用中,例如对话式 AI 和人类参与的交互式工作流中,大语言模型的响应速度不仅重要,甚至可以决定用户体验的成败。

团队认为限制 LLM 推理速度的瓶颈其实是在内存加载的问题上,他们经过研究发现,现有的开源推理引擎(如 vLLM、SGLang),在极低延迟的单序列生成任务下,即使在顶级 GPU(如 H100)上,也只能利用不到 50% 的内存带宽。

这主要是因为每层 Transformer 模块被拆解成几十到上百个 CUDA kernel,每个 kernel 执行非常小的操作(比如 RMS norm、注意力、MLP、Rotary Position Embedding 等),它们之间存在大量上下文切换与等待。

更严重的是,这些 kernel 启动与收尾的成本加起来,并不会被 CUDA Graph 或 PDL(Programmatic Dependent Launch)等机制充分隐藏,反而在短时任务中被放大。

换句话说,GPU 花了大量时间“等着干活”,而不是“在干活”。Hazy 团队的研究也正是围绕着这个问题展开。

Megakernel:从零设计的融合思路

先说实验结果,Megakernel在 H100 上的推理延迟压缩至不足 1 毫秒,显存带宽利用率高达 78%,相较于 vLLM 提升了 2.5 倍、相较 SGLang 提升 1.5 倍;而在更先进的 B200 平台上,延迟进一步降低至 600~680 微秒,逼近理论极限。

从一次完整推理的时间分布来看,250 微秒用于存储激活、等待一致性与数据加载,200 微秒用于 RMSNorm 与 matvec(其中 matvec 占比达 95%),权重加载仅需 30 微秒,流水机制表现稳定。warp 间同步与 barrier 带来 40 微秒的延迟,其余如 setup、参数传递与页状态标记等杂项开销合计约 80 微秒。

整体来看,在精心调度下,Hazy 团队的 Megakernel 几乎已将当前硬件性能压榨至极限。

而能够得到以上效果,其实都归功于 Hazy 团队提出的一个激进但有效的设计思路:将整个前向传播过程整合为一个单一 CUDA kernel,也就是所谓的 Megakernel。

实验中,他们基于已有 ThunderMLA 架构,开发了一个 GPU 上运行的轻量“指令解释器”系统。该系统为每个 Streaming Multiprocessor(SM)预先分配一段“执行计划”,其中包含多条按顺序排列的指令,每条指令代表 Transformer 模型中的一个结构单元。

这些指令包括:

融合 RMSNorm、QKV projection、RoPE 的复合指令;

attention 矩阵乘与缩减计算(支持长序列 GQA);

O-projection 与 residual 相加;

MLP 的 RMSNorm、gate 激活(SiLU)与上投影;

down projection 和最终 residual;

最后一层 RMSNorm + language modeling head。

每个指令都基于统一的 CUDA 模板构建,实现对 load、store、compute 的标准化封装。指令间依赖由解释器在运行前静态排布,每个 SM 可以重复复用同一个 schedule 以处理多个 token。

此外,为确保高效的数据路径,解释器会将这些执行计划按模型结构静态编排,避免调度时动态分支,提升吞吐与并发执行能力。

同时为了实现流水化计算并防止 shared memory 冲突,团队还对 GPU 的共享内存进行了分页管理,例如:

将前 213KB 的 shared memory 分为 13 个 16KiB 页面;

剩余部分用于存储指令参数、页分配信息等;

每条指令在加载前显示请求页,结束后归还给解释器调度器;

当页被释放时,解释器会立即将其分配给下一条等待中的指令。

这种机制保证了下一个计算阶段可以尽早开始预加载权重,从而最大化带宽使用率并消除“气泡”。

不过 Megakernel 结构无法依赖传统的 kernel 间隐式同步,因此 Hazy 团队还使用了一个计数器系统:他们在 global memory 中维护一组整数,每条指令完成后会对对应计数器 +1,若某条指令依赖先前步骤的结果,它会等待计数器达到特定值才执行。

例如:在 MLP 下投影阶段,团队将中间态拆成 4 个 chunk,每个 chunk 在写入后立即触发后续计算,从而实现并行流。此外,团队通过精确设置依赖图,避免了全局 barrier,大幅减少了指令之间等待的浪费,使得整个内核执行尽可能地接近理论并发。

Andrej Karpathy 盛赞!斯坦福团队新作,让Llama-1B 实现毫秒级推理

除此之外,研究团队还对 CUDA 异步屏障(asynchronous barrier)的性能进行了测量,发现即便在 barrier 已“pass”的状态下,每次仍需 60ns,同步操作成本不可忽视。而在实际执行中,尤其在 matrix-vector(矩阵乘向量)这类关键操作中,他们发现:在 Hopper 架构(如 H100)上,使用常规 CUDA 核心(非 Tensor Core)可以更有效,不过在 Blackwell 架构上,Tensor Core 性能占优。

这也说明在硬件不同世代中,Megakernel 的最佳实现路径也应适配微架构差异,而非一套方案通用所有平台。

为什么传统推理方式效率如此低下?

在详细展开 Megakernel 的构建之前,Hazy 团队其实先回头梳理了一个关键问题:为什么现在主流的 LLM 推理系统,在小 batch、极低延迟这种场景下,表现这么“不给力”。

他们发现,像 vLLM 和 SGLang 这样的系统,在处理生成一个 token 这种极限情况时,GPU 的显存带宽利用率其实非常低。核心原因是——模型前向过程被拆成了太多太小的 CUDA kernel。也就是说,模型里的每一个小操作(比如 RMSNorm、一个 MLP 层)都是一个单独的 kernel。这种“微核模式”,看起来很模块化、易于维护,但其实隐藏了一个很大的性能坑。

Andrej Karpathy 盛赞!斯坦福团队新作,让Llama-1B 实现毫秒级推理

每个 kernel 的启动和销毁,其实都有固定成本——你可以把它理解成“换个小任务都要重新开会安排”。在极低延迟场景下,这种“开会”的时间反而成了主开销来源。而且 GPU 在运行这些小 kernel 的时候,还经常会卡在“尾巴”上——比如一个 kernel 要 512 个线程块跑完,但 GPU 只有 148 个执行单元(SM),那后面的线程块就只能排队等前面的慢慢结束,造成很多资源空转。

即便用上 CUDA Graphs、PDL(Programmatic Dependent Launch)等加速器,也还是得花 1.3~2.1 微秒去启动一个 kernel。而这段时间,GPU 其实啥都没干,就是在等待环境切换。更糟的是,由于这些 kernel 是串行排队执行的,后面的 kernel 也没法提前加载它要用的数据,导致 GPU 一直断断续续地访问 global memory,带宽用不上去。

这就形成了所谓的 “memory pipeline bubbles”——计算和计算之间总有空档期,GPU 明明闲不下来,却还是停在那等。举个例子:H100 的带宽是 3.35TB/s,推理 Llama-1B 每次只需要 2.48GB,理论上 1 秒钟能跑 1350 次 forward pass。但因为每层模型得跑 7 个 kernel,一共有 16 层,哪怕每个 kernel 只带来 5 微秒的 stall,总延迟也已经把性能拉到 770 次以内,实际可能还更低。

所以,Hazy 团队很明确地说:这个问题不是哪个 kernel 慢的问题,而是系统性低效。一个个去优化 kernel 其实没有用,核心是要干掉这些 kernel 边界,别再让 GPU 一会做这个、一会做那个地切换。这就是他们提出 Megakernel 的根本动因。

现代 LLM,动辄几十上百层 transformer,每层又包含 RMSNorm、注意力、MLP 等等操作。主流框架为了清晰易调试,把这些都拆成一个个小 kernel,每个做一件小事,像流水线上的工人。但问题是,这流水线换手太频繁,每次“换人”都耽误事,还导致 GPU 的显存访问老是断断续续,带宽效率拉垮。

更要命的是,CUDA 的一些机制虽然看起来是为优化服务的,但在这种极限场景下其实也成了“绊脚石”。比如 PDL 的 cudaGridDependencySynchronize 会强制等所有任务完成才能继续,这就意味着,即便有些任务早就准备好了,也得一起等着。

所以归根结底,雷峰网(公众号:雷峰网)认为现在的推理系统架构,在“单序列、毫秒级响应”这类场景下,是低效的,而且是从系统层面低效。只有重构整个执行方式,让 GPU 少切换、多并行,才有可能真正把它的算力榨干,这正是 Megakernel 的价值所在。

雷峰网原创文章,未经授权禁止转载。详情见转载须知

Andrej Karpathy 盛赞!斯坦福团队新作,让Llama-1B 实现毫秒级推理

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说
鸭子什么时候下蛋 吃什么食物对胰腺好 舌头长泡吃什么药 冰柜什么牌子好 吃了兔子肉不能吃什么
北京大学什么专业最好 复刻是什么意思 石家庄为什么叫国际庄 过敏性鼻炎用什么药效果好 息风止痉是什么意思
9月23日是什么星座 四川有什么山 小孩补钙吃什么最好 办暂住证需要什么 女人左手断掌什么命运
扁头适合什么发型 吃什么水果养胃 什么app可以买烟 棕色短裤配什么颜色上衣 内膜薄是什么意思
玥是什么意思hcv8jop8ns0r.cn 5月31号是什么星座naasee.com 胃寒喝什么茶暖胃养胃hcv8jop5ns8r.cn hpv31阳性是什么意思hcv8jop3ns7r.cn 单恋是什么意思hcv8jop9ns4r.cn
bmi什么意思hcv7jop7ns3r.cn vivi是什么意思youbangsi.com 什么菜好吃hcv8jop2ns5r.cn 诸葛亮是一个什么样的人hcv7jop7ns3r.cn 两个菱形是什么牌子hcv8jop7ns2r.cn
冬天有什么水果hcv9jop3ns0r.cn 吃什么食物快速降糖hcv8jop2ns4r.cn 什么水果hcv8jop8ns2r.cn 孕妇适合吃什么水果dajiketang.com 百合病是什么病hcv8jop7ns2r.cn
疑似是什么意思hcv9jop2ns5r.cn 男人人中有痣代表什么sscsqa.com 脚围指的是什么hcv9jop3ns2r.cn cd4是什么意思hcv9jop3ns4r.cn c7是什么意思hcv8jop8ns8r.cn
百度