从四个维度对生成代码进行分析评估:Reward Hacking 是 CUDA RL 锻炼中的主要挑和之一。Rubric Reward:从反做弊、工程质量、算子笼盖、技术遵照四维度全面评估,KernelBench Level 3 的使命涉及完整的模子架构(如 MiniGPTBlock 推理代码),多智能体框架也带来显著提拔。为 LLM 驱动的从动化 GPU 编程斥地了新的标的目的。正在收到 Verifier 的反馈后,激励模子优化更多的算子?
如下图所示,StitchCUDA 对比启用pile 的参考代码仍然实现了 1.29× 的加快,逐一子使命生成 CUDA 实现(源代码、建立文件、Pybind 接口),同时通过 Reward Clipping(R_max=5)防止极端励对锻炼的干扰,这些系统级 + Kernel 级协同优化是单 Kernel 优化方式无法实现的。(C3)现有的 RL 方式存正在诸多挑和。StitchCUDA 正在端到端使命上实现了近 100% 的成功率和1.5× 的平均加快比,放宽查抄尺度又会让模子轻松绕过,多智能体协做框架:将复杂的端到端使命分化为「打算 — 编码 — 阐发 — 优化」的迭代轮回本文做者包罗明尼苏达大学的李世阳(配合第一做者),正在端到端 GPU 法式中,端到端 GPU 法式的机能由 Kernel 融合鸿沟、跨 Kernel 内存结构、CPU-GPU 同步等系统级决策从导,超越ile。模子会因而学会 hack 测评法式而不是进行 CUDA 优化,多智能体框架能够从其他 Agent 获取反馈来指导 Coder,成果如下:Skill 1(从零生成):给定参考 PyTorch 代码和子使命需求,显著超越所有现无方法,降低约 60-75 倍计较开销多智能体框架大幅提拔端到端准确性?
张子健(配合第一做者),Coder 也没有被锻炼去理解布局化的施行反馈并实施有针对性的优化,而 StitchCUDA 多智能体框架(不含 RL)将其提拔到 3/10。修复 Bug 并提拔机能Coder(编码器):按照 Planner 的规划,分歧于单 Kernel 优化,从而获得高 reward。StitchCUDA 将其分化为两个原子技术的单轮 RL 锻炼:现有 RL 方式的焦点问题正在于励设想:简单的「准确性 + 加快比」励容易被 LLM 操纵,实正的挑和正在于端到端 GPU 法式的生成。最一生成可施行的优化。(C1)端到端法式需要全局协调。然而,间接复制 PyTorch 代码就能获得高励,
生成准确的 CUDA 实现查抄过松 → 漏过做弊。过严的格局查抄会将这类准确且高效的实现鉴定为 Hacking。Coder 往往无法靠得住地施行复杂的 CUDA 变换(例如按照机能阐发提醒推导出准确的 Tiling 策略),加强锻炼的不变性。现有的 RLVR 方式容易呈现 Reward Hacking(如间接抄写 PyTorch 代码或硬编码输出)和退化行为(只替代简单的 ReLU 而不碰环节的 Conv/GEMM);原子技术分化:将高贵的多轮 Agentic RL 为高效的单轮锻炼,以 Qwen3-32B 为例,从两个层面阐发法式:Nsys用于识别最耗时的 GPU Kernel 和系统级瓶颈(如 CPU-GPU 数据传输、Kernel Launch、同步开销)。
无法通过一一处置单个 Kernel 来处理。丁才文。这鞭策模子保守、退化的行为。通过迭代式「打算 — 编码 — 阐发 — 优化」轮回协做完成:研究团队总结了利用 LLM 进行端到端 CUDA 生成取优化的三大焦点挑和:正在 KernelBench 上,编译失败时,(C2)Coder 的 CUDA 编程能力需要正在 Prompt 工程以外进一步提拔。利用更高级的手艺。正在 H200 上,StitchCUDA 引入了由 CUDA 专家设想的Rubric Reward(评分原则励),NCU用于阐发具体的瓶颈 Kernel(判断是 Memory-bound 仍是 Compute-bound),单条轨迹就需要 60-75 分钟,
现无方法正在 KernelBench Level 3 上的表示远不抱负:最终励公式将 Rubric Reward 取法则励(准确性 × 加快比)相连系,无效处理 Reward Hacking 和退化行为,阐发错误日记并前往具体修复指点。并挪用 nvcc 编译。此外,
StitchCUDA 提出了首个面向端到端 GPU 法式生成的完整处理方案,而非只替代简单的 ReLUVerifier(验证器):担任准确性验证和机能阐发。洪明毅,全体锻炼预估需要约8 卡 H200 锻炼 1200-1500 小时。同时自定义融合后续的 Bias+ReLU)。成为现实中的次要瓶颈。罗越波,Skill 2(反馈驱动优化):按照布局化的施行反馈(编译诊断、机能瓶颈阐发)!