预告 | Triton on RISC-V: AI基础设施新范式全景解析

小松鼠 · November 20, 2025, 7:36am

大家好！继 Dataflow 芯片和编译器从入门到进阶、CIRCT 系列教程之后，我们即将迎来无限智域（1nfinite）社区的第三个技术分享系列。

从下周开始，我们将正式推出 “Triton on RISC-V: AI基础设施新范式全景解析”
。本系列共 11 期，聚焦 Triton on RISC-V 的核心技术演进，围绕 AI 基础设施、算子库、AI 编译器、Triton 编程体系与 RISC-V DSA 的融合创新展开。欢迎感兴趣的小伙伴加入 1nfinite 社区，与我们共同交流、学习、探讨前沿技术。敬请期待本系列的正式上线！

预告	主题
第 1 期	AI 基础设施新范式：算子库、编译器与 RISC-V DSA 的融合创新
第 2 期	AI 模型性能的引擎：算子库编程语言的发展与趋势
第 3 期	Triton 算子开发: Triton 编程语言和 SPMD 编程模型
第 4 期	Triton 算子开发: 调试与性能优化实战
第 5 期	Triton Kernel 全流程揭秘：从编译到运行
第 6 期	Triton 编译器架构全景与多后端适配
第 7 期	Triton Compiler Core: Dialect 与 Pass Pipeline
第 8 期	Triton for RISC-V：AI 算子开发新机遇
第 9 期	Triton 编译器在 RISC-V 上的移植与适配实践
第 10 期	RISC-V DSA 平台下 Triton 算子性能初探
第 11 期	RISC-V DSA 平台下 Triton 算子的性能突破之道

一. AI 基础设施新范式：算子库、编译器与 RISC-V DSA 的融合创新

随着 AI 技术的飞速发展，底层基础设施正面临前所未有的碎片化挑战。框架多样性、模型迭代速度加快、算子库维护成本攀升以及硬件平台的不断分化，使得 AI 系统的高效协同变得愈发复杂。本文将深入剖析这些挑战的根源，探讨新型算子库编程语言、AI 编译器与 RISC-V DSA 三者融合创新是否能够成为 AI 时代的底层解决方案。通过分析算子库与模型编译器的协同机制，以及 RISC-V DSA 在硬件适配和性能优化上的独特优势，展望 AI 硬件如何快速响应模型变化，实现高效迭代与创新。

关键词：AI 基础设施, 算子库, 编译器, RISC-V DSA

二. AI 模型性能的引擎：算子库编程语言的发展与趋势

算子库作为应对框架和硬件多样化的重要方案，在 AI 基础设施中扮演着核心角色。如何实现高性能且易于维护的算子库，成为各大厂商关注的焦点。随着 AI 模型和硬件的快速演进，算子开发语言在性能与可用性之间不断权衡，呈现出多样化的发展格局。本文将系统梳理主流算子 DSL 的发展现状，涵盖 CUDA、CuteDSL、TileLang、Triton、Gluon、Mojo 等代表性语言，简要介绍各自的特点，并分析它们在性能与编程友好性上的取舍。重点以 Triton 为例，深入探讨其在算子开发中的创新设计与实际应用，揭示 Triton 如何在提升开发效率与算子性能之间实现最佳平衡。

关键词：算子 DSL, Triton, TileLang, 编程友好性

三. Triton 算子开发: Triton 编程语言和 SPMD 编程模型

Triton 作为新一代 AI 算子开发语言，凭借简洁的语法和高效的编译流程，正受到越来越多开发者的青睐。对于初学者来说，掌握 Triton 的基础语法和开发流程，是高效实现自定义 AI 算子的第一步。本文将系统介绍 Triton 语言的核心语法要点与 SPMD 编程范式，帮助读者快速掌握使用 Python eDSL 算子开发语言开发 AI 算子的基本方法。通过典型的 Triton 算子示例，详细演示从算子编写到编译与运行的完整流程，让开发者在实践中深入体验 Triton 的算子开发模式与优势。

关键词：Triton, SPMD 编程模型

四. Triton 算子开发: 调试与性能优化实战

在高性能 AI 算子开发中，调试与性能优化是提升算子开发效率的关键环节。Triton 为开发者提供了丰富的调试和优化工具，助力高效开发与问题定位。本文将系统介绍 Triton 算子开发中的调试方法，包括如何使用 device_print 和 interpret 模式(cpu python 解析执行)进行算子级调试，帮助开发者快速发现和修复问题。随后，详细讲解如何利用 Autotune 和启发式机制自动提升算子性能，实现高效参数搜索与优化。最后，介绍 Triton GPU profile 工具 Proton 的使用方法，帮助开发者精准分析性能瓶颈，进一步优化算子实现。通过本篇内容，开发者将全面掌握 Triton 算子的调试与性能优化实战技巧。

关键词：调试, 性能调优, Proton

五. Triton Kernel 全流程揭秘：从编译到运行

Triton 作为高效的 AI 算子开发工具，深入理解其 Kernel 的编译与启动流程，有助于工程师在算子 launch 阶段实现更优的性能优化和跨平台适配。本文将详细解析 Triton Kernel 从 Python 代码到目标二进制的完整编译流程，剖析每一步的关键机制与实现细节。同时，系统讲解 host 端与 device 端的 kernel 启动机制，阐释数据如何从 host 传递到 kernel，并揭示二者如何协同实现高效的算子执行。通过本篇内容，开发者将全面掌握 Triton 算子的底层执行原理及其在多种硬件平台上的适配能力。

关键词：Triton kernel, 编译流程, kernel launch, host-device

六. Triton 编译器架构全景与多后端适配

AI 硬件平台日益多样化，编译器的可扩展性与异构适配能力变得尤为关键。Triton 编译器基于 MLIR 编译器架构设计，相较于其它 AI 编译器如 TVM 和 XLA，具备更强的可扩展性和灵活的后端插件机制，已成为异构平台 AI 算子开发的重要基础设施。本文将首先简要介绍 MLIR 框架的基础知识，并分析其相较于其他 AI 编译器的优势与不足；接着梳理 Triton 编译器的整体架构，深入解析各模块的功能分工与核心设计理念；随后，详细介绍 Triton 的插件机制与扩展开发方法，阐释其如何高效支持 CPU、GPU、NPU 等多种异构硬件平台。通过丰富的应用案例，帮助开发者全面理解 Triton 编译器在不同硬件环境下的适配策略，为 AI 系统的高性能部署提供坚实支撑。

关键词：AI 编译器架构, MLIR, 插件机制, 多后端适配

七. Triton Compiler Core：Dialect 与 Pass Pipeline

Triton 编译器基于 MLIR 生态，构建了独特的 Triton 方言（Dialect）和多层次 Pass Pipeline，为 AI 算子优化与硬件适配提供了坚实基础。本文将首先介绍 Triton 方言的设计理念与核心内容，解析其如何高效抽象 AI 算子的计算与数据流。接着，详细讲解 Triton 编译器的前端、优化和后端 Pass Pipeline，以及 Triton IR 与 MLIR、LLVM 的集成流程。最后，通过自定义方言和优化 pass 的实际案例，展示如何在 Triton 编译器中灵活扩展和添加自定义优化能力。

关键词：Triton IR, Pass Pipeline, MLIR, LLVM, 自定义方言

八. Triton for RISC-V：AI 算子开发新机遇

AI 算力需求的持续增长，各类硬件架构不断涌现，RISC-V 凭借其开放性和可扩展性，为 AI 芯片领域提供了一种新的选择。特别是 RISC-V 向量扩展（RVV）和 Matrix 扩展等新指令集的引入，为 AI 芯片的计算性能带来了显著提升空间。本文将首先分析 RISC-V 在 AI 领域的发展前景，深入探讨 RISC-V 向量和 Matrix 扩展等指令集对 AI 算子性能的实际影响。随后，系统评估 Triton for RISC-V 的技术可行性，结合 Triton 社区、MLIR 社区与 RISC-V 生态的协同创新，展望未来 AI 开发工具链的演进方向。

关键词：RISC-V, Triton, RVV, Matrix Extension, AI 生态, 可行性分析

九. Triton 编译器在 RISC-V 上的移植与适配实践

在前面的系列文章中，我们探讨了 Triton 编程语言支持 RISC-V DSA 的可行性。那么如何让 Triton 算子在 RISC-V 平台上高效运行呢？本文将系统梳理 Triton 编译器在 RISC-V 上的移植与适配流程。首先，介绍在 RISC-V 平台上运行 Triton 的两种方案——offline 静态编译与 JIT 动态编译，并分析各自的实现难点与适用场景。随后，重点以 offline 静态编译为例，结合具体算子案例，详细演示 Triton 在 RISC-V 上的交叉编译流程，包括环境配置、工具链选择、编译参数设置以及 kernel launcher 的启动流程等关键环节，帮助开发者高效完成 Triton 算子的移植与部署。

关键词：Triton 移植, RISC-V, 交叉编译

十. RISC-V DSA 平台下 Triton 算子性能初探

在“Triton 编译器在 RISC-V 上的移植与适配实践”中，我们已经介绍了如何在 RISC-V DSA 平台上运行 Triton 算子。那么，Triton 作为高效的 AI 算子开发语言，在 RISC-V DSA 上的实际性能表现如何？本文将选取深度学习领域常用算子作为基准测试对象，分别对比传统 C 算子实现、基于 triton-cpu 框架的 Triton 编译器版本，以及基于兆松 ztc Triton 编译器版本的性能表现。通过详实的数据对比，全面评估 Triton 算子在 RISC-V DSA 平台上的实际性能表现，为 AI 芯片开发者和系统架构师提供有价值的参考。

关键词：AI Benchmark, Triton, RISC-V DSA, 性能对比

十一. RISC-V DSA 平台下 Triton 算子的性能突破之道

在“RISC-V DSA 平台下 Triton 算子性能初探”中，我们系统评估了 Triton 算子在 RISC-V DSA 平台上的性能表现。本篇作为续篇，将聚焦于如何进一步挖掘和优化 Triton 算子在 RISC-V DSA 上的性能潜力。首先，从编程模型与硬件架构两个层面，深入分析 Triton SPMD 模型与 RISC-V 向量扩展（RVV）模型的异同，剖析算子实现中可能遇到的性能瓶颈及优化方向。其次，结合 RISC-V DSA 的硬件特性，探讨 Triton 与 RISC-V 扩展指令集（如 RVV, Matrix 扩展）的高效结合方式，并分享实际优化案例。最后，展望 Triton 与 RISC-V DSA 未来的协同优化策略，为 AI 芯片开发者和系统架构师提供前瞻性的优化思路与实践参考。

关键词：Triton, SPMD, RISC-V 自定义扩展, RVV, 性能优化