Tenstorrent数据流芯片Grayskull 和 Wormhole解析

saturn · June 5, 2024, 5:15am

概述

Tenstorrent成立于2016年，总部位于加拿大多伦多，致力于满足人工智能快速增长的计算需求，拥有有趣的硬件架构以及软件堆栈。由于其CEO是传奇人物Jim Keller而备受关注。

产品路线图

目前，Tenstorrent 已推出两款 AI 加速器产品，Grayskull 和 Wormhole，并计划推出两款 CPU+ML 解决方案产品，Blackhole 和 Grendel。这些产品将为用户提供多样化的选择，以满足不同的计算需求和应用场景。以下是产品路线图（Blackhole推迟了）：

图 1：Tenstorrent产品路线图（来源：Tenstorrent）

Grayskull

Grayskull芯片采用 GlobalFoundries 12nm 工艺，尺寸为620mm^2。

Wormhole

Wormhole芯片采用 GlobalFoundries 12nm 工艺，尺寸为670mm^2。
Wormhole和Grayskull板卡性能对比如下：

Feature \ Board	Tenstorrent Grayskull™ e75	Tenstorrent Grayskull™ e150	Tenstorrent Wormhole n150	Tenstorrent Wormhole n300
Tensix Cores	96	120	72	128
AI Clock	1 GHz	1.2 GHz	1 GHz	1 GHz
TeraFLOPs (FP8)	221	332	262	466
SRAM	96MB	120MB	108MB	192MB
Memory	8GB LPDDR4 @ 102.4 GB/sec	8GB LPDDR4 @ 118.4 GB/sec	12GB GDDR6 @ 288 GB/sec	24GB GDDR6 @ 576 GB/sec
System Interface	PCIe 4.0 x16	PCIe 4.0 x16	PCIe 4.0 x16	PCIe 4.0 x16
Total Board Power	75W	200W	160W	300W
Dimensions (w/o Cooling Kit)	18mm x 167.5mm x 69mm	36mm x 260mm x 111mm	36mm x 254mm x 111mm	36mm x 254mm x 111mm
Dimensions (w/ Cooling Kit)	18mm x 257mm x 98mm	36mm x 399mm x 114mm	36mm x 393.5mm x 114mm	36mm x 393.5mm x 114mm

相对于Grayskull芯片，Wormhole芯片的Tensix核进行了升级。每个核心容纳了更多的SRAM，并且具备执行更复杂的数学运算以及SIMD指令的能力。具体来说，Wormhole芯片的Tensix核配备了1.5MB的SRAM，而Grayskull芯片的Tensix核只有1MB的SRAM。此外，一个显著的不同之处在于Wormhole芯片增加了16个100Gb以太网端口。这些以太网端口的增加使得许多芯片可以连接在一起，从而扩展计算资源。

Blackhole

与Grayskull和Wormhole不同的是，Blackhole不再是单纯的AI加速器，而是集成了CPU和AI加速器的解决方案。它融合了24个SiFive X280 RISC-V内核和多个第三代Tensix内核。该设备将提供1 INT8 POPS（Peta Operations Per Second）的计算吞吐量，性能相比前代产品提升约三倍。此外，它还配备了八通道GDDR6内存、1200 Gb/s以太网连接和PCIe Gen5通道。Blackhole采用6nm级制造工艺。值得注意的是，Blackhole尚未正式推出（已经有测试样片），因此最终产品可能与目前披露的内容有所不同。

Grendel

Grendel作为一项计划产品，将采用Tenstorrent自己的RISC-V核Ascalon，取代SiFive X280 RISC-V内核。

Ascalon

Tenstorrent基于RISC-V架构开发高性能CPU，现在有五种不同的 RISC-V CPU 核心 IP，包括双宽、三宽、四宽、六宽和八宽解码，可用于自己的处理器或授权给感兴趣的各方。

图 2：Tenstorrent RISC-V CPU 产品路线图（来源：Tenstorrent）

Tenstorrent自己开发了RISC-V CPU，通过Chiplet异构计算的方式，将CPU和AI加速器组合在一起，实现更高性能和功能密度的同时，降低了成本。

硬件架构以及核心组件分析

整体架构

Tenstorrent的AI架构主要可以分为两类：以Wormhole为代表的AI加速器和以Blackhole为代表的CPU+ML异构解决方案。由于Blackhole产品尚未发布，因此本文主要关注Wormhole。

Wormhole

图 3：Wormhole架构示意图（来源：Tenstorrent）

根据图示，Wormhole主要由网格化的计算单元（128个Tensix，蓝色）、内存单元（GDDR6，黄色）和互联单元（ETHERNET，红色）三个重要部分组成。

计算单元 Tensix

将Wormhole中的Tensix核展开，如下图所示：

图 4：第二代（Wormhole）Tensix架构图（来源：Tenstorrent）

分析上图，Tensix核组成部分有：

5个Baby RISC-V Core（蓝色部分，BRISC、NRISC、TRISC0、TRISC1、TRISC2），用于控制和标量计算。
数据传输（浅蓝色部分，NOC0、NOC1、NOC OVERLAY），负责控制设备之间和设备与主机之间的数据传输。
打包解包（橙色部分，UNPACK、PACK）。
内存（黄色部分，L1、SHARED MEM）。
数学引擎（紫色部分，FPU、SFPU），其中FPU是密集张量数学单元，用于执行大量张量数学运算，如矩阵乘法；SFPU是矢量引擎，用于各种杂项激活运算，如指数、平方根、softmax、topK等。
寄存器组（绿色部分，SRC A、SRC B）。SRC A，SRC B是源寄存器，DST（未出现在图中）是目标寄存器，它们都是使用一组寄存器，可以存放张量，支持浮点数和低精度数据类型，这里的寄存器和5个Baby RISC-V Core是不同的寄存器。
通过软件对5个RISC-V Core进行分工，BRISC和NRISC主要负责数据移动，而剩余的三个RISC-V Core（TRISCs）负责控制计算过程。

调用FPU的典型计算过程分为三个部分：

UNPACK（从L1拷贝数据到SRC寄存器）
MATH（FPU从SRC寄存器读取数据进行计算，结果保存在DST寄存器）
PACK（将结果从DST寄存器拷贝回L1）。

FPU的计算是 tile-based，L1和寄存器之间的数据传输也是tile-based。UNPACK和PACK的数据搬运是通过底层的TDMA（Time Division Multiple Access）命令实现的。

为了让这三个过程（UNPACK、MATH、PACK）并行执行，三个TRISCs对应不同的功能，其中TRISC0负责UNPACK，TRISC1负责MATH，TRISC2负责PACK。任务的分配由软件控制，对应关系是预先约定好的。

存储单元

Wormhole（n300板卡）的存储架构的层次结构较为简单（相对于GPU而言），分为两个部分：

DRAM – 大小为24G的GDDR6，所有Tensix核共享。
SRAM – 每个Tensix核有1.5MB的SRAM（称为L1），是Tensix核独有的，有单独的地址空间，可以寻址访问。

互联单元

Wormhole上的片上网络（NoC-Network_on_Chip）可以在Tensix核之间传输数据，并且可以通过以太网扩展到其他的Wormhole卡。

横向扩展能力（Scale-out）

现代AI模型拥有数十亿甚至上万亿个参数，需要巨大的计算资源来进行训练和推理，单个加速器已经无法满足需求，需要通过scale-out策略扩展多机集群以增加算力。而scale-out的能力正是Wormhole设计的关键所在。

Wormhole的横向扩展能力

Wormhole scale-out 特点

图 5：Wormhole scale-out 示意图（来源：Tenstorrent）

传统的scale-out往往具有核、芯片、服务器、机架这种层次结构，不同层次的互联技术、带宽、延迟方面有差异，带来了软件层面的复杂性。Wormhole的片上网络（NoC）可以透明地扩展到数据中心，对于软件而言，看起来像是一个由Tensix核心组成的2D同质网格，不需要关心芯片、服务器、机架这种层次结构。
如下图所示，Tensix上有数据包管理器，数据包进出Tensix需要解/打包。数据包header中包含地址信息，使用统一的core_id（device_id, x, y）来表示唯一的Tensix core，而无需关心Tensix是否在同一个芯片或服务器。
从软件角度来看，数据包的传输在整个2D网格中是一样的。每个芯片和NOC都可以充当交换机，数据包可以很方便的从Tensix到另一个Tensix。

图 6：数据包的传输与计算（来源：Tenstorrent）

Wormhole scale-out 产品

从Wormhole开始扩展，有Nebula、Galaxy、数据中心这几个层次。

Nebula

Tenstorrent 将 Nebula 设计为一个基础构建块。它是一个 4U 服务器机箱。在这个 4U 服务器内部，他们能够塞入 32 个 Wormhole 芯片。

图 7：Nebula结构（来源：Tenstorrent）

Galaxy

8 个 Nebulas 连接在一个扩展网格中，组成Galaxy。该机架还包含 4 个 AMD Epyc 服务器和一个共享内存池。该机架提供 >3TB 的 GDDR6 和 256Gb 的外部以太网链路。通用 AMD Epyc 服务器和内存池连接到以太网网格。

图 8：Galaxy结构（来源：Tenstorrent）

Datacenter

Tenstorrent 支持以 2D mesh连接的机架单元。支持多种拓扑结构，许多数据中心内流行的经典叶子和脊柱模型完全受支持。

图 9：数据中心拓扑图（来源：Tenstorrent）

与Nvidia的对比

Nvidia扩展超过8个GPU时需要专用的交换机，超过16个GPU则需要使用InfiniBand网络设备，在大规模扩展时会面临一下问题：

成本高昂，需要InfiniBand和NVLink设备
需要为硬件扩展进行复杂的配置
编写和调试在多个GPU节点上运行的高效并行代码需要高度专业化的知识和技能，这增加了开发和维护成本
与之对比，使用Wormhole大规模扩展，可以降低成本并且大大的降低软件复杂度。

未来展望与创新

稀疏性、条件执行与动态路由

未来的趋势是使用特定的神经网络模型解决特定的问题，还是使用一个巨大的模型解决多个问题，不同的问题走不同的路径，参考人类的大脑，处理不同的任务时，大脑中只有一部分神经元处于活跃状态。
Tenstorrent认为是后者，所以希望可以通过条件执行和动态路由的技术，跳过大型模型中不需要执行的块，只执行需要的部分。而Tensix中的控制核可以进行条件判断，在运行时决定路由。

图 10：条件执行和路由（来源：Tenstorrent）

软件生态

硬件设计和软件开发的难易程度是相互依存、相互影响的。高性能的硬件设计需要强大的软件生态支持，而成熟的软件生态可以反过来推动硬件设计的优化。
软件栈既要兼容现有的AI开发框架，又要发挥加速器的硬件性能，是个不小的挑战。建立一个完整的软件生态并不简单，Tenstorrent采用RISC-V作为Tensix中控制核的ISA，并复用了开源的RISC-V的编译器（gcc），从而降低了开发难度。
Tenstorrent开源了其软件栈T-Buda和TT-metal，后续教程开始讲解其软件栈，包括软件架构、如何使用以及源码分析等，通过分析软件，可以更好地理解其硬件设计以及软硬件分工。

参考链接

【1】Tenstorrent Shares Roadmap of Ultra-High-Performance RISC-V CPUs and AI Accelerators | Tom's Hardware
【2】Tenstorrent Wormhole Analysis - A Scale Out Architecture for Machine Learning That Could Put Nvidia On Their Back Foot
【3】Tenstorrent Blackhole, Grendel, And Buda - A Scale Out Architecture For Sparsity, Conditional Execution, And Dynamic Routing
【4】https://www.eetimes.com/tenstorrent-engineers-talk-open-sourced-bare-metal-stack/
【5】Cards - Tenstorrent
【6】https://www.youtube.com/watch?v=5bn54FSe_0