硬件加速器背景介绍(Lecture1)
硬件加速器背景
如今计算能力限制了训练机器学习模型的工作,如果我们有更快的处理器我们可以运行更大的模型。
现有的机器学习加速器
- CPU:线程、SIMD(单指令多数据流)
- GPU:大量线程、SIMD、HBM(高带宽存储器)
- FPGA:LUTs(查找表)、DSP、BRAM
- TPU:MM Unit、BRAM
如今计算能力限制了训练机器学习模型的工作,如果我们有更快的处理器我们可以运行更大的模型。
任何模型都必须依赖具体的计算平台才能展示出自己真正的实力。从前,许多的性能模型和模拟器都是通过追踪延迟来预测性能,近二十年也诞生了一些隐藏延迟的技术,例如:乱序执行(硬件发现并行性以隐藏延迟);硬件流预取(硬件推测加载数据);大规模线程并行。这些技术有效地隐藏了延迟,但同时也使得计算平台从延迟受限转变为了吞吐量受限。
Roofline模型是一个吞吐量指向的性能模型,它追踪速度而不是时间。也可以这么说说Roof-line Model就是:模型在一个计算平台的限制下,到底能达到多快的浮点计算速度。通俗来讲是”计算量为A且访存量为B的模型在算力为C且带宽为D的计算平台所能达到的理论性能上限E是多少“这个问题。Roofline模型有两个关键部分:一个是机器参数,第二个是应用的理论编辑。
首先就是成本效益一直是专用系统的关注点,由于一个专用系统的功能往往十分有限,所以就需要它的成本足够低来弥补这一劣势。而其成本又被分为设计成本和器件成本。由于集成电路技术的进步,器件成本正在迅速下降,所以关键因素还是设计成本。所以采用脉动阵列这个简单又规则的硬件架构,可以很快地完成芯片的设计和实现。
Update your browser to view this website correctly.&npsb;Update my browser now