硬件加速器背景介绍(Lecture1)

硬件加速器背景

​ 如今计算能力限制了训练机器学习模型的工作,如果我们有更快的处理器我们可以运行更大的模型。

现有的机器学习加速器
  • CPU:线程、SIMD(单指令多数据流)
  • GPU:大量线程、SIMD、HBM(高带宽存储器)
  • FPGA:LUTs(查找表)、DSP、BRAM
  • TPU:MM Unit、BRAM
阅读更多

机器学习背景介绍(Lecture2)

机器学习简介

​ 本节主要学习一些机器学习算法,部分算法研究在《智能计算系统》的学习中有所接触,还学习机器学习相关技术和常见的计算模式,从而帮助加速器设计人员高效地将这些模式应用于硬件。

阅读更多

Roofline and TPU Performance

Roofline and TPU Performance

​ 任何模型都必须依赖具体的计算平台才能展示出自己真正的实力。从前,许多的性能模型和模拟器都是通过追踪延迟来预测性能,近二十年也诞生了一些隐藏延迟的技术,例如:乱序执行(硬件发现并行性以隐藏延迟);硬件流预取(硬件推测加载数据);大规模线程并行。这些技术有效地隐藏了延迟,但同时也使得计算平台从延迟受限转变为了吞吐量受限。

​ Roofline模型是一个吞吐量指向的性能模型,它追踪速度而不是时间。也可以这么说说Roof-line Model就是:模型在一个计算平台的限制下,到底能达到多快的浮点计算速度。通俗来讲是”计算量为A且访存量为B的模型在算力为C且带宽为D的计算平台所能达到的理论性能上限E是多少“这个问题。Roofline模型有两个关键部分:一个是机器参数,第二个是应用的理论编辑。

阅读更多

Why Systolic Architectures?

Why Systolic Architectures?

为什么要设计脉动阵列这样的架构?

  • Simple and regular design(简单和规则的设计)

​ 首先就是成本效益一直是专用系统的关注点,由于一个专用系统的功能往往十分有限,所以就需要它的成本足够低来弥补这一劣势。而其成本又被分为设计成本和器件成本。由于集成电路技术的进步,器件成本正在迅速下降,所以关键因素还是设计成本。所以采用脉动阵列这个简单又规则的硬件架构,可以很快地完成芯片的设计和实现。

阅读更多
Your browser is out-of-date!

Update your browser to view this website correctly.&npsb;Update my browser now

×