2021-12-03发表CS2172 分钟读完 (大约373个字)

硬件加速器背景介绍（Lecture1）

硬件加速器背景

如今计算能力限制了训练机器学习模型的工作，如果我们有更快的处理器我们可以运行更大的模型。

现有的机器学习加速器

CPU：线程、SIMD（单指令多数据流）
GPU：大量线程、SIMD、HBM（高带宽存储器）
FPGA：LUTs（查找表）、DSP、BRAM
TPU：MM Unit、BRAM

2021-12-03发表CS2174 分钟读完 (大约609个字)

机器学习背景介绍（Lecture2）

机器学习简介

本节主要学习一些机器学习算法，部分算法研究在《智能计算系统》的学习中有所接触，还学习机器学习相关技术和常见的计算模式，从而帮助加速器设计人员高效地将这些模式应用于硬件。

2021-12-03发表CS21717 分钟读完 (大约2540个字)

Roofline and TPU Performance

任何模型都必须依赖具体的计算平台才能展示出自己真正的实力。从前，许多的性能模型和模拟器都是通过追踪延迟来预测性能，近二十年也诞生了一些隐藏延迟的技术，例如：乱序执行（硬件发现并行性以隐藏延迟）；硬件流预取（硬件推测加载数据）；大规模线程并行。这些技术有效地隐藏了延迟，但同时也使得计算平台从延迟受限转变为了吞吐量受限。

Roofline模型是一个吞吐量指向的性能模型，它追踪速度而不是时间。也可以这么说说Roof-line Model就是：模型在一个计算平台的限制下，到底能达到多快的浮点计算速度。通俗来讲是”计算量为A且访存量为B的模型在算力为C且带宽为D的计算平台所能达到的理论性能上限E是多少“这个问题。Roofline模型有两个关键部分：一个是机器参数，第二个是应用的理论编辑。

2021-12-03发表CS2179 分钟读完 (大约1383个字)

Why Systolic Architectures?

为什么要设计脉动阵列这样的架构？

Simple and regular design（简单和规则的设计）

首先就是成本效益一直是专用系统的关注点，由于一个专用系统的功能往往十分有限，所以就需要它的成本足够低来弥补这一劣势。而其成本又被分为设计成本和器件成本。由于集成电路技术的进步，器件成本正在迅速下降，所以关键因素还是设计成本。所以采用脉动阵列这个简单又规则的硬件架构，可以很快地完成芯片的设计和实现。

硬件加速器背景介绍（Lecture1）

硬件加速器背景

现有的机器学习加速器

机器学习背景介绍（Lecture2）

机器学习简介

Roofline and TPU Performance

Roofline and TPU Performance

Why Systolic Architectures?

Why Systolic Architectures?

为什么要设计脉动阵列这样的架构？

链接

分类

最新文章

归档

标签

Your browser is out-of-date!