CUDA01中硬件架构、warp调度、指令流水线及cuda并发流如何协同工作？

2026-05-25 13:320阅读0评论SEO基础

内容介绍
文章标签
相关推荐

本文共计7067个文字，预计阅读时间需要29分钟。

这一部分主要讨论了从头开始记录CUDA编程方法和一些物理架构上的特点；从硬件入手，涉及到包括线程期的划分、流控制线的调度等微观结构的微调问题，以及这些物理设施如何与软件相匹配。

这一部分打算从头记录一下CUDA的编程方法和一些物理架构上的特点；从硬件入手，写一下包括线程束的划分、流水线的调度等等微结构的问题，以及这些物理设备是如何与软件对应的。下一部分会写一下cuda中的几种内存划分，进行数据同步，以及优化cuda运行效率的几种方法。（传送门）

1 硬件架构 1.1 Tesla ： G80

不同厂家、版本的GPU内容差别可能会比较大，因此挑出几款比较经典的GPU，写一些通用的部分。

GPU最重要的一点是可以并行的实现数据处理。这一点在数据量大、运算复杂度不高的条件下极为适用。可以简单地把一块GPU想象成一个超多核的CPU运算部件。这些CPU有自己的寄存器，还有供数据交换用的共享内存、缓存，同时周围还有取指部件和相应的调度机制，保证指令能够在之上执行。

G80 在 2006年发布，是Telsa架构下的一块早期显卡，拥有现在GPU中一些非常重要的特点，比如SM/SP的划分、多级内存结构、线程束等等，在后文会一一展开。

一块G80内，设计了多个SM（stream Multiprocessor：流多处理器），每个SM内又包括了多个SP（streaming processor）。而SP正是实现算数功能的核心部件，可以类比CPU之中的ALU单元，只不过其计算能力要差很多。G80中计算单元甚至只有24位，做32位整形数运算的时候需要使用算法模拟。

上图为一块G80的架构。

阅读全文