Appearance
从硬件架构到核心库,系统性梳理 CUDA 生态每一个关键组件的底层原理与工程实践
深入 SM、Warp、CUDA Core、Tensor Core 的物理结构,理解 GPU 并行计算的硬件基础。
Thread、Block、Grid 三级层次结构,Kernel 启动机制,以及 SIMT 执行模型的本质。
寄存器、共享内存、L1/L2 Cache、全局内存的访问延迟与带宽,掌握内存优化的核心。
NVIDIA 官方 BLAS 实现,矩阵乘法 GEMM 的极致优化,深度学习计算的基石。
卷积、池化、归一化、激活函数的 GPU 加速实现,PyTorch/TensorFlow 的底层引擎。
AllReduce、Broadcast、Ring-AllReduce 算法,分布式训练的通信原语。
类 STL 的 GPU 并行算法库,sort、reduce、scan 的 GPU 实现与使用范式。
CUDA Stream、Event、异步内存拷贝,实现计算与传输的深度流水线重叠。
Nsight Systems 与 Nsight Compute 的使用方法,定位 GPU 性能瓶颈的完整工作流。