CUDA 深度解析NVIDIA GPU 并行计算生态全景

从硬件架构到核心库，系统性梳理 CUDA 生态每一个关键组件的底层原理与工程实践

GPU 硬件架构

深入 SM、Warp、CUDA Core、Tensor Core 的物理结构，理解 GPU 并行计算的硬件基础。

Thread、Block、Grid 三级层次结构，Kernel 启动机制，以及 SIMT 执行模型的本质。

寄存器、共享内存、L1/L2 Cache、全局内存的访问延迟与带宽，掌握内存优化的核心。

NVIDIA 官方 BLAS 实现，矩阵乘法 GEMM 的极致优化，深度学习计算的基石。

卷积、池化、归一化、激活函数的 GPU 加速实现，PyTorch/TensorFlow 的底层引擎。

AllReduce、Broadcast、Ring-AllReduce 算法，分布式训练的通信原语。

类 STL 的 GPU 并行算法库，sort、reduce、scan 的 GPU 实现与使用范式。

CUDA Stream、Event、异步内存拷贝，实现计算与传输的深度流水线重叠。

Nsight Systems 与 Nsight Compute 的使用方法，定位 GPU 性能瓶颈的完整工作流。