CUDA编程入门与性能优化:从线程组织到内存层级与并行加速 发表于 2026-01-19 分类于 CUDA 这篇笔记从 CUDA 入门出发,按“能跑→能查错→能计时→能优化”的路径系统讲清 GPU 线程组织、编译与工具链、内存层级与占有率,并以带宽/算术强度/并行规模为主线,用矩阵转置、归约、原子操作、warp 原语、共享内存与 bank 冲突、stream 与异步拷贝等案例串起一套可复用的性能分析与优化方法,帮助把程序从“正确”推到“更快”。 参考:《CUDA编程:基础与实战》 阅读全文 »