英伟达各代显卡架构名称的含义及核心特点

英伟达(NVIDIA)的显卡架构名称多以著名科学家项目代号命名,每代架构均围绕并行计算、AI加速、图形性能等核心需求进行升级,以下是主要架构的含义及关键特性:

1. Tesla架构(2006-2010)​

尼古拉·特斯拉(Nikola Tesla)​命名,是英伟达首个统一着色器架构(Unified Shader Architecture),打破了传统分离式顶点/像素着色器的设计,将顶点、几何、像素处理单元整合为流处理器(Streaming Processor, SP)​,大幅提升了资源利用率和图形性能,奠定了后续架构的基础。

2. Fermi架构(2010-2013)​

恩里科·费米(Enrico Fermi)​命名,是英伟达首款支持CUDA 2.0的架构,引入了PolyMorph Engine​(用于处理曲面细分)、GDDR5显存​(提升内存带宽)和ECC内存​(提高数据可靠性),是当时性能最强的GPU架构之一,广泛应用于游戏和专业计算。

3. Kepler架构(2012-2015)​

约翰内斯·开普勒(Johannes Kepler)​命名,重点优化了能效比​(性能/功耗比提升约3倍),引入了动态并行​(允许GPU直接启动内核)和Hyper-Q​(提升多任务处理能力),同时支持CUDA 3.0,成为数据中心和科学计算的主流架构。

4. Maxwell架构(2014-2017)​

詹姆斯·克拉克·麦克斯韦(James Clerk Maxwell)​命名,进一步提升了能效​(比Kepler高约40%),引入了SMM(Streaming Multiprocessor Maxwell)​设计(更小的核心、更高的并行度),支持CUDA 5.0,并优化了图形渲染(如DX12 Ultimate支持),广泛应用于消费级显卡(如GTX 900系列)。

5. Pascal架构(2016-2018)​

布莱兹·帕斯卡(Blaise Pascal)​命名,首次引入统一CUDA核心​(同时支持FP32浮点运算和INT32整数运算),提升了单精度性能​(比Maxwell高约1.5倍),并支持GDDR5X/GDDR6显存​(更高带宽)和NVLink​(多GPU高速互联),是当时AI和图形性能的标杆(如GTX 1080 Ti)。

6. Volta架构(2017-2019)​

亚历山大·伏特(Alessandro Volta)​命名,是英伟达首款针对数据中心和AI优化的架构,首次引入Tensor Core​(专为矩阵运算设计,加速深度学习),支持CUDA 9.0NVLink 2.0​(更高的GPU互联带宽),主要用于高性能计算(如HPC、AI训练)。

7. Turing架构(2018-2020)​

艾伦·图灵(Alan Turing)​命名,首次加入RT Core​(光线追踪核心,加速实时光线追踪),结合Tensor Core​(深度学习加速),实现了“实时光线追踪+AI降噪”的组合,支持CUDA 10.0,是游戏显卡的重要转折点(如RTX 20系列)。

8. Ampere架构(2020-2022)​

安德烈-玛丽·安培(André-Marie Ampère)​命名,重点提升了AI性能​(Tensor Core升级至第三代,支持TF32混合精度),优化了内存带宽​(GDDR6X显存,带宽提升约1.5倍),并支持PCIe 4.0​(更高的数据传输速度),是当前消费级和企业级显卡的主流架构(如RTX 30系列)。

​9. AdaLovelace架构(2022-至今)​

埃达·洛夫莱斯(Ada Lovelace)​[[关于AdaLovelace]]命名,采用了台积电4N定制工艺​,在集成度和能效上相比Ampere有了显著提升,与Hopper架构同在2022年发布,但其针对的是游戏与消费市场,代表作是RTX 40系列显卡。其核心创新主要包括:

  • 第四代Tensor Core​:大幅提升AI运算性能,并支持DLSS 3技术。DLSS 3引入了帧生成(Frame Generation)​​ 功能,借助AI计算生成完整帧,从而在游戏中实现帧率的巨大提升
  • 第三代RT Core​:光追性能相比Ampere架构提升可达4倍,它引入了微网格置换引擎(Displaced Micro-Mesh Engine, DMME)​​ 和微映射透明度引擎(Opacity Micro-Map Engine, OMME)​,显著优化了复杂几何图形处理效率和内存使用,使实时光线追踪更加高效真实
  • 着色器执行重排序(Shader Execution Reordering, SER)​​:这是一项突破性的技术,能够动态重新组织乱序工作的执行顺序,更好地分配着色器资源,从而提升光追效率,NVIDIA称其可为光追带来最高2倍的性能提升。
  • 大幅增加的L2缓存​:Ada架构的L2缓存相比Ampere大幅增加(例如在AD102核心上从6MB增至96MB),这有效降低了延迟并提升了分辨率性能

​10. Hopper架构(2022-至今)​

格蕾丝·霍珀(Grace Hopper)​[[关于 Grace Hopper]]命名,首次引入Hopper Transformer Engine​(优化Transformer模型推理,性能提升约3倍),支持FP8数据类型​(降低内存占用,提升AI效率),并采用台积电4N工艺​(更高的晶体管密度),主要用于数据中心和AI推理(如H100 GPU)。

11. Blackwell架构(2024-至今)​

大卫·布莱克韦尔(David Blackwell)​命名(美国科学院首位黑人院士,擅长概率与统计),是英伟达针对AI大模型优化的最新架构,首次采用统一CUDA核心​(同时支持FP32/INT32,回归Pascal架构设计),支持第五代Tensor Core​(性能提升约6倍)、第五代NVLink​(带宽提升约3倍)和RAS引擎​(可靠性提升),目标是支撑10万亿参数大模型的训练与推理(如GB200 GPU)。

每代架构的名称不仅纪念了科学领域的杰出人物,更体现了英伟达在该代架构中的核心技术突破​(如Tensor Core、RT Core、统一CUDA核心等),推动了图形渲染、AI计算和高性能计算的不断发展。