
英伟达各代显卡架构名称的含义及核心特点
英伟达各代显卡架构名称的含义及核心特点
英伟达(NVIDIA)的显卡架构名称多以著名科学家或项目代号命名,每代架构均围绕并行计算、AI加速、图形性能等核心需求进行升级,以下是主要架构的含义及关键特性:
1. Tesla架构(2006-2010)
以尼古拉·特斯拉(Nikola Tesla)命名,是英伟达首个统一着色器架构(Unified Shader Architecture),打破了传统分离式顶点/像素着色器的设计,将顶点、几何、像素处理单元整合为流处理器(Streaming Processor, SP),大幅提升了资源利用率和图形性能,奠定了后续架构的基础。
2. Fermi架构(2010-2013)
以恩里科·费米(Enrico Fermi)命名,是英伟达首款支持CUDA 2.0的架构,引入了PolyMorph Engine(用于处理曲面细分)、GDDR5显存(提升内存带宽)和ECC内存(提高数据可靠性),是当时性能最强的GPU架构之一,广泛应用于游戏和专业计算。
3. Kepler架构(2012-2015)
以约翰内斯·开普勒(Johannes Kepler)命名,重点优化了能效比(性能/功耗比提升约3倍),引入了动态并行(允许GPU直接启动内核)和Hyper-Q(提升多任务处理能力),同时支持CUDA 3.0,成为数据中心和科学计算的主流架构。
4. Maxwell架构(2014-2017)
以詹姆斯·克拉克·麦克斯韦(James Clerk Maxwell)命名,进一步提升了能效(比Kepler高约40%),引入了SMM(Streaming Multiprocessor Maxwell)设计(更小的核心、更高的并行度),支持CUDA 5.0,并优化了图形渲染(如DX12 Ultimate支持),广泛应用于消费级显卡(如GTX 900系列)。
5. Pascal架构(2016-2018)
以布莱兹·帕斯卡(Blaise Pascal)命名,首次引入统一CUDA核心(同时支持FP32浮点运算和INT32整数运算),提升了单精度性能(比Maxwell高约1.5倍),并支持GDDR5X/GDDR6显存(更高带宽)和NVLink(多GPU高速互联),是当时AI和图形性能的标杆(如GTX 1080 Ti)。
6. Volta架构(2017-2019)
以亚历山大·伏特(Alessandro Volta)命名,是英伟达首款针对数据中心和AI优化的架构,首次引入Tensor Core(专为矩阵运算设计,加速深度学习),支持CUDA 9.0和NVLink 2.0(更高的GPU互联带宽),主要用于高性能计算(如HPC、AI训练)。
7. Turing架构(2018-2020)
以艾伦·图灵(Alan Turing)命名,首次加入RT Core(光线追踪核心,加速实时光线追踪),结合Tensor Core(深度学习加速),实现了“实时光线追踪+AI降噪”的组合,支持CUDA 10.0,是游戏显卡的重要转折点(如RTX 20系列)。
8. Ampere架构(2020-2022)
以安德烈-玛丽·安培(André-Marie Ampère)命名,重点提升了AI性能(Tensor Core升级至第三代,支持TF32混合精度),优化了内存带宽(GDDR6X显存,带宽提升约1.5倍),并支持PCIe 4.0(更高的数据传输速度),是当前消费级和企业级显卡的主流架构(如RTX 30系列)。
9. AdaLovelace架构(2022-至今)
以埃达·洛夫莱斯(Ada Lovelace)[[关于AdaLovelace]]命名,采用了台积电4N定制工艺,在集成度和能效上相比Ampere有了显著提升,与Hopper架构同在2022年发布,但其针对的是游戏与消费市场,代表作是RTX 40系列显卡。其核心创新主要包括:
- 第四代Tensor Core:大幅提升AI运算性能,并支持DLSS 3技术。DLSS 3引入了帧生成(Frame Generation) 功能,借助AI计算生成完整帧,从而在游戏中实现帧率的巨大提升
- 第三代RT Core:光追性能相比Ampere架构提升可达4倍,它引入了微网格置换引擎(Displaced Micro-Mesh Engine, DMME) 和微映射透明度引擎(Opacity Micro-Map Engine, OMME),显著优化了复杂几何图形处理效率和内存使用,使实时光线追踪更加高效真实
- 着色器执行重排序(Shader Execution Reordering, SER):这是一项突破性的技术,能够动态重新组织乱序工作的执行顺序,更好地分配着色器资源,从而提升光追效率,NVIDIA称其可为光追带来最高2倍的性能提升。
- 大幅增加的L2缓存:Ada架构的L2缓存相比Ampere大幅增加(例如在AD102核心上从6MB增至96MB),这有效降低了延迟并提升了分辨率性能
10. Hopper架构(2022-至今)
以格蕾丝·霍珀(Grace Hopper)[[关于 Grace Hopper]]命名,首次引入Hopper Transformer Engine(优化Transformer模型推理,性能提升约3倍),支持FP8数据类型(降低内存占用,提升AI效率),并采用台积电4N工艺(更高的晶体管密度),主要用于数据中心和AI推理(如H100 GPU)。
11. Blackwell架构(2024-至今)
以大卫·布莱克韦尔(David Blackwell)命名(美国科学院首位黑人院士,擅长概率与统计),是英伟达针对AI大模型优化的最新架构,首次采用统一CUDA核心(同时支持FP32/INT32,回归Pascal架构设计),支持第五代Tensor Core(性能提升约6倍)、第五代NVLink(带宽提升约3倍)和RAS引擎(可靠性提升),目标是支撑10万亿参数大模型的训练与推理(如GB200 GPU)。
每代架构的名称不仅纪念了科学领域的杰出人物,更体现了英伟达在该代架构中的核心技术突破(如Tensor Core、RT Core、统一CUDA核心等),推动了图形渲染、AI计算和高性能计算的不断发展。
