gt740显卡性能超能课堂(182)：从GTX到RTX，NVIDIA GPU架构的变迁史

找项目网 2023-05-16 10:00 找项目网 | 隐藏边栏 0

导语： P100加速卡，使用的是GP100核心，这是pascal架构的大核心，制程工艺升级到了16nm，这种工艺则是高性能工艺，所以在Pascal显卡上其GPU频率大幅提升，起步就达到了1.从2012年的Kepler显卡到今天为止，NVIDIA的显卡已经推出了五代架构，如果算上每代中的大核心与游戏核心，那就是至少10款了，这些显卡的制程工艺也从28nm一路升级到16nm、12nm。

GTX 680显卡使用的是Kepler家族中的GK104核心，但GK104反应的架构设计思路早在GF100到GF104、GF114架构中就有所体现了，那就是减少SM单元数（NVIDA这代的正式称呼是SMX单元），提升每组SM单元中的CUDA核心数，GF100时代每组SM单元还是32个CUDA核心。

GF104/GF114则是每组SM单元48个CUDA核心，而到了Kepler时代，每组SM单元的CUDA核心数一下子提升到了192个，纹理单元也增加到16组，前端渲染单元也增加到四组，同时SFU以及LD/ST单元也是水涨船高，增加到32组，纹理单元再次翻倍，8组SMX单元总计有1536个流处理器、128个纹理单元以及32个ROP单元。

gt740显卡性能_geforce gt 740 显存_gt is730m 740

GF110 SM单元（左）、GF114 SM单元（中）以及GK104 SMX单元（右）对比

除了SM单元大变之外，NVIDIA在Kepler架构中还做了一项重要改变——从Kepler开始，NVIDIA以往坚持的Core：Shader=1：2的分频模式已经没有了，以前采用这种方式是因为核心频率不能大幅提高，为了提高性能就必须让CUDA的核心频率增加一倍，但是这也意味着更高的能耗。

gt is730m 740_geforce gt 740 显存_gt740显卡性能

GK104架构的一大特点就是CUDA规模大幅增长

GTX 680中NVIDIA将SMX单元中的CUDA核心数提高至原来的3倍，而且核心频率也达到1GHz以上，不再需要Shader异步了，二者将同频运行，有助于降低显卡功耗，因此GTX 680在CUDA数量暴增的同时功耗更低，而每瓦性能比更是提高了一倍。

GTX 680显卡的规格

在Kepler时代，NVIDIA还改变了一个潜规则——以往GPU发布是首发大核心，比如费米时代的GF100到GF104/GF106，而Kepler时代是首发GK104，更大的核心GK110是后面才发布的。不过这次改变也只是Kepler时代出现的，在后面的Pascal、Volta及现在的Turing中多是大核心先发（GTC大会上首发，Tesla计算卡先用），GX104/106核心后续才会跟进。

GTX 680显卡的发布解决了NVIDIA的燃眉之急，游戏性能小幅领先AMD的HD 7970，扳回了一局，不过计算性能上不如后者，毕竟GK104并不是为计算而生的架构。对NVIDIA来说，Kepler是他们真正贯彻了游戏、计算卡彻底分离的产品，想要更好的计算性能？那就找大核心的GK110核心吧。

2012的GTC大会上NVIDIA就展示了GK110大核心的威力，年底的SC超算大会上正式发布了基于GK110的Tesla K20X及Tesla K20加速卡，完整版GK110核心拥有15组SMX单元，总计2880个CUDA核心，集成了71亿晶体管，核心面积也达到了551mm2。

geforce gt 740 显存_gt is730m 740_gt740显卡性能

GK110核心的SMX单元中依然有192个CUDA核心，但DP双精度单元数量从GK104的8个提升到了64组，这样一来但双精度的比例就变成了1：3，虽然还没有达到费米时代1：2那么夸张的地步，但远高于GK104的1：24了，再加上总性能的提升，GK110核心的计算性能总体来说还是进步的。

此外，GK110不仅仅是计算规模的增加，还增加了一些计算专用的新技术，比如NVIDIA开发的Grid Management Unit、GPUDirect、Hyper-Q以及Dynamic Parallelism动态并行技术。

第一代Titan显卡

在消费级显卡中，GK110首先用于2013年3月发布的GTX Titan显卡中，自此NVIDIA也开辟了一条新的产品线——Titan显卡，售价是999美元起步，比当时的高端显卡翻倍。

此外，Titan显卡的公版设计也与之前的显卡大为不同，并影响了后面的GTX XX80/80 Ti系列公版显卡的设计。

Titan显卡不是一般人买得起的，2013年11月份NVIDIA又推出了基于GK110核心的GTX 780系列显卡，其中GTX 780 Ti使用的是GK110-425-B1新核心，与此前的GK110还有所不同，核心面积更小一些，而且启用了完整版SMX单元，导致它的规格实际上比Titan显卡更好，性能更强，以致于后面NVIDIA又推出了完整版GK110核心的Titan Black显卡。

在Kpler架构的尾声阶段，NVIDIA还推出了GK210核心，它可以说是GK110核心的再改良版，也被称为Kepler 2.0，CUDA计算能力从GK104的3.0、GK110的3.5升级到了CUDA 3.7。

此外，NVIDIA并没有改变CUDA核心数或者CUDA的架构，他们改进的只是SMX单元之间的内存子系统，GK110（B）的SMX单元拥有256KB寄存器文件，64KB共享缓存，GK210的规模翻倍，拥有512KB寄存器文件，128KB共享缓存，因此它改进了SMX单元的数据吞吐量，提高了效率，确保CUDA核心的更容易频繁使用。

不过GK210架构主要是用在计算卡上，消费级显卡中没有，所以DIY玩家的影响力非常少，倒是有同样Kpler 2.0的GK208等核心用于低端的GT 740/730/720及移动版产品中。

2014年NVIDIA Maxwell架构：SMM单元又重组，更注重能效

在Kpler时代，NVIDIA显卡从AMDHD 7970显卡的阴影中走出来了，GK104核心的GTX 680追上了HD 7970，但没有全面优势，GK110大核心的GTX 780系列性能上有绝对优势了，只是功耗要高，但此时的NVIDIA已经掌握主动权了，毕竟AMD后来推出HD 7970继任者的R9 290X同样存在功耗、发热的问题。

根据NVIDIA的路线图，Kepler之后就是Maxwell架构了，这时候制程工艺还是28nm，Maxwell架构的重点则是改进能效。在这个阶段，NVIDIA又上演了一次出人意料的举动，Maxwell架构既不是GM200也不是GM204，而是GM107，用在了GTX 750 Ti及GTX 750显卡，从命名上也不是更新一代的，还是沿用了GTX 700系列的。

gt is730m 740_gt740显卡性能_geforce gt 740 显存

GM107核心使用的是Maxwel一代架构，其最大变化就是将SM单元（这一代称为SMM单元）再次重组，从Kpler时代的每组SM单元192个CUDA核心减少到了每组128个，但是每个SMM单元将将拥有更多的逻辑控制电路，便于精确控制，这使得GM107核心的每核心效能提升了35%，每瓦功耗比提升了一倍。

geforce gt 740 显存_gt is730m 740_gt740显卡性能

这种全新的 SM 架构可大幅提升节能性，而且在着色器有限的工作场合中可令每个CUDA核心的性能提升 35%。实现这些进步需要对架构进行大量重大更改。 NVIDIA重新编写了SM调度器架构和算法，使其更加智能，避免了不必要的停顿，同时进一步降低了调度每条指令所需的能耗。

当然，SMM单元也有很多改进的地方，比如L2缓存容量从之前的256KB大幅增加到2MB，H.264及NVENC编码/解码能力也提升了，指令周期性能也改善了。

反映到显卡上，GTX 750 Ti及GTX 750显卡拥有极好的能效比，游戏功耗比同期的HD 7770、GTX 660甚至GTX 650 Ti功耗要低很多，而且温度、噪音也非常低，这款显卡可以说是近年来的一代经典。

在GM107核心的Maxwell一代架构之后，NVIDIA又在2014年9月份推出了GTX 980/970显卡，它们使用的是GM204核心，也被称为Maxwell 2.0架构。整个GM204核心可分为4组GPC单元，每组GPC则包含4个SMM单元，每个SMM单元又包含128个CUDA核心，8个纹理单元以及一个多边形引擎单元（PolyMorph Engine 3.0），总计2048个CUDA核心，128个纹理单元。

在桌面级显卡命名上，NVIDIA这次跳过了GTX 800系列（OEM及移动版GPU上有GTX 800系列），直接进入了GTX 900系列，GTX 980使用的是GM204-400核心，搭配4GB GDDR5显存，但它的性能已经超过了GK110大核心的GTX 780 Ti显卡，TDP则从250W直降到165W，整机功耗测试中也印证了功耗的大幅下降，可以说能效优势非常明显，不论是对AMD的显卡还是对自家上代显卡而言都是如此，能效简直是碾压般的存在。

geforce gt 740 显存_gt is730m 740_gt740显卡性能

在GM107、GM204、GM206核心之后，NVIDIA在Titan X显卡上又使用了GM200核心，而且是完整版的GM200-400核心，该卡发布于2015年3月18日,它使用的GM200核心拥有6组GPC单元，24组SMM单元，每组SMM单元128个CUDA核心，总计3072个CUDA核心，而显存控制器也从之前4组64bit GDDR5变成了6组，位宽384bit。

gt is730m 740_geforce gt 740 显存_gt740显卡性能

不过6月1日NVIDIA又推出了GTX 980 Ti显卡，使用的也是GM200大核心，但是阉割版的GM200-310核心，CUDA核心数为2816个。GTX 980 Ti显卡的详细规格如下：

2016年NVIDIA Pascal架构：16nm制程红利，计算游戏核心再分离

时间很快到了2016年，4月初的GTC大会上NVIDIA发布了Tesla P100加速卡，使用的是GP100核心，这是pascal架构的大核心，制程工艺升级到了16nm，这种工艺则是高性能工艺，所以在Pascal显卡上其GPU频率大幅提升，起步就达到了1.6GHz，加速频率达到2GHz稀松平常。

在Pascal显卡上，最大的特色就是先进工艺带来的制程红利，不过这时候的GPU架构再次出现了游戏、计算的分离，出现了GP100、GP102两种大核心，而且使用的架构、显存都是不同的，其中GP100是纯粹的计算核心，不仅有3584个单精度CUDA核心，双精度核心也达到了1792个，重新回到了1：2的比例。

gt740显卡性能_geforce gt 740 显存_gt is730m 740

此外，计算用的GP100核心使用的是HBM 2显存，等效位宽4096bit，带宽达到了720GB/s，虽然没有实现HBM2显存1TB/s的满速带宽，但带宽已经比当时的GDDR5显存大幅提升了，只不过HBM2显存实在太贵了，别说2016年，直到2019年的今天都远未普及。

2016年7月份NVIDIA推出了Titan X Pascal显卡，它使用的也是16nm Pascal架构，但核心是GP102，全规格的GP102核心确实可以称为目前最强大的微架构：120亿晶体管、3584个流处理器、12GB GDDR5X 显存、384-Bit位宽，相比Tesla P10的HBM 2显存和NVLink有所妥协，所以显存带宽为480GB/s，8+6Pin供电，显示接口提供Display Port 1.4、HDMI 2.0b以及双链DVI，最大支持7680*4320@60Hz输出，性能上达到11TFLOPS。

gt is730m 740_geforce gt 740 显存_gt740显卡性能

在Titan X Pascal之外，桌面的GTX 1080 Ti显卡也是GP102核心，除了显存容量、位宽的变化之外，GP102核心的SM单元架构也跟GP100核心不同，后者为了追求更高的计算性能，每组SM单元的CUDA核心数减少到了64个，但集成了更多组SM单元，高达56组。

而GP102核心虽然也是3584个CUDA核心总数，但只有28组，每组SM单元的数量回归到了Maxwell的128个，所以这一代游戏及计算再次分离，本质上来说GP100是真正的Pascal核心，而GP102核心是16nm加强版的Maxwell架构。

gt is730m 740_geforce gt 740 显存_gt740显卡性能

Maxwell（左）架构与GP104核心的SM单元架构

从GTX 1080的GP104到GTX 1080 Ti的GP102核心，它们的SM单元架构倒是一致的，只是CUDA核心数量的区别。

除此之外，GTX 1080系列显卡在在技术上也比GTX 980系列有所增强，使用了频率更高的GDDR5X显存及更先进的内存压缩算法，改进了异步运算及对VR的支持。

2017年NVIDIA Volta：真正为计算而生的GPU，支持AI加速

在NVIDIA的路线图上，原本Maxwell之后是Volta，后者技术迈进的更多，但因为种种原因，Volta显卡进度不如预期，所以中间多了个Pascal显卡，这也可以解释为什么GP102/104核心的架构其实比Maxwell没什么质的变化。

但是Volta就不同了，这又是一款真正为计算而生的显卡架构了，与Pascal相比，GV100核心的CUDA核心数一下子增加到了5120个，尽管使用了16nm改良版的12nm FFN工艺，但它各方面规格都很惊人——815mm2核心面积、211亿晶体管、5120个CUDA核心、15TFLOPS浮点性能等等。

gt is730m 740_geforce gt 740 显存_gt740显卡性能

在GV100大核心中，每组GPC单元是14个SM单元，总数应该是84组SM单元，但是现在Tesla V100跟Tesla P100一样都不是完全体，前者启用了56组SM单元，后者启用了80组SM单元，总计80x64=5120个CUDA核心。

除此之外还有FP64单元，GV100依然延续了GP100中FP32：FP64=2：1的比例，每个SM单元中有32个FP64单元，理论上有2688个FP64单元，实际启用的是2560个。

更重要的是，Volta架构在传统的单双精度计算之外还增加了专用的Tensor Core张量单元，用于深度学习、AI运算等gt740显卡性能，在GV100大核心中，每组SM单元中还有8个Tensor单元，这样整个SM单元中就是FP32：FP64：Tensor=64：32：8的比例存在，GV100也因此有了Tensor计算能力这个指标，Tesla P100的Tensor计算能力高达120TFLOPS，NVIDIA宣称它的Tensor性能是Pascal架构的12倍。

gt is730m 740_geforce gt 740 显存_gt740显卡性能

Volta架构如此之特殊，以致于NVIDIA并没有推出对应的消费级产品，除了TITAN V这一款显卡，TITAN V从Tesla V100的4096-bit、16GB缩减为3072-bit、12GB的HBM2显存，显存频率850MHz，等效数据频率1700MHz，带宽高达652.8GB/s，另外TITAN V的L2缓存减少到4.5MB，这些使得在深度学习运算性能上稍不如Tesla V100（112TFLOPS），显卡供电接口是6+8pin，显卡TDP250W，显示接口为3个DP+1个HDMI。

2018年NVIDIA Turing架构：追光十二年，RTX全新品牌诞生

Volta这一代没有什么主流游戏卡问世，但这也没影响NVIDIA的显卡布局，GTX 10系列显卡时代恰逢矿卡市场再次火爆，导致GTX 1060等显卡完全不愁销路，2017到2018年上半年的时候NVIDIA及AMD都不担心互相抢市场了，光是卖矿卡就大赚特赚了，所以GTX 10系列的Pascal显卡升级换代周期长达2年多，发布2年之后不光没有退市，还没有降价，简直是显卡市场上的奇迹。

不过2018年下半年了，矿卡崩了，NVIDIA及显卡厂商即便有矿卡库存问题，还是要推新架构，8月底的德国科隆游戏展上NVIDIA正式发布了Turing图灵架构，当然这次其实是游戏展之前的SIGRAPH大会上现发布了面向工作站的Quadro RTX 8000/6000系列专业卡。

geforce gt 740 显存_gt740显卡性能_gt is730m 740

对于图灵显卡，我们已经很熟悉了，这一代显卡最大的变化首先是全新的品牌命名，从GTX变成了RTX，而RTX代表就是实时光线追踪技术，因为这是图灵显卡技术升级最多的地方，NVIDIA CEO黄仁勋在发布会热情表态图灵是他们12年来GPU架构变化最大的一次，原因就是RTX，通过专用的RT Core核心，NVIDIA实现了游戏中可用的实时光线追踪渲染。

geforce gt 740 显存_gt is730m 740_gt740显卡性能

除了RTX之外gt740显卡性能，图灵显卡也支持Volta的Tensor Core，可以用于AI加速，NVIDIA之前也提供了多种显卡可用的AI玩法，比如DLSS抗锯齿技术，不过相比RTX光追技术，AI加速在游戏中应用太少，不够吸引人。

gt is730m 740_gt740显卡性能_geforce gt 740 显存

在SM单元架构中，图灵这一代又有所不同了，不同于Pascal架构中的GP102/GP104核心，更像是Volta架构的GV100大核心，因为每组SM单元又变成了64个CUDA核心，其中RTX 2080 Ti使用的TU102核心一共分为6组GPC单元，每组GPC单元又拥有12个SM单元，一共是72个SM单元，但RTX 2080 Ti也只用到其中的68个而已，算下来68×64=4352个CUDA流处理器。

至于RTX 2080显卡使用的TU104核心，完整版的TU104核心依然是6组GPC单元，不过每组GPC改为8个SM单元，一共是6×8=48个，而RTX 2080的GPU核心是TU104-400，只用上了46组，还有预留有2组空缺的，46×64=2944个，规模要比RTX 2080 Ti小多了。

支持RTX光追是图灵显卡的特色，不过RTX光追除了游戏数量的问题之外，还有一个问题就是它对性能的要求还是太高了，所以在图灵显卡这一代中NVIDIA的市场策略也不同，支持RTX技术的显卡主要是RTX Titan、RTX 2080 Ti、RTX 2080、RTX 2070及RTX 2060，而不支持RTX的则变成了GTX 16系列，包括GTX 1660 Ti、GTX 1660及刚刚发布的GTX 1650显卡。

RTX 20系列显卡的规格

GTX 16系列显卡的规格

总结：五代GPU性能大幅提升，能效更高，但价格也更高

从2012年的Kepler显卡到今天为止，NVIDIA的显卡已经推出了五代架构，如果算上每代中的大核心与游戏核心，那就是至少10款了，这些显卡的制程工艺也从28nm一路升级到16nm、12nm。在游戏性能上，根据超能网的显卡天梯榜，如今的RTX 2080 Ti显卡的性能是GTX 480显卡的7倍左右，而GPU的晶体管数量也从30亿增长到了210亿，与性能增幅基本同步。

如果考虑到性能、功耗，那么多年来NVIDIA显卡的能效增长还是很明显的，毕竟大核心的TDP功耗多年来一直维持在250-300W之间，但性能已经增长了6-7倍。

此外，前面我们没有详细提及历代显卡的价格，但是这个趋势也很明显了，GTX 400到GTX 700阶段中，高端显卡的售价都是3999元，但是这几年来价格已经水水涨船高，NVIDIA这边尤其明显，Titan显卡从最初7999元的价格一路涨到了2万元，而主流市场上的旗舰显卡价格也涨到了6000元以上，RTX 20这一代涨价更多，RTX 2080 Ti售价直奔9999元，这是以往Titan显卡的级别了。

———END———
限时特惠：本站每日持续更新海量各大内部创业教程，一年会员只需128元，全站资源免费下载点击查看详情
站长微信：jiumai99

cuda 显卡天梯显存核心显卡英伟达

1.站长不是项目作者，不对项目解答及盈亏负责。
2.本站所有项目来源于投稿或购买自其他第三方，若本站侵犯了您的权益请联系站长进行删除处理。

找项目网关注：0 粉丝：0

这个人很懒，什么都没写

你可能也喜欢

热评文章

找好项目-就到找项目网

聚合阅读

标签云(过期项目)

gt740显卡性能 超能课堂(182)：从GTX到RTX，NVIDIA GPU架构的变迁史

你可能也喜欢

热评文章

找好项目-就到找项目网

聚合阅读

标签云(过期项目)

gt740显卡性能超能课堂(182)：从GTX到RTX，NVIDIA GPU架构的变迁史