设为首页 - 加入收藏
广告 1000x90
您的当前位置:9号彩票app下载 > 变迁规则 > 正文

D线上的华尔兹 GPU面积变迁潜规律漫谈

来源:未知 编辑:admin 时间:2019-05-01

  年末又到了,在这个临近元旦以及圣诞节周期的时间里,除了各种接踵而至的游戏大作以及仿佛永远也吵不完的架之外,对我们来说最热门的东西莫过于即将到来的开普勒以及GCN构架,还有它们领衔的下一代DirectX 11构架了。预测新一代显卡的优劣与胜负是很多人的兴趣,但区别于单纯的“猜测”,预测需要掌握更多的信息,甚至需要了解许多芯片领域的潜规则。

  等等,芯片制造领域也有“潜规则”?有的,我们今天所要面对的,就是一个关于芯片面积甚至是厂商生死的潜规则的故事。

  想要掌握预测新一代显卡的优劣与胜负的关键,我们首先要接触的问题便是芯片的面积以及背后的芯片可制造性问题,这也是我们今天行文的关键和重点。作为现代半导体业最核心的问题之一,从人类第一次开始面对它的那一刻起,芯片可制造性的魔咒就禁锢着整个半导体业界的每一款产品。芯片的面积作为衡量可制造性的重要指标,长期以来似乎被认为是没有特定规律和限制的,只要遵循摩尔定律的轨迹,同时不超过工艺耐受的极限,想怎么造芯片是厂商自己的事情,至于最终产品市场接不接受用户喜不喜欢,好像也是由性能以及功耗发热等等决定的,跟面积率以及可制造性本身似乎没有什么直接的必然联系。

  和我们之前面对过的每一个故事一样,想要触及问题的本质,必须先从回忆中的某些特殊的事件讲起。接下来我们要面对的回忆,是一场从DirectX 9.0C开始的精彩故事。

  2004年4月发布的NV40是世界上第一颗支持DirectX 9.0C的GPU,采用带冗余电路的IBM Fishkill 130nm铜互连工艺生产,集成超过2亿晶体管,芯片面积288平方毫米。作为第一代DirectX 9.0C芯片,NV40的芯片面积在当时可谓巨大,而且曾一度盛传因良率问题而难产,如果不是IBM Fishkill亲自操刀带来的贵族级的工艺,相信NV40不会像后来那样顺风顺水。

  作为NVIDIA的第二代DirectX 9.0C构架,2005年6月登场的G70不仅大幅放大了NV40构架诸资源的规模,改进了每条流水线中负责co-issue的第二组ALU,尽管工艺方面从IBM的130nm转向了TSMC的110nm,但由于大幅增加的资源总量,其芯片面积依旧增加到了326平方毫米。

  伴随着工艺的逐渐成熟以及对构架的深入把握,NVIDIA于2006年3月推出了G70的改进型构架版本——G71。G71采用了TSMC Fab1290nm工艺,在EDA及构架层面上均进行了清理和更新,这让G71拥有了196平方毫米的瘦身面积。

  整个DirectX 9.0C时代的3款NVIDIA芯片可以被看做是一次良好的构架摸索—规模放大—工艺修正过程,这种稳定提升性能然后开始平衡成本利润关系的做法,最终让G71取得了商业及用户口碑的双重佳绩。

  对比NVIDIA,AMD在前DirectX 9.0C及DirectX 9.0C时代的表现就要杂乱一些了。首先登场的是于NV40一个月之后发布的R420,受制于情报战的失利,R420的整个构架经历了一次相当匆忙的调整过程,同时也并未能支持DirectX 9.0C。采用130nm工艺生产的R420在这样的前提下,拥有了260平方毫米的核心面积。

  接下来登场的是代号FUDO的R520,ATI在R520身上集合了诸多先进的特性改进,包括DirectX 9.0C的支持、更加先进的Tiles-AA以及Crossfire等,同时启用了TSMC Fab11 90nm工艺进行制造。遗憾的是,初次进入100nm以下这一深亚微米屏障区域的TSMC遇到了包括吸湿以及孪晶在内的诸多工艺问题,这影响了R520的部署节奏以及性能。R520最终的芯片面积定格在了289平方毫米。

  前两代构架的失利让ATI积累了不少的怨气,盼望在性能和构架上重新夺魁的它在半年之后发布了全新的同时也是最后一代的DirectX 9.0C构架——R580,R580拥有3倍于R520的Pixel Shader及ALU资源,同时首次将GPGPU的概念引入到了桌面娱乐级显卡构架中。由于成倍增长的ALU资源,同样使用90nm工艺制造的R580在拥有强悍DirectX 9.0C性能的同时,其核心面积也远大于R520,最终达到了358平方毫米这一DirectX 9.0C时代的最顶点。

  ATI的DirectX 9.0C时代过的并不算顺利,R420在修正错误,接下来的R520修正了R420的错误之后又发现了新的错误,然后的R580则在修正R520错误的同时重复着R520的问题。再然后,就没有然后了……

  有一点必须予以特别提及,那就是我们在这里回顾的目的并非纠缠于一款芯片的得失成败,而是一段DirectX API寿命内数个系列芯片的整体表现。因此虽然接下来即将登场的R600在常规眼光看来是一款失败的作品,但它却为我们的故事提供了一抹亮色。

  2007年5月登场的R600是AMD收购ATI之后推出的首款DirectX 10芯片,由于ringbus以及过分注重ILP等构架层面的失当,采用TSMC 80nm工艺制造的R600背负了沉重的芯片面积负担,435平方毫米的芯片面积不仅没有能够给R600带来卓越的性能,还严重影响了其可制造性。

  立于险境的AMD迅速着手对R600进行了改进,不仅砍掉了诸多挤占资源严重的芯片设计,更一改传统的半代工艺升级法,直接以豪赌的形式将工艺一次性提升了一个整代。于是在半年之后的11月,我们看到了55nm工艺制造,芯片面积仅为192平方毫米的RV670。RV670一改R600高发热低良率以及可制造性极差的弊端,虽然在性能方面未能扭转颓势,但R600-RV670这次典型的tick-tock过程却为今后的AMD DirectX 10芯片发展积累了宝贵的财富。

  利用RV670节约下来的大量晶体管及芯片面积资源,AMD在最后一代的DirectX 10芯片中大胆的进行了巨大的规模释放。半年后的2008年6月,ALU资源2.5倍于RV670的RV770来到了我们的面前。RV770在性能较之R600系列有大幅提升的同时,芯片面积却维持在了256平方毫米这一相当不错的尺寸上。

  DirectX 10周期对于ATI/AMD来说是戏剧性的一段经历,繁冗的收购和最初的失败没有将之击垮,却反而为其送上了一份大礼,不仅最终铸就了RV770的巨大成功,更让AMD成功的在GPU界站稳了脚跟并成了可以与NVIDIA分庭抗礼的存在。

  有失败铸就的成功,当然就会有成功铸就的失败,NVIDIA的DirectX 10时代虽然并不能说是失败,其发展路线从构架角度来讲确属必要,但DirectX 10时代后期那段并不算好过的日子也的确成了AMD构架演进的对照系。

  首先登场的是可以被称作是上最成功GPU的G80。由于对API需求的合理预判以及选择TLP作为发展思路,正确的战略方向让G80在没有多少包袱的前提下拥有了颇高的单位效率和绝对性能。但与先进构架相对应的是工艺方面的保守,NVIDIA并未采用当时更加先进的半代工艺升级法,因此采用90nm工艺制造的G80拥有了484平方毫米的芯片面积。

  在经历了构架调整完善以及工艺升级之后,采用65nm工艺制造的G92于2007年10月面世。相对于G80,G92在构架层面补完了shared以及Texture部分,将MC从384bit削减至256it,但基本结构较之G80并未有更大的变化,因此更换工艺之后的G92并未像R600-RV670那样出现巨大的芯片尺寸降幅,属于标准Tick-Tock过程的G92构架的核心面积最终定格在了334平方毫米这一数值上。

  接下来的GT200对NVIDIA来说可以算是一个“甜蜜的灾难”。按照NVIDIA的构架演进计划,GT200不仅要完成超越G80/G92至少50%的图形性能目标,更要为NVIDIA打开通用计算及HPC应用市场,甚至还要为即将到来的DirectX 11积累构架方面的经验。在双重目标以及Tick-Tock节奏的压迫之下,GT200构架不仅整体规模较之G80/G92提升了近100%,芯片面积更是达到了创纪录的576平方毫米,这不仅让GT200的发热控制成了极其困难的事情,更让NVIDIA背负了沉重的成本及可制造性负担。

  本来NVIDIA的故事到这里就该告一段落了,但由于GT200的问题确实严重,NVIDIA不得不对产品线的制造工艺进行了比对手多一次的tick过程,将G92和GT200的制造工艺升级到了55nm,由此诞生的G92B和GT200B的芯片尺寸分别变成了276及470平方毫米。尺寸缩减之后的GT200B不仅一扫GT200的诸多阴霾,更创造了GTX260+这一“不老的神话”。

  NVIDIA的DirectX 10时代是规律的,3代构架演进过程的每一步均达到了目的,之间也维持了完整规律的Tick-Tock节奏,性能层面也无可挑剔,但最终的GT200却让NVIDIA着实难过了一段时间。反观AMD的DirectX 10时代虽然以悲剧开场,而且构架的每一次演进不仅没有明确且具有延续性的宏观路线,细节层面也仅仅是在不断地偿还之前开场所欠下的债务,但最终却收获了喜剧的结局。是什么让悲喜剧的剧本完成了互换,又是什么让本以疲态尽显的GT200起死回生呢?

  D线,就是我们今天要讨论的关于芯片面积变迁潜规则的关键,而如果想要讨论D线,我们首先要做的是为D线下一个定义。所谓D线,指得是每一个DirectX版本所对应的第一代GPU构架的芯片面积,这个芯片面积在坐标系中构成的横坐标轴指挥了整个该版本DirectX环境下所有旗舰级GPU构架的面积线。关于双方围绕D线进行的动作,以及这些动作构成的结果,我们将在下一页文章中予以分析。

  D线并不是一个绝对的数值,它允许微小的向上浮动,但绝对数值一般不会超过正5~10%。同时,D线对于跨阵营GPU也没有实际意义,它仅用来标示本阵营内部同代DirectX的所有构架的生死。

  D线之所以称之为“D”线,是因为这条线对于一整个版本的DirectX中的GPU,尤其是中后期的GPU构架来说实际上是一条死亡之线(Dead Line)。对于DirectX版本中前期的GPU构架,D线相对要宽容一点,但对于末期版本的GPU构架就完全不同了,所有芯片面积大幅跨越D线,也就是芯片面积超过初代GPU面积10%以上的的DirectX版本末期GPU,基本上都没有得到好的结局。这就是我们要讨论的在看似杂乱无章的现象背后,那个关于芯片面积变迁规律甚至关乎厂商生死的潜规则。

  在通常情况下,每一代DirectX版本都会持续30~36个月的时间,而按照NVIDIA多次强调的12个月集成度提升一倍的GPU构架更迭周期,每个版本的DirectX将对应3款左右构架的诞生。与此同时,这段时间周期内半导体工厂还将发生最少一次的工艺更迭。伴随着工艺的更迭以及半导体集成度的不断放大,芯片能不能被制造出来以及能不能被大量的制造出来这一问题被越来越明确地提到了影响GPU构架的决定性位置。这一切因素的影响,共同造就了D线的出现。

  由于GPU厂商必须在某代DirectX出现之前便开始对应GPU的研发工作,对即将到来的API的各种特性以及它们对市场需求所产生的影响之类的要素,厂商们基本上只能采取情报和信息判读以及预测的方式来加以了解。因此即便极尽与微软配合之能事,想要让设计中的芯片完全满足尚未出现的新版本DirectX以及随之变化的市场的全部要求也几乎是不可能完成的任务。另外,DirectX的更新周期往往还会与半导体新工艺的更新周期重叠,新的芯片究竟是否适应新工艺的技术特点也是一个至关重要的问题。

  有介于此,每代DirectX对应的初代甚至是第二代GPU构架几乎全部都带有实验性质。它们被赋予的角色通常都是探路人,不仅要收集全新API的硬件需求情报,试探市场对API以及产品的接受程度,修正开发者自身对图形技术发展方向预测的方式,改进和改良新的半导体制造工艺与硬件之间的配合,甚至还会影响到关于与微软合作深度、方式以及市场运作形式之类可能影响公司生死的战略和决策。

  如果想要更好的完成这些任务,选择贴近极限的大芯片设计是至关重要的。更大的芯片不仅能够提供更多的单元作为试验场地,让设计者尽可能全面的检测构架细节搭配以及逻辑结构的合理性,为“频率还是规模”这个永恒的话题寻找适合当下的答案,更能替后续的调整和优化留下更大的余量,还可以检测代工厂在可制造性方面所能够耐受的极限以及市场对功耗和发热的接受度。这些带有探索性质的特性混合在一起所带来的挑战,是该版本的DirectX后续阶段所不可能提供的。因此初代芯片往往意味着极高的制造困难度和较低的市场接受度,这也正是D线对第二代GPU通常都会较为宽容的原因,同时也是D线存在的意义——D线就是界限,界限之内只会有更好的可制造性和接受度,超过界限则只可能会越来越糟糕。

  随着API出现之后的逐渐稳定,以及厂商对初代硬件构架的各方面综合检讨,DirectX中后期,尤其是末期的芯片将逐渐的趋于稳定。芯片将从探索性的激进转变成以回收成本和获利为目的的保守,对当前API的优化也会随着对初代芯片的检讨而逐步完成,这种检讨如果表现为删节和优化不必要的单元结构,显然会比添加缺失单元更能降低可制造性方面的负担。即使后续的芯片依旧需要进一步释放规模,不必要单元的删节和逻辑结构的优化也会让这种释放过程变得更加容易,R600-RV770的过程就堪称这方面的典范。结构上的优化以及工艺的更新,有助于将芯片从可制造性的极限中解救出来,不需要再去挑战工艺极限的第三代、第四代DirectX芯片,自然没有必要去踩过D线。

  D线上的第一幕悲喜剧发生在DirectX 9.0C时代,这个阶段的NVIDIA芯片经历了一个Tock-Tock-Tick的过程,NV40更换了构架,同时确立了DirectX 9.0C时代N卡阵营的D线,接下来的中期时代构架G70虽然在更新工艺的前提下仍旧大幅超越了D线的完美Tick过程将芯片面积拉到了D线以下很远的区域。

  同时期的ATI芯片则走出了另外一种趋势,从R420的临时调整令其无法达成完整的设计理念,很多东西需要在R520中予以表达,再加上工艺的先天不足,R520虽然与G70一样大幅超越了R420画出的D线,但接下来,ATI完全没有进行构架和工艺的同步优化,而是直接大幅扩展了R520的资源和GPU结构,这让R580最终于D线渐行渐远。

  最终的结果,NVIDIA凭借G71的完美收官在DirectX 9.0C时代大获全胜,一雪前DirectX 9.0时代由NV3X累积的耻辱。而ATI则不仅逐步丧失了之前积累的大量优势,更因为成本和销量的难以为继而最终被AMD收购,消失在了历史的长河中。

  围绕D线的故事在DirectX 10时代同样精彩,刚接手ATI的AMD面对R600这样一个烂摊子,果断地选择了一次相当完整同时极其经典的Tick-Tock过程,先通过RV670对R600进行大幅优化修改以及瘦身,将芯片面积拉到与G71一样距离D线非常遥远的区间,然后再利用由此换来的面积和晶体管资源富裕度创造了RV770这样的经典之作。值得注意的是,由于RV670的Tick过程太过成功,以至于运算资源提升了250%的RV770的芯片面积依旧距离D线非常遥远,这不仅进一步推动了RV770的成功,更为AMD积累宝贵的利润资本创造了有利的条件。

  NVIDIA在DirectX 10时代的表现则堪称“D线上的华尔兹”,它不仅进一步阐释了D线的重要意义,更为我们一次性展现了所有围绕D线可能出现的悲喜结局。G80-GT200b的构架演进严谨的遵从了Tick-Tock-Tick的节奏,首先出现的G80在性能上为NVIDIA取得领先的同时,也为NVIDIA的整个DirectX 10时代画上了484平方毫米这一D线。其后更换工艺且处于Tick节奏的G92由于相对G80的修正并不是很多,因此并未将面积大幅拉离D线的攻防战中表现得不如G80那样气定神闲,更为GT200的表现埋下了重要的伏笔。

  接下来出现的GT200由于背负了NVIDIA赋予的太多使命和任务,再加上前代G92的Tick过程并未创造出充足的空间,其面积不仅大踏步的踩过了D线,令NVIDIA背负了沉重的功耗和成本负担,更让其在对手以单卡双芯的形式夺走性能王冠时无计可施。可就在所有人都以为一幕曾经上演过的悲剧即将再次铸成时,NVIDIA却又以强大的行动力对GT200进行了一次Tick过程,成功的通过55nm工艺的部署将GT200b的核心面积再次拉回到了D线以下。这一Tick动作让NVIDIA在整个DirectX 10时代经历了3次对D线的穿越,整个过程看上去就像是一场围绕着D线旋转的华尔兹一般。再次跨越D线构架芯片不仅凭借可制造性的改进以单卡双芯重夺性能王冠,更创造了令人难忘的“不老的GTX260+”。

  斗转星移,DirectX 9.0C和DirectX 10时代以及那些围绕着各自的D线进行的一幕幕悲喜剧,都已经淹没在时间的浪花中了。我们目前所面对的,是全新的DirectX 11时代。之前我们曾经提到过,D线是用于衡量某代DirectX中同阵营不同阶段GPU命运的生死线,那么在进入DirectX 11时代之后,AN双方围绕着D线又有着怎样的表现呢?

  率先进入DirectX 11时代的是通过R600-RV770完美演绎D线优势的AMD,通过先前积累的面积率优势以及快速进入的策略,AMD于2009年11月推出了世界上首款支持DirectX 11的GPU——RV870。RV870拥有一倍于RV770的构架规模,除此之外在构架结构上并未有更多创新。较少的改进以及制造工艺从55nm到40nm的进步,让RV870拥有了良好的功耗发热表现以及可制造性,同时也将AMD在DirectX 11时代的D线平方毫米上。

  虽然达到了快速推出了第一代DirectX 11芯片的目的,但脱胎自R600构架的RV870终于还是触及到了性能以及物理界线方面的瓶颈,这让AMD不得不选择在接下来的产品中对构架进行必要的改进。VLIW结构发生变化的Cayman依旧采用40nm工艺生产,芯片面积也小幅踏过了D线允许的范围,并最终定格在了389平方毫米的数值上。

  NVIDIA在DirectX 11时代的表现与AMD刚好相反,DirectX 11首代构架Fermi拥有良好的逻辑结构和设计理念,但其糟糕的EDA和庞大的规模让它的良率和功耗表现饱受诟病,甚至NVIDIA不得不首次推出了刚一登场便遭阉割的旗舰级单芯片,而且与GT200时代完全相同的,初代Fermi构架的GF100芯片同样不具备单卡双芯的可制造性。先天问题多多的GF100,将NVIDIA在DirectX 11时代的D线平方毫米这一GPU史上第二大的芯片面积上。

  GF100的问题让NVIDIA重新开始了对EDA过程的重视,经过重新布局设计以及优化的第二代Fermi构架GF110虽然在逻辑结构上与GF100极为接近,但在可制造性以及温度功耗表现方面均大幅领先后者。同时,经过EDA优化过程,部分冗余且可以舍弃的部分被从构架中剔除了出去,这让GF110的芯片面积有了微小的下降,520平方毫米的核心面积让NVIDIA的第二代DirectX 11芯片来到了D线下方的区域。

  对于D线画成之后的第二代芯片,也就是Cayman以及GF110的表现,每个人心中应该都有比较明确的答案了,D线就像魔咒一般,无时不刻不在影响着芯片的实际表现。我们在前面提到过,D线对某代构架中前期的芯片相对来说是比较宽容的,那么在DirectX 11发布2年多,已经临近API寿命尾声的今天,即将到来的第三代也就是末代DirectX 11芯片,又会有着怎样的表现呢?

  我们之前曾经说过,正常情况下某代DirectX的后期GPU最好能够将芯片面积维持在D线以下,最起码不要大幅超过D线,这不仅能够为其换来更好的可制造性,更能令其在功耗及发热端表现出更好的市场接受度。谁踩过D线太多,谁就一定会输,那么接下来将要登场的AMD与NVIDIA芯片,又会受到怎样的来自D线的影响呢?

  AMD的下一代GCN将会承受不小的来自D线的压力,原因很简单——作为初代芯片,RV870因为快速介入以及没有特色而带来了更小的芯片面积,这虽然为其换来了较好的声誉,但却在限定绝对性能的同时大大压缩了D线以下区间的范围。换句线太小了,它所构筑的D线并没有为后续的芯片留下足够充分的修改和回旋的空间。这一点在Cayman中已经切实的表现了出来。逐级提升的芯片面积不仅会为AMD带来更大的制造难度,同时还会降低市场的接受度。AMD如果想让GCN或者改进型的Cayman在获得理想的性能,其所需的缓冲资源总量将会相当大,这种资源总量的增长会进一步拉动晶体管需求总量的大幅增加,以目前来看,如果要实现与对手相近的资源密度,其难度还是挺大的。AMD如果以D线为出发点进行考量,最好的办法是稍微放大甚至停止放大Cayman构架,而不是在现在就匆忙的引入GCN构架。

  NVIDIA的状况相对来说要好一些,但仅是相对而已。尽管GF100所画出的D线下空间较之AMD要宽裕很多,但并没有人规定有空间就必须要去进行利用。如果NVIDIA确定了“规模大于频率”的基调,同时继续在多功能性方面进行追求,那么来自HPC领域的需求以及过大的芯片规格势必会大幅抵消新工艺带来的面积率下降空间,甚至有可能令其携手AMD的GCN芯片一起双双翱翔在D线之上的天空。NVIDIA想要避免重蹈GT200的覆辙,最好的出路是将开普勒构架的单芯规模提升到不超过费米构架的150%,也就是不超过768个SP单元的水平上。这样不仅能够在28nm工艺的帮助下将芯片面积控制在D线附近甚至以下,以高频和单卡双芯结构来争取性能王座的地位,更可以进一步巩固由GF110带来的消费者的接受度以及市场的信心。

  我们看过太多关于D线的悲喜剧,甚至还因为它而失去了一间曾经为我们带来优秀性能以及许多快乐的厂商。在DirectX 11的末期,我们不希望看到D线再次成为悲剧的裁判官。无论AMD还是NVIDIA,他们的存在对于消费者来说都是至关重要的,毕竟公平、良性同时激烈的竞争才是我们获得更优秀产品的最好途径。但遗憾的是,它俩的命运最终掌握在它们自己手里,至于后DirectX 11时代这首关于构架与D线的诗应该怎么写,只有它们自己知道。

本文链接:http://1763inn.com/bianqianguize/451.html

相关推荐:

网友评论:

栏目分类

现金彩票 联系QQ:24498872301 邮箱:24498872301@qq.com

Copyright © 2002-2011 DEDECMS. 现金彩票 版权所有 Power by DedeCms

Top