NVIDIA曝光Pascal顯卡：浮點性能高達GK110的三倍

NVIDIA今年會推出新一代Pascal顯卡，最快4月份的GTC 2016大會上就能見到面向高性能服務器市場的Tesla版GP100核心顯卡。只不過NVIDIA這次的保密工作做到太好了，除了官方公布過的3D顯存、FinFET工藝之外，Pascal顯卡的規格還是非常神秘。還好NVIDIA功虧一簣，日前曝光的一份文檔中顯示Pascal顯卡配備的3D顯存帶寬高達1024GB/s，單精度浮點性能12TFLOPS，雙精度浮點性能4TFLOPS，是GK110核心的三倍之多。

3DCenter論壇有網友找到了NVIDIA公司CUDA院士ManuelUjaldon去年6月份發佈的一份演講文檔，他本身也是西班牙大學教授，這份文檔里對比了Intel、AMD及NVIDIA公司不同處理器、顯卡的帶寬及計算性能，我們來看最關鍵的Pascal與Teslak K20X的對比。

K20X使用的是GK110核心，14組SMX單元，2688個CUDA核心，384bit位寬，帶寬25GB/s，單精度浮點性能3.95TFLOPS，雙精度浮點性能1.31TFLOPS。Pascal顯卡規格沒提，但應該是GP100核心，配備3D顯存，帶寬1024GB/s，單精度浮點性能12TFLOPS，雙精度浮點性能4TFLOPS。

GK110與Pascal之間隔了Maxwell架構，不過Maxwell顯卡之所以高效，很大一部分原因是閹割了雙精度單元，所以在這一點上它實際上連GK110核心都不如，這可能是GM200核心沒有加入對比的原因。

只看GK110與Pascal的GP100核心，GP100的性能是GK110核心的三倍，單精度及雙精度差不多都是這樣。雖然缺少與GM200核心的直接對比，但GM200核心的Tesla M40單精度性能是7TFLOPS，以此計算的話GP100性能依然是GM200核心的1.7倍，也就是性能提升了70%。從三倍GK110性能來看，GP100核心的規模也一定很龐大，所以之前傳聞的6144個CUDA核心、170億晶體管以及600mm2核心面積的傳聞還是有一定可信度的。

值得一提的是，Pascal顯卡使用HBM顯存幾乎是板上釘釘了，而且1024GB/s的帶寬也正好與HBM 2顯存特性相符，但Manuel Ujaldon這篇文章中除了一個列表提到HBM顯存之外，大部分篇幅都是在講HBM對手HMC顯存的，這也是一種3D堆棧內存技術，但HMC 1.0顯存的帶寬與規格跟1024GB/s的帶寬也不符，實在是猜不透這裏面到底是怎麼回事。