顯卡是個人計算機基礎的組成部分之一,將計算機系統需要的顯示信息進行轉換驅動顯示器,并向顯示器提供逐行或隔行掃描信號,控制顯示器的正確顯示,是連接顯示器和個人計算機主板的重要組件,是“人機”的重要設備之一,其內置的并行計算能力現階段也用于深度學習等運算。 本文約1900字,閱讀需要3分鐘(全文瀏覽)在GTC 2012大會上,NVIDIA CEO黃仁勛公布了新一代Tesla加速卡的細節,但這次發布的Tesla顯卡被認為是雙胞胎,一個是基于雙核GK104架構Tesla K10,另一個是采用真正的全新架構,基于GK110內核Tesla K20。 K10和K20的特點不同,關鍵點也不同。 我們先來看看 K10。它的物理外觀與 GTX 690 顯卡沒有什么不同,但 NVIDIA 公布的幾個參數卻很耐人尋味。單精度浮點能力為4.58TFLOPS,帶寬為320GB/s。作為對比,GTX 680單精度計算能力3.09TFLOPS,192GB/s帶寬,而GTX 690也有5.62TFLOPS,384GB/s帶寬,上一代Fermi核心浮點計算能力是1. 58TFLOPS,帶寬192GB/s。 從參數上看,K10實現了NVIDIA宣稱的Fermi家族單精度浮點能力的3倍,但僅比GTX 680高出50%,帶寬更是僅高出67%左右(需要支持ECC糾錯,顯存頻率下降),明顯不如GTX 690顯卡。 由于架構相同,Tesla K10明顯在核心和顯存頻率上有所妥協。因為GK104架構能效比非常高,而且HPC領域對功耗和發熱不是很敏感,不知道NVIDIA為什么采用了K10。規格設置為低于 GTX 690。 現場圖片并未公布K10的顯存容量和TDP信息,但GeForce GRID頁面上的K520顯卡規格與K10相同,顯存容量為8GB,TDP為250W。兩者其實都是雙核GK104顯卡。 Tesla K10也是8GB顯存,250W TDP。 (這個功耗比GTX 690的300W低,可能是規格降低的最可能的解釋) 特斯拉K10現在可以發貨了,但這不是重點。我個人覺得它只是一個過渡產品,扮演消防員的角色,因為GK104天生弱的雙精度計算能力注定會在HPC市場。成績斐然,英偉達之所以推GTX 690上陣,是因為GK110架構來得比預期晚。 GK110 是 NVIDIA 為高性能 GPU 計算市場開發的架構。一直有傳言說它會在今年 8 月發布,但 NVIDIA 給出的日期是今年第四季度。無論是28nm產能還是芯片本身,這個一年中大部分時間的空白期,總是需要有人先頂上去。這是K10的使命。 特斯拉 K20 和 GK110 架構 NVIDIA對K20的描述是“3倍雙精度浮點性能”,并支持Hyper-Q、Dynamic Parallelism等多種并行計算技術,這些技術在現有的GK104架構中是不具備的。 NVIDIA的PDF文檔介紹了GK110 SMX架構,也是192個CUDA核心 必須承認,之前泄露的GK110架構信息是錯誤的。 GK110的SMX架構其實和GK104是一樣的,192個CUDA核心,32組SFU單元,32個LD/ST單元。 GK110架構圖 除了其他功能單元,GK110核心共有15組SMX單元和2880個CUDA核心,但Heise聲稱并非所有單元都啟用。實際上,SMX 單元可能只有 13-14 套。實際的CUDA核心是2496或2688。 顯存位寬為384bit,已經得到黃仁勛和NVIDIA CTO的確認。由于CUDA核數比之前的報道少了,顯存位寬自然減少到384bit。如果GK104的6Gbps顯存速率保持不變,那么GK110的帶寬將達到288GB/s,最終超過AMD GCN架構的260GB/s Up。 NVIDIA 給出的 3 倍雙精度浮點性能與 GF110 顯卡或具有 GF110 內核的 Tesla 加速卡進行比較。 GF110的單精度浮點能力是1.58TFLOPS,顯卡中的雙精度是單精度的1/4,也就是0.4TFLOPS,但是GF110的雙精度能力核心Tesla卡可以達到單精度1/2,約為0.8TFLOPS。 這樣,如果基于顯卡,GK110的雙精度浮點性能大約是1.2TFLOPS以上,如果是Tesla卡的3倍,則是2.4TFLOPS或者更多,既然后者已經超過了之前傳聞的2TFLOPS能力,那么GK110的雙精度浮點能力應該是1.2TFLOPS或者更高。 特斯拉K20配備6pin+8pin供電接口 核心面積和TDP未知,但K20配備6pin和8pin電源接口,最大TDP不會超過300W。晶體管的數量也是70億,準確的說是71億。
|
溫馨提示:喜歡本站的話,請收藏一下本站!