一、概況
適用各種工作負(fù)載的出色計算平臺
NVIDIA A100 Tensor Core GPU (中國區(qū)銷售型號為:NVIDIA A800)可針對 AI、數(shù)據(jù)分析和高性能計算(HPC)應(yīng)用,在各個規(guī)模下實現(xiàn)出色加速,有效助力全球高性能彈性數(shù)據(jù)中心。作為 NVIDIA 數(shù)據(jù)中心平臺的引擎,相較于前一代NVIDIA Volta?,A100 可提供高達(dá) 20 倍的性能。A100 支持高效擴(kuò)展,也可劃分為七個獨立的 GPU 實例,多實例 GPU (MIG)可提供統(tǒng)一平臺,助力彈性數(shù)據(jù)中心動態(tài)地適應(yīng)不斷變化的工作負(fù)載需求。
NVIDIA A100 Tensor Core 技術(shù)支持廣泛的數(shù)學(xué)精度,可針對每個工作負(fù)載提供單個加速器。最新一代 A100 80GB 將 GPU 顯存加倍,提供 2TB/s 的全球超快顯存帶寬,可加速處理超大型模型和海量
數(shù)據(jù)集。
A100 是完整 NVIDIA 數(shù)據(jù)中心解決方案的一部分,該解決方案由硬件、網(wǎng)絡(luò)、軟件、庫以及 NGC? 中經(jīng)優(yōu)化的 AI 模型和應(yīng)用等疊加而成。作為性能超強(qiáng)的端到端數(shù)據(jù)中心專用 AI 和 HPC 平臺,
它可助力研究人員交付真實的結(jié)果,并將解決方案大規(guī)模部署到生產(chǎn)環(huán)境中。
二、創(chuàng)新
>>NVIDIA AMPERE 架構(gòu)
無論是使用 MIG 將 A100 GPU 分割為較小的實例,還是使用 NVLink連接多個 GPU 來加速大規(guī)模工作負(fù)載,A100 均可輕松滿足不同規(guī)模的加速需求,從小型作業(yè)到大型多節(jié)點工作負(fù)載無一例外。
A100 功能全面,這意味著 IT 經(jīng)理可借此全天候充分利用數(shù)據(jù)中心內(nèi)的每個 GPU。
>>第三代 TENSOR CORE 技術(shù)
NVIDIA A100 的深度學(xué)習(xí)運算能力可達(dá) 312 teraFLOPS(TFLOPS)。其深度學(xué)習(xí)訓(xùn)練的Tensor 每秒浮點運算次數(shù)(FLOPS)和推理的 Tensor 每秒萬億次運算次數(shù)(TOPS)皆為
NVIDIA Volta? GPU 的 20 倍。
>>新一代 NVLINK
A100 中采用的 NVIDIA NVLink 可提供兩倍于上一代的吞吐量。與 NVIDIA NVSwitch? 結(jié)合使用時,此技術(shù)可將多達(dá) 16 個 A100 GPU 互聯(lián),并將速度提升至 600GB/s,從而在單個服務(wù)器上實現(xiàn)出色的應(yīng)用性能。NVLink 技術(shù)可應(yīng)用在 A100 中:SXM GPU 通過 HGX A100 服務(wù)器主板連接,PCIe GPU 通過 NVLink 橋接器可橋接多達(dá) 2 個 GPU。
>>多實例 GPU (MIG)
一個 A100 GPU 最多可分割成七個GPU 實例,這些實例在硬件級別完全獨立,并獨自擁有高帶寬顯存、緩存和計算核心。借助 MIG,開發(fā)者可為其所有應(yīng)用實現(xiàn)驚人加速,IT 管理員也可為每個作業(yè)提供符合其規(guī)模的 GPU 加速,進(jìn)而優(yōu)化GPU 利用率,并讓每個用戶和應(yīng)用都能使用 GPU實例。
>>高帶寬顯存(HBM2E)
憑借 80GB 的高帶寬顯存(HBM2e),A100 成為世界首款將顯存帶寬提升至超過 2TB/s 的GPU,并將動態(tài)隨機(jī)存取存儲器(DRAM)的利用效率提高至 95%。A100 提供的顯存帶寬是上一代產(chǎn)品的 1.7 倍。
>>結(jié)構(gòu)化稀疏
AI 網(wǎng)絡(luò)擁有數(shù)百萬至數(shù)十億個參數(shù)。實現(xiàn)準(zhǔn)確預(yù)測并非要使用所有參數(shù),而且我們還可將某些參數(shù)轉(zhuǎn)換為零,以在無損準(zhǔn)確性的前提下使模型變得“稀疏”。A100 中的 Tensor Core 可令稀疏模型的性能獲得高達(dá)兩倍的提升。稀疏功能不僅更容易使 AI 推理受益,同時還能提升模型的訓(xùn)練性能。
三、應(yīng)用
NVIDIA A100 Tensor Core GPU 是 NVIDIA 數(shù)據(jù)中心平臺的旗艦產(chǎn)品,可用于深度學(xué)習(xí)、HPC 和數(shù)據(jù)分析。該平臺可為 2000 余款應(yīng)用和各大深度學(xué)習(xí)框架提供加速。A100適用于桌面、服務(wù)器以及云服務(wù),不僅能顯著提升性能,還能創(chuàng)造眾多節(jié)約成本的機(jī)會。
>>深度學(xué)習(xí)訓(xùn)練
當(dāng)今的 AI 模型面臨著對話式 AI 等更高層次的挑戰(zhàn),這促使其復(fù)雜度呈爆炸式增長。訓(xùn)練這些模型需要大規(guī)模的計算能力和可擴(kuò)展性。
NVIDIA A100 Tensor Core 借助 Tensor 浮點運算 (TF32) 精度,可提供比 NVIDIA Volta 高 20 倍之多的性能,并且無需更改代碼;若使用自動混合精度和 FP16,性能可進(jìn)一步提升 2 倍。與 NVIDIA? NVLink?、NVIDIA NVSwitch?、PCIe 4.0、NVIDIA? InfiniBand? 和 NVIDIA Magnum IO? SDK 結(jié)合使用時,它能擴(kuò)展到數(shù)千個 A100 GPU。
2048 個 A100 GPU 可在一分鐘內(nèi)成規(guī)模地處理 BERT 之類的訓(xùn)練工作負(fù)載,這是非常快速的解決問題速度。
對于具有龐大數(shù)據(jù)表的超大型模型(例如深度學(xué)習(xí)推薦模型 [DLRM]),A100 80GB 可為每個節(jié)點提供高達(dá) 1.3TB 的統(tǒng)一顯存,而且吞吐量比 A100 40GB 多高達(dá) 3 倍。
NVIDIA 的領(lǐng)先地位在 MLPerf 這個行業(yè)級 AI 訓(xùn)練基準(zhǔn)測試中得到印證,創(chuàng)下多項性能紀(jì)錄。


>>深度學(xué)習(xí)推理
A100 引入了突破性的功能來優(yōu)化推理工作負(fù)載。它能在從 FP32 到 INT4 的整個精度范圍內(nèi)進(jìn)行加速。多實例 GPU (MIG) 技術(shù)允許多個網(wǎng)絡(luò)同時基于單個 A100 運行,從而優(yōu)化計算資源的利用率。在 A100 其他推理性能增益的基礎(chǔ)之上,僅結(jié)構(gòu)稀疏支持一項就能帶來高達(dá)兩倍的性能提升。
在 BERT 等先進(jìn)的對話式 AI 模型上,A100 可將推理吞吐量提升到高達(dá) CPU 的 249 倍。
在受到批量大小限制的極復(fù)雜模型(例如用于自動語音識別用途的 RNN-T)上,顯存容量有所增加的 A100 80GB 能使每個 MIG 的大小增加一倍,并提供比 A100 40GB 高 1.25 倍的吞吐量。
NVIDIA 產(chǎn)品的出色性能在 MLPerf 推理測試中得到驗證。A100 再將性能提升了 20 倍,進(jìn)一步擴(kuò)大了這種性能優(yōu)勢。


>>高性能計算
為了獲得新一代的發(fā)現(xiàn)成果,科學(xué)家們希望通過仿真來更好地了解我們周圍的世界。
NVIDIA A100 采用雙精度 Tensor Core,實現(xiàn)了自 GPU 推出以來高性能計算性能的巨大飛躍。結(jié)合 80GB 的超快 GPU 顯存,研究人員可以在 A100 上將 10 小時雙精度仿真縮短到 4 小時以內(nèi)。HPC 應(yīng)用還可以利用 TF32 將單精度、密集矩陣乘法運算的吞吐量提高高達(dá) 10 倍。
對于具有超大數(shù)據(jù)集的高性能計算應(yīng)用,顯存容量增加的 A100 80GB 可在運行材料仿真 Quantum Espresso 時將吞吐量提升高達(dá) 2 倍。極大的顯存容量和超快速的顯存帶寬使 A100 80GB 非常適合用作新一代工作負(fù)載的平臺。


>>高性能數(shù)據(jù)分析
數(shù)據(jù)科學(xué)家需要能夠分析和可視化龐大的數(shù)據(jù)集,并將其轉(zhuǎn)化為寶貴見解。但是,由于數(shù)據(jù)集分散在多臺服務(wù)器上,橫向擴(kuò)展解決方案往往會陷入困境。
搭載 A100 的加速服務(wù)器可以提供必要的計算能力,并能利用大容量顯存、超過 2 TB/s 的顯存帶寬以及通過 NVIDIA? NVLink? 和 NVSwitch? 實現(xiàn)的可擴(kuò)展性,處理這些工作負(fù)載。通過結(jié)合 InfiniBand、NVIDIA Magnum IO? 和 RAPIDS? 開源庫套件(包括用于執(zhí)行 GPU 加速的數(shù)據(jù)分析的 RAPIDS Accelerator for Apache Spark),NVIDIA 數(shù)據(jù)中心平臺能夠加速這些大型工作負(fù)載,并實現(xiàn)超高的性能和效率水平。
在大數(shù)據(jù)分析基準(zhǔn)測試中,A100 80GB 提供的見解吞吐量比 A100 40GB 高兩倍,因此非常適合處理數(shù)據(jù)集大小急增的新型工作負(fù)載。


>>為企業(yè)提高資源利用率
A100 結(jié)合 MIG 技術(shù)可以更大限度地提高 GPU 加速的基礎(chǔ)設(shè)施的利用率。借助 MIG,A100 GPU 可劃分為多達(dá) 7 個獨立實例,讓多個用戶都能使用 GPU 加速功能。借助 A100 40GB,每個 MIG 實例可分配多達(dá) 5GB,而隨著 A100 80GB 顯存容量的增加,此大小可翻倍至 10GB。
MIG 與 Kubernetes、容器和基于服務(wù)器虛擬化平臺的服務(wù)器虛擬化配合使用。MIG 可讓基礎(chǔ)設(shè)施管理者為每項作業(yè)提供大小合適的 GPU,同時確保服務(wù)質(zhì)量 (QoS),從而擴(kuò)大加速計算資源的影響范圍,以覆蓋每位用戶。

面向企業(yè)的優(yōu)化軟件和服務(wù)

四、規(guī)格參數(shù)
