一、概況
NVIDIA A30 TENSOR CORE GPU
適用于不同企業(yè)的 AI 推理和主流計(jì)算 NVIDIA A30 Tensor Core GPU 是用途廣泛的主流計(jì)算 GPU, 適用于 AI 推理和主流企業(yè)工作負(fù)載。這款 GPU 采用 NVIDIA Ampere 架構(gòu)的 Tensor Core 技術(shù),支持廣泛的數(shù)學(xué)精度, 可針對每個工作負(fù)載提供單個加速器。 專為大規(guī)模 AI 推理而構(gòu)建的同一計(jì)算資源能夠通過 TF32 精度快速重新訓(xùn)練 AI 模型,同時還能借助 FP64 Tensor Core 加速高性能計(jì)算(HPC)應(yīng)用。多實(shí)例 GPU (MIG)及 FP64 Tensor Core,可在 165W 低功率電路下相結(jié)合,實(shí)現(xiàn)速度 高達(dá) 933GB/s 的顯存帶寬,以上特性均在這一適用于主流 服務(wù)器的 PCIe 卡上體現(xiàn)。 通過結(jié)合使用第三代 Tensor Core 與 MIG 技術(shù),其可在各種 工作負(fù)載中提供安全的服務(wù)質(zhì)量,所有這些技術(shù)都由多功能 GPU 提供支持,從而實(shí)現(xiàn)彈性數(shù)據(jù)中心。A30 在各個規(guī)模的 工作負(fù)載中都具有多用途計(jì)算能力,能夠盡可能地為主流 企業(yè)創(chuàng)造價(jià)值。 A30 是整個 NVIDIA 數(shù)據(jù)中心解決方案的一部分,該解決方案 由硬件、網(wǎng)絡(luò)、軟件、庫以及 NGC? 中經(jīng)優(yōu)化的 AI 模型和 應(yīng)用等構(gòu)成。作為性能超強(qiáng)的端到端數(shù)據(jù)中心專用 AI 和 HPC 平臺,A30 可助力研究人員交付真實(shí)結(jié)果,并將解決方案 大規(guī)模部署到生產(chǎn)環(huán)境中。

二、特性

二、特性
>>NVIDIA AMPERE 架構(gòu)
無論是使用 MIG 技術(shù)將 A30GPU 分割為較小的實(shí)例,還是使用 NVIDIA NVLink 連接多個GPU 以加速更大規(guī)模的工作負(fù)載,A30 均可輕松滿足多種規(guī)模的加速需求,從小型作業(yè)到大型多節(jié)點(diǎn)工作負(fù)載都無一例外。A30 功能全面,這意味著 IT 經(jīng)理可借此在主流服務(wù)器上充分利用數(shù)據(jù)中心內(nèi)的每個 GPU,晝夜不停歇。
>>第三代 TENSOR CORE技術(shù)
NVIDIA A30 可提供 165 teraFLOPS (TFLOPS)的TF32 精度深度學(xué)習(xí)性能。相較于 NVIDIA T4 Tensor Core GPU,A30 可將 AI 訓(xùn)練吞吐量提高 20 倍,并將推理性能提高 5 倍以上。A30 可在 HPC 方面提供 10.3 TFLOPS 的 性能,比 NVIDIA V100 Tensor Core GPU 高出了近 30%。
>>新一代 NVLINK
A30 中采用的 NVIDIA NVLink 可提供兩倍于上一代的吞吐量。兩個 A30 PCIe GPU 可通過 NVLink 橋接器連接,以提供 330 TFLOPS的深度學(xué)習(xí)性能。
>>多實(shí)例 GPU (MIG)
每個 A30 GPU 最多可分割為四個GPU 實(shí)例,這些實(shí)例在硬件級別完全獨(dú)立,并各自擁有高帶寬顯存、緩存和計(jì)算核心。借助 MIG,開發(fā)者可為其所有應(yīng)用實(shí)現(xiàn)驚人加速。IT 管理員可為每個作業(yè)提供符合其規(guī)模的 GPU 加速,進(jìn)而優(yōu)化利用率,并讓每個用戶和應(yīng)用都能享受 GPU 加速性能。
>>HBM2 顯存
配合高達(dá) 24GB 的高帶寬顯存(HBM2),A30 可提供933GB/s 的 GPU 顯存帶寬,適用于主流服務(wù)器中的多種 AI 和 HPC 工作負(fù)載。
>>結(jié)構(gòu)化稀疏
AI 網(wǎng)絡(luò)擁有數(shù)百萬至數(shù)十億個參數(shù)。實(shí)現(xiàn)準(zhǔn)確預(yù)測并非要使用所有參數(shù),而且我們還可將某些參數(shù)轉(zhuǎn)換為零,以在無損準(zhǔn)確性的前提下使模型變得“稀疏”。A30 中的 Tensor Core可為稀疏模型提供高達(dá)兩倍的性能提升。稀疏功能不僅更易使 AI 理受益,同時還能提升模型訓(xùn)練的性能。
三、NVIDIA A30 應(yīng)用場景
面向現(xiàn)代 IT 的數(shù)據(jù)中心解決方案
NVIDIA A30 Tensor Core GPU 采用現(xiàn)代數(shù)據(jù)中心的核心—— NVIDIA Ampere 架構(gòu),是 NVIDIA 數(shù)據(jù)中心平臺不可或缺的一部分。該平臺專為深度學(xué)習(xí)、HPC 及數(shù)據(jù)分析而構(gòu)建,并為包括各大深度學(xué)習(xí)框架在內(nèi)的 2000 余款應(yīng)用提供加速。此外,NVIDIA AI Enterprise 是一套端到端云原生 AI 和數(shù)據(jù)分析軟件套件,經(jīng)認(rèn)證可在 A30 上運(yùn)行,適用于結(jié)合 VMware vSphere 的基于 hypervisor 的虛擬基礎(chǔ)架構(gòu)。這使您能夠在混合云環(huán)境中管理和擴(kuò)展 AI 工作負(fù)載。從數(shù)據(jù)中心到邊緣節(jié)點(diǎn)均可使用完善的 NVIDIA 平臺,不僅能顯著提升性能,還能創(chuàng)造眾多成本節(jié)約機(jī)會。
NVIDIA A30 Tensor Core GPU 采用現(xiàn)代數(shù)據(jù)中心的核心—— NVIDIA Ampere 架構(gòu),是 NVIDIA 數(shù)據(jù)中心平臺不可或缺的一部分。該平臺專為深度學(xué)習(xí)、HPC 及數(shù)據(jù)分析而構(gòu)建,并為包括各大深度學(xué)習(xí)框架在內(nèi)的 2000 余款應(yīng)用提供加速。此外,NVIDIA AI Enterprise 是一套端到端云原生 AI 和數(shù)據(jù)分析軟件套件,經(jīng)認(rèn)證可在 A30 上運(yùn)行,適用于結(jié)合 VMware vSphere 的基于 hypervisor 的虛擬基礎(chǔ)架構(gòu)。這使您能夠在混合云環(huán)境中管理和擴(kuò)展 AI 工作負(fù)載。從數(shù)據(jù)中心到邊緣節(jié)點(diǎn)均可使用完善的 NVIDIA 平臺,不僅能顯著提升性能,還能創(chuàng)造眾多成本節(jié)約機(jī)會。
>>深度學(xué)習(xí)訓(xùn)練
為應(yīng)對對話式 AI 等新型挑戰(zhàn)而訓(xùn)練 AI 模型需要強(qiáng)大的計(jì)算能力與可擴(kuò)展性。NVIDIA A30 Tensor Core 具備 Tensor Float (TF32) 精度,可提供比 NVIDIA T4 高 10 倍之多的性能,并且無需更改代碼;若使用自動混合精度和 FP16,性能可進(jìn)一步提升 2 倍,綜合起來可將吞吐量提高 20 倍。與 NVIDIA? NVLink?、PCIe Gen4、NVIDIA Mellanox? 網(wǎng)絡(luò)和 NVIDIA Magnum IO? SDK 配合使用時,可以擴(kuò)展到數(shù)千個 GPU。
Tensor Core 和 MIG 使 A30 全天都能夠動態(tài)地用于工作負(fù)載。它可以在需求高峰時段用于生產(chǎn)推理,并且部分 GPU 可以在非高峰時段改用于快速重新訓(xùn)練同一批模型。
NVIDIA 在行業(yè)級 AI 訓(xùn)練基準(zhǔn)測試 MLPerf 中取得多項(xiàng)性能佳績。

>>深度學(xué)習(xí)推理
A30 引入了突破性的功能來優(yōu)化推理工作負(fù)載。它能在從 FP64 到 TF32 和 INT4 的整個精度范圍內(nèi)進(jìn)行加速。A30 每個 GPU 支持多達(dá) 4 個 MIG,允許多個網(wǎng)絡(luò)在安全的硬件分區(qū)中同時運(yùn)行,同時保證服務(wù)質(zhì)量 (QoS)。在 A30 其他推理性能增益的基礎(chǔ)之上,僅結(jié)構(gòu)化稀疏支持一項(xiàng)就能帶來高達(dá)兩倍的性能提升。
NVIDIA 產(chǎn)品的出色 AI 性能在 MLPerf 推理測試中得到驗(yàn)證。通過與可以輕松地大規(guī)模部署 AI 的 NVIDIA Triton? 推理服務(wù)器配合使用,A30 能為不同企業(yè)帶來此突破性性能.


>>高性能計(jì)算
為了獲得新一代的發(fā)現(xiàn)成果,科學(xué)家們希望通過模擬方式來更好地了解我們周圍的世界。
NVIDIA A30 采用 FP64 NVIDIA Ampere 架構(gòu) Tensor Core,提供自 GPU 推出以來幅度非常大的 HPC 性能飛躍。配合 24 GB 的 GPU 顯存和 933 GB/s 的帶寬,可讓研究人員快速解決雙精度計(jì)算問題。HPC 應(yīng)用程序還可以利用 TF32 提高單精度、密集矩陣乘法運(yùn)算的吞吐量。
FP64 Tensor Core 與 MIG 的結(jié)合能讓科研機(jī)構(gòu)安全地對 GPU 進(jìn)行分區(qū),以允許多位研究人員訪問計(jì)算資源,同時確保 QoS 和更高的 GPU 利用率。部署 AI 的企業(yè)可以在需求高峰時段使用 A30 的推理功能,然后在非高峰時段將同一批計(jì)算服務(wù)器改用于處理 HPC 和 AI 訓(xùn)練工作負(fù)載。


>>高性能數(shù)據(jù)分析
數(shù)據(jù)科學(xué)家需要能夠分析和可視化龐大的數(shù)據(jù)集,并將其轉(zhuǎn)化為寶貴見解。但是,由于數(shù)據(jù)集分散在多臺服務(wù)器上,橫向擴(kuò)展解決方案往往會陷入困境。
搭載 A30 的加速服務(wù)器可以提供必需的計(jì)算能力,并能利用大容量 HBM2 顯存、933 GB/s 的顯存帶寬和通過 NVLink 實(shí)現(xiàn)的可擴(kuò)展性妥善處理這些工作負(fù)載。通過結(jié)合 InfiniBand、NVIDIA Magnum IO 和 RAPIDS? 開源庫套件(包括 RAPIDS Accelerator for Apache Spark),NVIDIA 數(shù)據(jù)中心平臺能夠加速這些大型工作負(fù)載,并實(shí)現(xiàn)超高的性能和效率水平。


>>企業(yè)就緒,高效利用
A30 結(jié)合 MIG 技術(shù)可以更大限度地提高 GPU 加速的基礎(chǔ)設(shè)施的利用率。借助 MIG,A30 GPU 可劃分為多達(dá) 4 個獨(dú)立實(shí)例,讓多個用戶都能使用 GPU 加速功能。
MIG 與 Kubernetes、容器和基于 Hypervisor 的服務(wù)器虛擬化配合使用。MIG 可讓基礎(chǔ)設(shè)施管理者為每項(xiàng)作業(yè)提供大小合適的 GPU,同時確保 QoS,從而擴(kuò)大加速計(jì)算資源的影響范圍,以覆蓋每位用戶。

四、規(guī)格參數(shù)


四、規(guī)格參數(shù)
