一、概況
加速計算的數(shù)量級飛躍
NVIDIA H100 (中國版本:NVIDIA H800)Tensor Core GPU 可助力各種工作負載實現(xiàn)卓越的性能、可擴展性和安全性。借助 NVIDIA NVLink Switch 系統(tǒng),可連接多達 256 個 H100 GPU 來加速百億億次級(Exascale)工作負載,并可通過專用的Transformer 引擎來為萬億參數(shù)的語言模型提供支持。H100 利用 NVIDIA Hopper? 架構(gòu)中的突破性創(chuàng)新技術(shù)提供先進的對話式 AI,與上一代產(chǎn)品
相比,可使大型語言模型的速度提升 30 倍。
安全地加速從企業(yè)級到百億億次級(Exascale)規(guī)模的工作負載
NVIDIA H100 GPU 配備第四代 Tensor Core 和 Transformer 引擎(FP8 精度),可使大型語言模型的訓(xùn)練速度提升高達 9 倍,推理速度提升驚人的 30 倍,從而進一步拓展了 NVIDIA 在 AI 領(lǐng)域的市場領(lǐng)先地位。對于高性能計算(HPC)應(yīng)用,H100 可使 FP64 的每秒浮點運算次數(shù)(FLOPS)提升至 3 倍,并可添加動態(tài)編程(DPX)指令,使性能提升高達7 倍。借助第二代多實例 GPU (MIG)技術(shù)、內(nèi)置的 NVIDIA 機密計算和NVIDIA NVLink Switch 系統(tǒng),H100 可安全地加速從企業(yè)級到百億億次級(Exascale)規(guī)模的數(shù)據(jù)中心的各種工作負載。
H100 是完整的 NVIDIA 數(shù)據(jù)中心解決方案的一部分,該解決方案包含以下方面的基礎(chǔ)模組 :硬件、網(wǎng)絡(luò)、軟件、庫以及 NVIDIA NGC? 目錄中經(jīng)優(yōu)化的 AI 模型和應(yīng)用。作為適用于數(shù)據(jù)中心且功能強大的端到端 AI 和 HPC 平臺,H100 可助力研究人員獲得真實的結(jié)果,并能將解決方案大規(guī)模部署到生產(chǎn)環(huán)境中。
二、應(yīng)用
>>變革 AI 訓(xùn)練。
H100 配備第四代 Tensor Core 和 Transformer 引擎(FP8 精度),與上一代產(chǎn)品相比,可為多專家 (MoE) 模型提供高 9 倍的訓(xùn)練速度。通過結(jié)合可提供 900 GB/s GPU 間互連的第四代 NVlink、可跨節(jié)點加速每個 GPU 通信的 NVLINK Switch 系統(tǒng)、PCIe 5.0 以及 NVIDIA Magnum IO? 軟件,為小型企業(yè)到大規(guī)模統(tǒng)一 GPU 集群提供高效的可擴展性。
在數(shù)據(jù)中心級部署 H100 GPU 可提供出色的性能,并使所有研究人員均能輕松使用新一代百億億次級 (Exascale) 高性能計算 (HPC) 和萬億參數(shù)的 AI。
>>實時深度學(xué)習(xí)推理。
AI 正在利用一系列廣泛的神經(jīng)網(wǎng)絡(luò)解決范圍同樣廣泛的一系列商業(yè)挑戰(zhàn)。出色的 AI 推理加速器不僅要提供非凡性能,還要利用通用性加速這些神經(jīng)網(wǎng)絡(luò)。
H100 進一步擴展了 NVIDIA 在推理領(lǐng)域的市場領(lǐng)先地位,其多項先進技術(shù)可將推理速度提高 30 倍,并提供超低的延遲。第四代 Tensor Core 可加速所有精度(包括 FP64、TF32、FP32、FP16 和 INT8)。Transformer 引擎可結(jié)合使用 FP8 和 FP16 精度,減少內(nèi)存占用并提高性能,同時仍能保持大型語言模型的準確性。
>>百億億次級高性能計算。
NVIDIA 數(shù)據(jù)中心平臺性能持續(xù)提升,超越摩爾定律。H100 的全新突破性 AI 性能進一步加強了 HPC+AI 的力量,加速科學(xué)家和研究人員的探索,讓他們?nèi)硇耐度牍ぷ鳎鉀Q世界面臨的重大挑戰(zhàn)。
H100 使雙精度 Tensor Core 的每秒浮點運算 (FLOPS) 提升 3 倍,為 HPC 提供 60 teraFLOPS 的 FP64 浮點運算。融合 AI 的高性能計算應(yīng)用可以利用 H100 的 TF32 精度實現(xiàn) 1 petaFLOP 的吞吐量,從而在不更改代碼的情況下,實現(xiàn)單精度矩陣乘法運算。
H100 還采用 DPX 指令,其性能比 NVIDIA A100 Tensor Core GPU 高 7 倍,在動態(tài)編程算法(例如,用于 DNA 序列比對 Smith-Waterman)上比僅使用傳統(tǒng)雙路 CPU 的服務(wù)器快 40 倍。
>>加速數(shù)據(jù)分析。
在 AI 應(yīng)用開發(fā)過程中,數(shù)據(jù)分析通常會消耗大部分時間。原因在于,大型數(shù)據(jù)集分散在多臺服務(wù)器上,由僅配備商用 CPU 服務(wù)器組成橫向擴展式的解決方案缺乏可擴展的計算性能,從而陷入困境。
搭載 H100 的加速服務(wù)器可以提供相應(yīng)的計算能力,并利用 NVLink 和 NVSwitch 每個 GPU 3 TB/s 的顯存帶寬和可擴展性,憑借高性能應(yīng)對數(shù)據(jù)分析以及通過擴展支持龐大的數(shù)據(jù)集。通過結(jié)合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 軟件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS?,NVIDIA 數(shù)據(jù)中心平臺能夠以出色的性能和效率加速這些大型工作負載。
>>為企業(yè)提高資源利用率。
IT 經(jīng)理設(shè)法更大限度地提高數(shù)據(jù)中心計算資源的利用率(峰值和平均值)。他們通常會通過動態(tài)重新配置來合理調(diào)整計算資源,從而滿足正在處理的工作負載的需求。
H100 中的第二代多實例 GPU (MIG) 技術(shù)通過安全地將每個 GPU 分為 7 個獨立實例,更大限度地提高每個 GPU 的利用率。憑借機密計算支持,H100 可實現(xiàn)端到端多租戶的安全使用,非常適合云服務(wù)提供商 (CSP) 環(huán)境。
使用支持 MIG 技術(shù)的 H100,基礎(chǔ)架構(gòu)管理員可對其 GPU 加速的基礎(chǔ)架構(gòu)作標準化處理,同時能夠靈活地為 GPU 資源配置更精細的粒度,從而安全地為開發(fā)者提供正確的加速計算量,并確保其所有 GPU 資源得到充分利用。
>>內(nèi)置機密計算。
當今的機密計算解決方案基于 CPU,對于 AI 和 HPC 等計算密集型工作負載來說,這些解決方案遠遠無法滿足需求。NVIDIA 機密計算是 NVIDIA Hopper? 架構(gòu)的內(nèi)置安全功能,該功能使 H100 成為 NVIDIA 率先推出的具有機密計算功能的加速器。用戶可以在獲取 H100 GPU 出色加速功能的同時,保護使用中的數(shù)據(jù)和應(yīng)用的機密性和完整性。它創(chuàng)建了基于硬件的可信執(zhí)行環(huán)境 (TEE),用于保護并隔離在單個 H100 GPU、節(jié)點內(nèi)多個 H100 GPU 或單個 MIG 實例上運行的整個工作負載。在 TEE 內(nèi),GPU 加速應(yīng)用的運行可以保持不變,且不必對其進行分區(qū)。用戶可以將適用于 AI 和 HPC 的 NVIDIA 軟件的強大功能與 NVIDIA 機密計算提供的硬件信任根的安全性相結(jié)合。
>>為大規(guī)模 AI 和高性能計算提供出色的性能。
Hopper Tensor Core GPU 將為 NVIDIA Grace Hopper CPU+GPU 架構(gòu)提供支持,該架構(gòu)專為 TB 級加速計算而構(gòu)建,可為大型 AI 和 HPC 提供 10 倍的性能。NVIDIA Grace CPU 利用 Arm? 架構(gòu)的靈活性來創(chuàng)建 CPU 和服務(wù)器架構(gòu),該架構(gòu)是專門針對加速計算而從頭開始設(shè)計的。Hopper GPU 與 Grace CPU 搭配,使用 NVIDIA 超快速的芯片間互連技術(shù),可提供 900GB/s 的帶寬,比 PCIe 5.0 快 7 倍。與當今運行最快的服務(wù)器相比,這種創(chuàng)新設(shè)計將 GPU 的聚合系統(tǒng)顯存帶寬提高 30 倍,并且會將運行數(shù)萬億字節(jié)數(shù)據(jù)的應(yīng)用性能提高 10 倍。
三、規(guī)格參數(shù)(H100與H800對比)

* 采用稀疏技術(shù)。 非稀疏規(guī)格降低 1/2。
三、規(guī)格參數(shù)(H100與H800對比)

* 采用稀疏技術(shù)。 非稀疏規(guī)格降低 1/2。