適用各種工作負(fù)載的出色計(jì)算平臺(tái)NVIDIA ? A100 Tensor Core GPU 可針對(duì) AI、數(shù)據(jù)分析和高性能計(jì)算 (HPC) 應(yīng)用,在各個(gè)規(guī)模下實(shí)現(xiàn)出色加速,有效助力全球高性能彈性數(shù)據(jù)中心。
Tesla A100計(jì)算卡采用了7nm工藝的GA100 GPU,這款GPU擁有6912 CUDA核心和432張量核心。GPU封裝尺寸為826mm2,集成了540億個(gè)晶體管。
該卡支持第三代NVLINK,與服務(wù)器的雙向帶寬為4.8 TB/s, GPU到GPU的互連帶寬為600 GB/s。Tesla A100擁有40GB的HBM2顯存,顯存位寬為5120-bit,TDP為400W。
A100 PCIe的TDP為250W,而之前發(fā)布的SXM版本TDP為400W。對(duì)此,NVIDIA表示,盡管PCIe型號(hào)的TDP較低,但兩種型號(hào)的峰值功率是相同的,只是在持續(xù)負(fù)載下,PCIe版的性能會(huì)比基于SXM的型號(hào)低10%到50%。
NVIDIA A100 Tensor Core GPU 可針對(duì) AI、數(shù)據(jù)分析和高性能計(jì)算 (HPC),在各種規(guī)模上實(shí)現(xiàn)出色的加速,應(yīng)對(duì)極其嚴(yán)峻的計(jì)算挑戰(zhàn)。作為 NVIDIA 數(shù)據(jù)中心平臺(tái)的引擎,A100 可以高效擴(kuò)展,系統(tǒng)中可以集成數(shù)千個(gè) A100 GPU,也可以利用 NVIDIA 多實(shí)例 GPU (MIG) 技術(shù)將每個(gè) A100 劃分割為七個(gè)獨(dú)立的 GPU 實(shí)例,以加速各種規(guī)模的工作負(fù)載。第三代 Tensor Core 技術(shù)為各種工作負(fù)載的更多精度水平提供加速支持,縮短獲取洞見以及產(chǎn)品上市時(shí)間。
A100 是完整的 NVIDIA 數(shù)據(jù)中心解決方案堆棧的一部分,該解決方案堆棧包括來自 NGC (NVIDIA GPU Cloud) 的硬件、網(wǎng)絡(luò)、軟件、庫(kù)以及優(yōu)化的 AI 模型和應(yīng)用程序構(gòu)建模塊。它為數(shù)據(jù)中心提供了強(qiáng)大的端到端 AI 和 HPC 平臺(tái),使研究人員能夠大規(guī)模地交付真實(shí)的結(jié)果,并將解決方案大規(guī)模部署到生產(chǎn)環(huán)境中。
A100 引入了突破性的新功能優(yōu)化推理工作負(fù)載。它通過全系列精度(從 FP32、FP16、INT8 一直到 INT4)加速,實(shí)現(xiàn)了強(qiáng)大的多元化用途。MIG 技術(shù)支持多個(gè)網(wǎng)絡(luò)同時(shí)在單個(gè) A100 GPU 運(yùn)行,從而優(yōu)化計(jì)算資源的利用率。在 A100 其他推理性能提升的基礎(chǔ)上,結(jié)構(gòu)化稀疏支持將性能再提升兩倍。
NVIDIA 提供市場(chǎng)領(lǐng)先的推理性能,在第一項(xiàng)專門針對(duì)推理性能的行業(yè)級(jí)基準(zhǔn)測(cè)試 MLPerf Inference 0.5中全面制勝的結(jié)果充分證明了這一點(diǎn)。A100 則再將性能提升 10 倍,在這樣的領(lǐng)先基礎(chǔ)上進(jìn)一步取得了發(fā)展。
為了點(diǎn)燃下一代新發(fā)現(xiàn)的火花,科學(xué)家們希望通過模擬更好地理解復(fù)雜分子結(jié)構(gòu)以支持藥物發(fā)現(xiàn),通過模擬物理效果尋找潛在的新能源,通過模擬大氣數(shù)據(jù)更好地預(yù)測(cè)極端天氣狀況并為其做準(zhǔn)備。
A100 引入了雙精度 Tensor Cores, 繼用于 HPC 的 GPU 雙精度計(jì)算技術(shù)推出至今,這是非常重要的里程碑。利用 A100,原本在 NVIDIA V100 Tensor Core GPU 上需要 10 小時(shí)的雙精度模擬作業(yè)如今只要 4 小時(shí)就能完成。HPC 應(yīng)用還可以利用 A100 的 Tensor Core,將單精度矩陣乘法運(yùn)算的吞吐量提高 10 倍之多。
客戶需要能夠分析和可視化龐大的數(shù)據(jù)集,并將其轉(zhuǎn)化為寶貴洞見。但是,由于這些數(shù)據(jù)集分散在多臺(tái)服務(wù)器上,橫向擴(kuò)展解決方案往往會(huì)陷入困境。
搭載 A100 的加速服務(wù)器可以提供必要的計(jì)算能力,并利用第三代 NVLink 和 NVSwitch 1.6TB/s 的顯存帶寬和可擴(kuò)展性,妥善應(yīng)對(duì)這些龐大的工作負(fù)載。結(jié)合 Mellanox InfiniBand、Magnum IO SDK、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS NVIDIA 數(shù)據(jù)中心平臺(tái)能夠以出色的性能和效率加速這些大規(guī)模工作負(fù)載。
A100 的 多實(shí)例 GPU (MIG) 功能使 GPU 加速的基礎(chǔ)架構(gòu)利用率大幅提升,達(dá)到前所未有的水平。MIG 支持將 A100 GPU 安全分割到多達(dá)七個(gè)獨(dú)立實(shí)例中,這些 A100 GPU 實(shí)例可供多名用戶使用,以加速應(yīng)用和開發(fā)項(xiàng)目。此外,數(shù)據(jù)中心管理員可以利用基于虛擬化技術(shù)帶來的管理、監(jiān)控和操作方面的優(yōu)勢(shì),發(fā)揮 NVIDIA 虛擬計(jì)算服務(wù)器 ( vComputeServer) 的動(dòng)態(tài)遷移和多租戶功能。A100 的 MIG 功能可以使基礎(chǔ)架構(gòu)管理員對(duì)其 GPU 加速的基礎(chǔ)架構(gòu)作標(biāo)準(zhǔn)化處理,同時(shí)以更精確的粒度提供 GPU 資源,從而為開發(fā)者提供正確的加速計(jì)算量,并確保其所有 GPU 資源得到充分利用。
云計(jì)算通過實(shí)現(xiàn)數(shù)據(jù)中心的大眾化和徹底改變企業(yè)的運(yùn)作方式,引發(fā)了行業(yè)變革。如今,您最重要的資產(chǎn)位于您的首選提供商提供的云服務(wù)中。然而,要從數(shù)據(jù)中充分獲取見解,您需要合適的高性能計(jì)算解決方案。
NVIDIA GPU 云 (NGC) 可以通過 GPU 加速的容器為人工智能科學(xué)家和研究人員賦予強(qiáng)大能力。NGC 提供 TensorFlow、PyTorch、MXNet 等容器化深度學(xué)習(xí)框架,它們都經(jīng)過 NVIDIA 的調(diào)試、測(cè)試和驗(yàn)證,可以在參與計(jì)劃的云服務(wù)提供商的最新 NVIDIA GPU 上運(yùn)行。NGC 還包含用于 HPC 應(yīng)用的第三方管理容器以及用于 HPC 可視化的 NVIDIA 容器。
打造更高效、更智能的世界
AI 在邊緣蓬勃發(fā)展。AI 和云原生應(yīng)用程序、物聯(lián)網(wǎng)及其數(shù)十億的傳感器以及 5G 網(wǎng)絡(luò)現(xiàn)已使得在邊緣大規(guī)模部署 AI 成為可能。但它需要一個(gè)可擴(kuò)展的加速平臺(tái),能夠?qū)崟r(shí)推動(dòng)決策,并讓各個(gè)行業(yè)都能為行動(dòng)點(diǎn)(商店、制造工廠、醫(yī)院和智慧城市)提供自動(dòng)化智能。這將人、企業(yè)和加速服務(wù)融合在一起,從而使世界變得“更小”、更緊密。
A100 40GB PCIE | A100 80GB PCIE | A100 40GB SXM | A100 80GB SXM | |
FP64 | 9.7 TFLOPS | |||
FP64 Tensor Core | 19.5 TFLOPS | |||
FP32 | 19.5 TFLOPS | |||
Tensor Float 32 (TF32) | 156 TFLOPS | 312 TFLOPS* | |||
BFLOAT16 Tensor Core | 312 TFLOPS | 624 TFLOPS* | |||
FP16 Tensor Core | 312 TFLOPS | 624 TFLOPS* | |||
INT8 Tensor Core | 624 TOPS | 1248 TOPS* | |||
GPU 顯存 | 40GB HBM2 | 80GB HBM2e | 40GB HBM2 | 80GB HBM2e |
GPU 顯存帶寬 | 1,555GB/s | 1,935GB/s | 1,555GB/s | 2,039GB/s |
最大熱設(shè)計(jì)功耗 (TDP) | 250W | 300W | 400W | 400W |
多實(shí)例 GPU | 最大為 7 MIG @ 5GB | 最大為 7 MIG @ 10GB | 最大為 7 MIG @ 5GB | 最大為 7 MIG @ 10GB |
外形規(guī)格 | PCIe | SXM | ||
互聯(lián) |
NVIDIA? NVLink? 橋接器(可橋接 2 個(gè) GPU): 600GB/s ** PCIe 4.0:64GB/s |
NVLink: 600GB/s PCIe Gen4: 64GB/s |
? ? ? ? ? ? ? ?Copyright 2020-2026 同袍存儲(chǔ) 粵ICP備2021121885號(hào)網(wǎng)站地圖