英偉達(dá)Tesla A100 40G/80G訓(xùn)練推理運(yùn)算加速顯卡

分類：計(jì)算加速卡
|
發(fā)布日期：2021年12月31日下午3:12

適用各種工作負(fù)載的出色計(jì)算平臺(tái)NVIDIA ? A100 Tensor Core GPU 可針對(duì) AI、數(shù)據(jù)分析和高性能計(jì)算 (HPC) 應(yīng)用，在各個(gè)規(guī)模下實(shí)現(xiàn)出色加速，有效助力全球高性能彈性數(shù)據(jù)中心。

顯存：40GB/80GB
顯存帶寬：1555GB/s
CUDA核數(shù)：6912；
應(yīng)用：科學(xué)計(jì)算、深度學(xué)習(xí)/訓(xùn)練+推理等
參考價(jià)格：69000元
采購(gòu)報(bào)價(jià)聯(lián)系：18681551725

產(chǎn)品詳情

Tesla A100計(jì)算卡采用了7nm工藝的GA100 GPU，這款GPU擁有6912 CUDA核心和432張量核心。GPU封裝尺寸為826mm2，集成了540億個(gè)晶體管。

該卡支持第三代NVLINK，與服務(wù)器的雙向帶寬為4.8 TB/s, GPU到GPU的互連帶寬為600 GB/s。Tesla A100擁有40GB的HBM2顯存，顯存位寬為5120-bit，TDP為400W。

A100 PCIe的TDP為250W，而之前發(fā)布的SXM版本TDP為400W。對(duì)此，NVIDIA表示，盡管PCIe型號(hào)的TDP較低，但兩種型號(hào)的峰值功率是相同的，只是在持續(xù)負(fù)載下，PCIe版的性能會(huì)比基于SXM的型號(hào)低10%到50%。

GPU加速計(jì)算

　　NVIDIA A100 Tensor Core GPU 可針對(duì) AI、數(shù)據(jù)分析和高性能計(jì)算 (HPC)，在各種規(guī)模上實(shí)現(xiàn)出色的加速，應(yīng)對(duì)極其嚴(yán)峻的計(jì)算挑戰(zhàn)。作為 NVIDIA 數(shù)據(jù)中心平臺(tái)的引擎，A100 可以高效擴(kuò)展，系統(tǒng)中可以集成數(shù)千個(gè) A100 GPU，也可以利用 NVIDIA 多實(shí)例 GPU (MIG) 技術(shù)將每個(gè) A100 劃分割為七個(gè)獨(dú)立的 GPU 實(shí)例，以加速各種規(guī)模的工作負(fù)載。第三代 Tensor Core 技術(shù)為各種工作負(fù)載的更多精度水平提供加速支持，縮短獲取洞見以及產(chǎn)品上市時(shí)間。

功能強(qiáng)大的端到端 AI 和 HPC 數(shù)據(jù)中心平臺(tái)

　　A100 是完整的 NVIDIA 數(shù)據(jù)中心解決方案堆棧的一部分，該解決方案堆棧包括來自 NGC (NVIDIA GPU Cloud) 的硬件、網(wǎng)絡(luò)、軟件、庫(kù)以及優(yōu)化的 AI 模型和應(yīng)用程序構(gòu)建模塊。它為數(shù)據(jù)中心提供了強(qiáng)大的端到端 AI 和 HPC 平臺(tái)，使研究人員能夠大規(guī)模地交付真實(shí)的結(jié)果，并將解決方案大規(guī)模部署到生產(chǎn)環(huán)境中。

AI 數(shù)據(jù)中心的基本組成部分

深度學(xué)習(xí)推理

　　A100 引入了突破性的新功能優(yōu)化推理工作負(fù)載。它通過全系列精度(從 FP32、FP16、INT8 一直到 INT4)加速，實(shí)現(xiàn)了強(qiáng)大的多元化用途。MIG 技術(shù)支持多個(gè)網(wǎng)絡(luò)同時(shí)在單個(gè) A100 GPU 運(yùn)行，從而優(yōu)化計(jì)算資源的利用率。在 A100 其他推理性能提升的基礎(chǔ)上，結(jié)構(gòu)化稀疏支持將性能再提升兩倍。

　　NVIDIA 提供市場(chǎng)領(lǐng)先的推理性能，在第一項(xiàng)專門針對(duì)推理性能的行業(yè)級(jí)基準(zhǔn)測(cè)試 MLPerf Inference 0.5中全面制勝的結(jié)果充分證明了這一點(diǎn)。A100 則再將性能提升 10 倍，在這樣的領(lǐng)先基礎(chǔ)上進(jìn)一步取得了發(fā)展。

高性能計(jì)算

　　為了點(diǎn)燃下一代新發(fā)現(xiàn)的火花，科學(xué)家們希望通過模擬更好地理解復(fù)雜分子結(jié)構(gòu)以支持藥物發(fā)現(xiàn)，通過模擬物理效果尋找潛在的新能源，通過模擬大氣數(shù)據(jù)更好地預(yù)測(cè)極端天氣狀況并為其做準(zhǔn)備。

　　A100 引入了雙精度 Tensor Cores, 繼用于 HPC 的 GPU 雙精度計(jì)算技術(shù)推出至今，這是非常重要的里程碑。利用 A100，原本在 NVIDIA V100 Tensor Core GPU 上需要 10 小時(shí)的雙精度模擬作業(yè)如今只要 4 小時(shí)就能完成。HPC 應(yīng)用還可以利用 A100 的 Tensor Core，將單精度矩陣乘法運(yùn)算的吞吐量提高 10 倍之多。

數(shù)據(jù)分析

　　客戶需要能夠分析和可視化龐大的數(shù)據(jù)集，并將其轉(zhuǎn)化為寶貴洞見。但是，由于這些數(shù)據(jù)集分散在多臺(tái)服務(wù)器上，橫向擴(kuò)展解決方案往往會(huì)陷入困境。

　　搭載 A100 的加速服務(wù)器可以提供必要的計(jì)算能力，并利用第三代 NVLink 和 NVSwitch 1.6TB/s 的顯存帶寬和可擴(kuò)展性，妥善應(yīng)對(duì)這些龐大的工作負(fù)載。結(jié)合 Mellanox InfiniBand、Magnum IO SDK、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS NVIDIA 數(shù)據(jù)中心平臺(tái)能夠以出色的性能和效率加速這些大規(guī)模工作負(fù)載。

企業(yè)級(jí)利用率

　　A100 的多實(shí)例 GPU (MIG) 功能使 GPU 加速的基礎(chǔ)架構(gòu)利用率大幅提升，達(dá)到前所未有的水平。MIG 支持將 A100 GPU 安全分割到多達(dá)七個(gè)獨(dú)立實(shí)例中，這些 A100 GPU 實(shí)例可供多名用戶使用，以加速應(yīng)用和開發(fā)項(xiàng)目。此外，數(shù)據(jù)中心管理員可以利用基于虛擬化技術(shù)帶來的管理、監(jiān)控和操作方面的優(yōu)勢(shì)，發(fā)揮 NVIDIA 虛擬計(jì)算服務(wù)器 ( vComputeServer) 的動(dòng)態(tài)遷移和多租戶功能。A100 的 MIG 功能可以使基礎(chǔ)架構(gòu)管理員對(duì)其 GPU 加速的基礎(chǔ)架構(gòu)作標(biāo)準(zhǔn)化處理，同時(shí)以更精確的粒度提供 GPU 資源，從而為開發(fā)者提供正確的加速計(jì)算量，并確保其所有 GPU 資源得到充分利用。

將深度學(xué)習(xí)的強(qiáng)大功能應(yīng)用于數(shù)據(jù)

　　云計(jì)算通過實(shí)現(xiàn)數(shù)據(jù)中心的大眾化和徹底改變企業(yè)的運(yùn)作方式，引發(fā)了行業(yè)變革。如今，您最重要的資產(chǎn)位于您的首選提供商提供的云服務(wù)中。然而，要從數(shù)據(jù)中充分獲取見解，您需要合適的高性能計(jì)算解決方案。

GPU 加速云容器

　　NVIDIA GPU 云 (NGC) 可以通過 GPU 加速的容器為人工智能科學(xué)家和研究人員賦予強(qiáng)大能力。NGC 提供 TensorFlow、PyTorch、MXNet 等容器化深度學(xué)習(xí)框架，它們都經(jīng)過 NVIDIA 的調(diào)試、測(cè)試和驗(yàn)證，可以在參與計(jì)劃的云服務(wù)提供商的最新 NVIDIA GPU 上運(yùn)行。NGC 還包含用于 HPC 應(yīng)用的第三方管理容器以及用于 HPC 可視化的 NVIDIA 容器。

適用于邊緣 AI 的解決方案

　　打造更高效、更智能的世界

　　AI 在邊緣蓬勃發(fā)展。AI 和云原生應(yīng)用程序、物聯(lián)網(wǎng)及其數(shù)十億的傳感器以及 5G 網(wǎng)絡(luò)現(xiàn)已使得在邊緣大規(guī)模部署 AI 成為可能。但它需要一個(gè)可擴(kuò)展的加速平臺(tái)，能夠?qū)崟r(shí)推動(dòng)決策，并讓各個(gè)行業(yè)都能為行動(dòng)點(diǎn)(商店、制造工廠、醫(yī)院和智慧城市)提供自動(dòng)化智能。這將人、企業(yè)和加速服務(wù)融合在一起，從而使世界變得“更小”、更緊密。

英偉達(dá)A100顯卡詳細(xì)規(guī)格參數(shù)

	A100 40GB PCIE	A100 80GB PCIE	A100 40GB SXM	A100 80GB SXM
FP64	9.7 TFLOPS
FP64 Tensor Core	19.5 TFLOPS
FP32	19.5 TFLOPS
Tensor Float 32 (TF32)	156 TFLOPS \| 312 TFLOPS*
BFLOAT16 Tensor Core	312 TFLOPS \| 624 TFLOPS*
FP16 Tensor Core	312 TFLOPS \| 624 TFLOPS*
INT8 Tensor Core	624 TOPS \| 1248 TOPS*
GPU 顯存	40GB HBM2	80GB HBM2e	40GB HBM2	80GB HBM2e
GPU 顯存帶寬	1,555GB/s	1,935GB/s	1,555GB/s	2,039GB/s
最大熱設(shè)計(jì)功耗 (TDP)	250W	300W	400W	400W
多實(shí)例 GPU	最大為 7 MIG @ 5GB	最大為 7 MIG @ 10GB	最大為 7 MIG @ 5GB	最大為 7 MIG @ 10GB
外形規(guī)格	PCIe		SXM
互聯(lián)	NVIDIA? NVLink? 橋接器（可橋接 2 個(gè) GPU）： 600GB/s ** PCIe 4.0：64GB/s		NVLink: 600GB/s PCIe Gen4: 64GB/s