企業(yè)級的A30支持廣泛的AI推理、人工智能和傳統(tǒng)的企業(yè)計算工作負載。它可以為AI應用提供支持,例如推薦系統(tǒng),對話式AI和計算機視覺系統(tǒng)。在人工智能方面,第三代NVIDIA Tensor Core支持單精度浮點計算和創(chuàng)新的數(shù)學模式TensorFloat-32,與上一代NVIDIA T4 GPU相比,性能提高了20倍。
無論是使用 MIG 技術將 A30 GPU 分割為較小的實例,還是使用 NVIDIA NVLink 連接多個GPU 以加速更大規(guī)模的工作負載,A30 均可輕松滿足多種規(guī)模的加速需求,從小型作業(yè)到大型多節(jié)點工作負載都無一例外。A30 功能全面,這意味著 IT 經(jīng)理可借此在主流服務器上充分利用數(shù)據(jù)中心內(nèi)的每個 GPU,晝夜不停歇。
NVIDIA A30 可提供 165 teraFLOPS (TFLOPS) 的 TF32 精度深度學習性能。相較于 NVIDIA T4 Tensor Core GPU,A30 可將 AI 訓練吞吐量
提高 20 倍,并將推理性能提高 5 倍以上。A30 可在 HPC 方面提供 10.3 TFLOPS 的性能,比 NVIDIA V100 Tensor Core GPU 高出了近 30%。
A30 中采用的 NVIDIA NVLink 可提供兩倍于上一代的吞吐量。兩個 A30 PCIe GPU 可通過 NVLink 橋接器連接,以提供 330 TFLOPS 的深度學習性能。
每個 A30 GPU 最多可分割為四個GPU 實例,這些實例在硬件級別完全獨立,并各自擁有高帶寬顯存、緩存和計算核心。借助 MIG,開發(fā)者可為其所有應用實現(xiàn)驚人加速。IT 管理員可為每個作業(yè)提供符合其規(guī)模的 GPU 加速,進而優(yōu)化利用率,并讓每個用戶和應用都能享受 GPU 加速性能。
配合高達 24GB 的高帶寬顯存 (HBM2),A30 可提供933GB/s 的 GPU 顯存帶寬,適用于主流服務器中的多種 AI 和 HPC 工作負載。
AI 網(wǎng)絡擁有數(shù)百萬至數(shù)十億個參數(shù)。實現(xiàn)準確預測并非要使用所有參數(shù),而且我們還可將某些參數(shù)轉(zhuǎn)換為零,以在無損準確性的前提下使模型變得“稀疏”。A30 中的 Tensor Core 可為稀疏模型提供高達兩倍的性能提升。稀疏功能不僅更易使 AI 推理受益,同時還能提升模型訓練的性能。
A30的架構(gòu)特點則接近A100。峰值原生FP32性能看似并不突出,但雙精度浮點FP64 5.2TFlops為單精度的一半,兼具優(yōu)秀的Tensor Core加速計算性能,同時功耗降低至165W。
它的24GB內(nèi)存比A100 40GB的一半多點,但保持使用HBM2,帶寬仍高達933GB/s。同時提供PCIe Gen4和NVLINK 200GB/s互連接口。A100支持7個MIG(多實例GPU)硬件切分,A30則可選切分成4個6GB、2個12GB或者1個24GB。vGPU這塊,NVIDIA A30的定位只需要支持計算,本身就沒有圖形。
1 optical flow accelerator (OFA)
1 JPEG decoder (NVJPEG)
4 Video decoders (NVDEC)
24GB HBM2
PCIe 4.0: 64GB/s
第三代 NVIDIA ? NVLINK ? 200GB/s**
2 插槽 (FHFL)
NVIDIA AI Enterprise for VMware
NVIDIA Virtual Compute Server
您的電子郵件地址不會被公開,必填項已用 * 標注。
提交評論
Δ
? ? ? ? ? ? ? ?Copyright 2020-2026 同袍存儲 粵ICP備2021121885號網(wǎng)站地圖