全新AMD Instinct MI210 GPU基於AMD CDNA™ 2架構與AMD ROCm™ 5平台,
助力主流使用者加速洞察與創新
台北—2022年3月23日—AMD(NASDAQ: AMD)宣布AMD Instinct™產業體系持續擴大,包括華碩、戴爾科技集團、技嘉、HPE、聯想、美超微(Supermicro)等合作夥伴提供更廣泛的系統支援,並推出全新AMD Instinct™ MI210加速器以及具備強大功能的ROCm™ 5軟體。AMD Instinct與ROCm產業體系為廣大高效能運算(HPC)與人工智慧(AI)客群提供exascale等級技術,以滿足加速運算資料中心工作負載日益增長的需求,同時縮短洞察與創新的時間。
AMD資料中心GPU與加速處理全球副總裁Brad McCredie表示,憑藉較前一代加速器倍增的平台數量、在HPC與AI應用領域中獲得越來越多客戶採用、以及商業ISV支援關鍵工作負載,我們正持續擴大AMD Instinct MI200加速器與ROCm 5軟體的產業體系。隨著在Ml200系列中推出AMD Instinct Ml210加速器,不論是為大規模HPC與AI工作負載提供業界領先的加速處理,或是在商業領域運用exascale等級技術,客戶皆可依據工作負載選用最適合的加速器。
芬蘭CSC(芬蘭IT科學中心)LUMI領先運算機構總監Pekka Manninen表示,基於AMD EPYC處理器與AMD Instinct Ml200加速器的Lumi超級電腦將為大規模模擬與建模、AI、深度學習等工作負載帶來跨越世代的效能,以解決最艱鉅的科研難題。我們透過AMD Instinct Ml210加速器體驗到Instinct Ml200系列產品的強大效能,讓我們的科學家可在Lumi全面部署後,著手為複雜艱鉅的研究專案做好準備。
開拓HPC與AI的未來
AMD Instinct Ml200系列加速器旨在推動針對exascale等級系統的探索,協助研究人員、科學家與工程師解決從氣候變化到疫苗研究等最迫切的挑戰。AMD Instinct MI210加速器專為在PCle®介面下需要卓越HPC與AI效能的客戶提供exascale等級技術。基於AMD CDNA™ 2架構的AMD Instinct MI210加速器延伸AMD在PCIe規格介面卡的雙精度(FP64)效能領先優勢註1。此外,AMD Instinct MI210加速器擁有基於AMD Matrix Core技術的各種混合精度運算能力,為加速深度學習訓練提供強大的解決方案。
推動各界採用ROCm
AMD ROCm開放軟體平台建構在眾多應用程式與函式庫的基礎之上,並為頂尖HPC與AI應用提供強大效能,讓研究人員、科學家、工程師發揮AMD Instinct加速器的強大效能,推動科學新發現。
AMD透過ROCm 5進一步擴大其軟體平台,新增對AMD Instinct Ml200系列加速器與AMD Radeon™ PRO W6800專業繪圖卡的硬體支援,再加上對Red Hat® Enterprise LinuX® 8.5作業系統的支援,協助開發者更容易運用ROCm平台,在各種關鍵工作負載中成就卓越效能。
此外,透過在AMD GPU上移植與優化的開源應用程式資源中心AMD Infinite Hub,可讓終端使用者輕鬆搜尋、下載並安裝各種容器化HPC應用與機器學習(ML)框架。AMD Infinity Hub應用容器旨在減少取得與安裝軟體的傳統難題,並讓使用者根據共享的經驗及問題解決辦法來獲得幫助。
不斷擴大的合作夥伴與客戶產業體系
隨著越來越多的專業應用對ROCm與AMD Instinct加速器進行優化,AMD進一步擴大其軟體產業體系,並新增了Ansys®、Cascade Technologies、以及TempoQuest等商業ISV合作夥伴。這些ISV合作夥伴可為計算流體力學(CFD)、氣象、電腦輔助工程(CAE)等加速工作負載提供應用程式。除了以上更新,ROCm現有的應用支援更涵蓋HPC、AI、ML應用、AMBER、Chroma、CP2K、GRID、 GROMACs、LAAMPS、MILC、Mini-HAAC、NAMD、NAMD 3.0、ONNX-RT、OpenMM、PyTorch、RELION、SPECFEM3D Cartesian、SPECFEM3D Globe、以及TensorFlow。
此外,AMD亦協助華碩、戴爾科技集團、技嘉、HPE、聯想、Supermicro等合作夥伴,以及Colfax、Exxact、KOI Computers、Nor-Tech、Penguin、Symmetric等系統整合商推出差異化解決方案,以應對新一代運算挑戰。眾多超級電腦客戶已開始充分利用這些新客戶成功案例所帶來的優勢,其中包括橡樹嶺國家實驗室的Frontier、瑞典皇家理工學院(KTH)的Dardel、芬蘭IT科學中心的LUMI、以及法國國家高等教育運算中心CINES的Adastra超級電腦。
為客戶與合作夥伴提供優質服務
AMD Accelerator Cloud為客戶提供環境,得以從遠端存取與評估AMD Instinct加速器以及AMD ROCm軟體。不論是移植既有程式碼、測量應用效能、或測試多重GPU或多節點擴充的效能,AMD Accelerator Cloud都能協助潛在客戶與合作夥伴輕鬆快速取得最新的GPU與軟體資源。此外,AMD Accelerator Cloud也可應用在支援各種活動,例如為現有與潛在客戶提供黑客松(hackathon)和ROCm訓練課程,協助開發者提升技能並學習如何最大程度地發揮AMD Instinct加速器的效能。
MI200系列規格
型號 |
運算單元 |
串流 處理器 |
FP64 | FP32 Vector (Peak) |
FP64 | FP32 Matrix (Peak) |
FP16 | bf16 (Peak) |
INT4 | INT8 (Peak) |
HBM2e ECC 記憶體 |
記憶體 頻寬 |
規格 |
AMD Instinct MI210 |
104 |
6,656 |
高達22.6 TF |
高達45.3 TF |
高達181.0 TF |
高達181.0 TOPS |
64GB |
高達1.6 TB/秒 |
PCle® |
AMD Instinct MI250 |
208 |
13,312 |
高達45.3 TF |
高達90.5 TF |
高達362.1 TF |
高達362.1 TOPS |
128GB |
3.2 TB/秒 |
OCP加速器模組(OAM) |
AMD Instinct MI250x |
220 |
14,080 |
高達47.9 TF |
高達95.7 TF |
高達383.0 TF |
高達383.0 TOPS |
128GB |
3.2 TB/秒 |
OCP加速器模組(OAM) |
相關資源
- 更多關於:AMD Instinct™ 200系列加速器
- 更多關於:AMD Instinct™ MI200加速器
- 更多關於:AMD CDNA™架構
- 更多關於:AMD ROCm™開放軟體平台
- 更多關於:AMD Infinity Hub
- 更多關於:AMD Instinct合作夥伴產業體系
- Twitter:於@AMD追蹤AMD新訊
關於AMD
50多年來,AMD(NASDAQ:AMD)推動創新高效能運算、繪圖及視覺技術。全球數十億的消費者、世界500強企業以及尖端科學研究機構皆仰賴AMD的技術來改善生活、工作及娛樂。AMD員工致力於研發領先的高效能與自行調適產品,不斷突破技術的極限。欲瞭解AMD如何成就今天,啟發未來,請瀏覽AMD網站、部落格、LinkedIn及Twitter。
©2022年,AMD公司版權所有。AMD、AMD箭頭、AMD CDNA、AMD Instict、ROCm及上述名稱的組合為AMD公司的商標。PCle係PCI-SIG公司的註冊商標。Red Hat、Red Hat Enterprise Linux、Red Hat logo係Red Hat公司及其在美國與其他國家子公司的商標及註冊商標。其他名稱只為提供資訊的目的,並用於標識公司和產品,也可能是各自所有者的商標。
Linux係美國及其他國家的Linus Torvalds公司的註冊商標。
新聞聯絡人:
美商超微半導體 高惠如 Robyn Kao |
世紀奧美公關
黎淑玲 Jannie Lai / 江曉婷 Linda Chiang / |
||
Tel: Email: |
2655-8885 EXT.23352 |
Tel: Email:
|
7745-1688 EXT.139 / 137 / 170 |
註1:AMD效能實驗室於2022年1月14日執行的測試,受測對象為AMD Instinct™ MI210(64GB HBM2e PCle®介面卡)加速器,在1,700 MHz峰值升頻引擎時脈下測得45.3 TFLOPS峰值理論雙精度(FP64矩陣);22.6 TFLOPS峰值理論雙精度(FP64);181.0 TFLOPS峰值理論 Bfloat16格式精度(BF16)浮點運算效能。
AMD效能實驗室於2020年9月18日執行測試,受測對象為AMD Instinct™ MI100(32GB HBM2 PCIe®介面卡)加速器,在1,502 MHz峰值升頻引擎時脈下測得11.54 TFLOPS峰值理論雙精度(FP64);184.6 TFLOPS峰值理論半精度(FP16)浮點運算效能。
公布結果係根據NVidia Ampere A100(80GB)GPU加速器,在升頻引擎時脈1410 MHz下測得19.5 TFLOPS峰值倍精度張量運算核心(FP64 Tensor Core);9.7 TFLOPS峰值雙精度(FP64);39 TFLOPS峰值Bfloat 16格式精度(BF16)理論浮點運算效能。TF32資料格式並非與IEEE協會相容的標準,故此項比較並未列入。