回到頂端
|||
熱門: 菸草可以吃嗎 陳傑憲 棒球

AWS與NVIDIA攜手開發下世代基礎設施,助力大型機器學習模型訓練和生成式AI應用程式建構

台灣產經新聞網/世紀奧美 2023.03.23 00:00

部署在Amazon EC2 UltraCluster中的新型Amazon EC2 P5執行個體經過充分優化,可以利用NVIDIA Hopper GPU加速生成式AI的大規模訓練和推論 

 

北訊,2023323日】Amazon Web ServicesAWS)和NVIDIA(輝達)宣佈了一項多方合作,致力於建構全球最具可擴展性且隨需付費的人工智慧(AI)基礎設施,以便訓練日益複雜的大語言模型(LLM)和開發生成式AI應用程式。 

 

借助NVIDIA H100 Tensor Core GPU支持的下Amazon Elastic Compute CloudAmazon EC2P5執行個體,以及AWS最先進的網路和可擴展性,此次合作將提供高達20 exaFLOPS運算效能協助建構和訓練更大規模的深度學習模型。P5執行個體將是第一個利用AWS第二代Amazon Elastic Fabric AdapterEFA)網路技術的GPU執行個體,可提供3200 Gbps的低延遲和高頻寬網路輸送量。因此客戶能夠在Amazon EC2 UltraCluster拓展多達2萬個NVIDIA H100 GPU,滿足隨需訪問超級電腦的AI效能需求。 

 

AWSNVIDIA合作已超過12年,為人工智慧、機器學習、圖形、遊戲和高效能運算HPC)等各種應用提供了大規模、低成本的GPU解決方案。AWS執行長Adam Selipsky表示,AWS在交付基於GPU執行個體方面擁有無比豐富的經驗,每一代執行個體都大強化可擴展性,如今眾多客戶將機器學習訓練工作負載拓展1萬多個GPU。借助第二代EFA,客戶能夠將其P5執行個體拓展到超過2萬個H100 GPU,為包括創公司、大企業在內的所有規模客戶提供所需的超級運算能力。 

 

加速運算和人工智慧已經到來,而且適逢其時加速運算提升效能的同時,降低了成本和功耗,讓企業事半功倍。生成式AI已促使企業重新思考產品和商業模式,力求成為顛覆者,而不是被顛覆。NVIDIA創辦人暨執行黃仁勳表示,AWSNVIDIA的長期合作夥伴,也是首家提供NVIDIA GPU的雲服務提供者。我們很高興能夠結合各自的專長、規模和業務範圍,協助客戶利用加速運算和生成式AI抓住未來的大好機遇。 

 

新的超級運算叢集 

新的P5執行個體建構AWSNVIDIA十多年來在AIHPC基礎設施交付方面的合作基礎之上,也立足於雙方在P2P3P3dnP4d(e)前四代執行個體方面的合作。P5執行個體是基於NVIDIA GPU的第五代AWS產品,與最初部署的NVIDIA GPU(始於CG1執行個體)已相隔近13年。 

 

P5執行個體非常適合對日益複雜的LLM和電腦視覺模型進行訓練和運行推理,並應用要求嚴苛的運算密集型生成式AI應用程式,包括問題回答、代碼生成、影片圖像生成和語音辨識等領域。 

 

對於致力於以可擴展和安全的方式將AI賦能的創新推向市場的企業和新創公司而言,P5執行個體是不二之選。P5執行個體採用8H100 GPU,能夠在一個Amazon EC2執行個體中實現16 petaFLOPs運算效能640 GB的高頻寬記憶體和3200 Gbps的網路效能(比上一代執行個體高出8倍)。P5執行個體效能的提升使機器學習模型訓練時間加快了6倍(將訓練時間從數天縮短到數小時),額外的GPU記憶體可幫助客戶訓練更龐大更複雜的模型。預計P5執行個體的機器學習模型訓練成本將比上一代降低40%。相比靈活性較差的雲產品或昂貴的地端系統,它為客戶提供了更高的效率。 

 

P5執行個體部署在EC2 UltraCluster的超大規模叢集中,該叢集由雲端最高效能運算、網路和儲存系統組成。每個EC2 UltraCluster都是世界上功能最強大的超級電腦之一,助力客戶運行最複雜的多節點機器學習訓練和分散式HPC工作負載。它們採用PB級無阻塞網路,基於EFA,這種針對Amazon EC2執行個體的網路介面使客戶能夠在AWS上運行需要在大規模高級節點間通的應用程式。EFA客製化作業系統繞過硬體介面,並與NVIDIA GPUDirect RDMA整合,可降低延遲、提高頻寬使用率,而提升執行個體通訊效能,這對於在數百個P5節點上展深度學習模型的訓練至關重要。藉由P5執行個體EFA,機器學習應用程式可以使用NVIDIA Collective Communications LibraryNCCL拓展到多達2萬個H100 GPU。因此,客戶可以透過AWS隨需彈性和靈活拓展能力,獲得本地HPC叢集的應用效能。除了這些出色的運算能力外,客戶可以使用業界最廣泛最深入的服務組合,比如物件導向儲存Amazon S3針對高效能檔案系統的Amazon FSx,以及用於建構、訓練和部署深度學習應用的Amazon SageMakerP5執行個體將在今後幾周提供有限預覽版。欲瞭解詳情,請參考https://pages.awscloud.com/EC2-P5-Interest.html 

 

借助新的P5執行個體 Hugging FacePinterest等客戶將能夠大規模建構和訓練最龐大的機器學習模型。基於其它幾代Amazon EC2執行個體的合作將助力新創公司、大企業和研究人員無縫拓展來滿足各自的機器學習需求。 

 

Hugging Face的使命是將優秀的機器學習普及化作為發展最快速的機器學習開源社群,我們如今在針對NLP、電腦視覺、生物學和強化學習等領域的平臺上提供逾15萬個預訓練模型和2.5萬個資料集。Hugging Face技術長暨聯合創辦Julien Chaumond表示,鑒於大語言模型和生成式AI技術的顯著進步,我們正與AWS合作,以建構和貢獻未來的開源模型。我們希望在結EFAEC2 UltraCluster叢集透過大規模Amazon SageMaker使用P5執行個體,加快為所有客戶提供新的基礎AI模型。 

 

如今,全球超過4.5億人透過Pinterest尋找視覺靈感,以購買符合自己品味的個性化產品、尋求實體化的創意,並發現最有才華的創作者。我們廣泛使用深度學習技術,比如對上傳到我們平臺上的數十億張照片進行標記和分類,以及讓用戶獲得從靈感到付諸行動的視覺搜尋能力。Pinterest架構師David Chaiken表示,我們使用P3和最新的P4dAWS GPU執行個體建構和部署這些應用場景。我們希望使用由H100 GPUEFAUltracluster加持的Amazon EC2 P5執行個體,加快產品開發,為我們的客戶提供同理心AIEmpathetic AI)體驗。 

 

為可擴展、高效AI採用新的伺服器設計 

H100 GPU發佈之前,NVIDIA和在熱力、電和機械領域擁有專業知識的AWS工程團隊合作設計了伺服器,以利用GPU提供大規模AI,重點關注AWS基礎設施的能源效率。在某些AI工作負載下,GPU的能效通常是CPU20倍,對於LLM而言,H100 GPU的能效比CPU300倍。 

 

雙方的合作包括開發系統散熱設計、整合安全和系統管理、與AWS Nitro硬體加速虛擬機器管理程式一起實現安全性,以及針對AWS客製化EFA網路結構的NVIDIA GPUDirect優化技術。 

 

AWSNVIDIA專注於伺服器優化的基礎上,兩家公司已開始合作開發未來的伺服器設計,以借助新一代系統設計、冷卻技術和網路可擴展性提高擴展效率。 

 

### 

 

關於Amazon Web Services 

2006年來,Amazon Web Services一直在提供世界上服務最豐富、應用廣泛的雲端服務。AWS不斷擴展可支援幾乎任何雲端工作負載的服務,為客戶提供超過200種功能全面的雲端服務,包括運算、儲存、資料庫、聯網、分析、機器學習與人工智慧、物聯網、行動、安全、混合雲、虛擬和擴增實境(VRAR)、媒體,以及應用開發、部署和管理等方面,遍及31個地理區域內的99個可用區域(Availability Zones),並已公佈計畫在加拿大、以色列、馬來西亞、紐西蘭和泰國建立5AWS地理區域、15個可用區域。全球超過百萬客戶信任AWS,包含發展迅速的新創公司、大型企業和政府機構。AWS協助客戶強化自身基礎設施,提高營運上的彈性與應變能力,同時降低成本。欲瞭解更多AWS的相關資訊,請至:aws.amazon.com 

 

關於NVIDIA 

1993年成立以來,NVIDIA(納斯達克股票代碼:NVDA)一直是加速運算領域的先驅。該公司在1999年發明的GPU推動了PC遊戲市場的發展,重新定義了電腦圖形,引領了現代AI時代,並推動了元宇宙的創建。NVIDIA如今是一家全棧運算公司,其資料中心級產品正在重塑行業。欲知詳情,請訪問https://nvidianews.nvidia.com/ 

 

社群留言

台北旅遊新聞

台北旅遊新聞