世界今亮點！Habana Gaudi2性能穩超英偉達A100，助力實現高效AI訓練

2022-07-05 09:49:24 來源: 電子創新網

MLPerf測試結果驗證了Gaudi2在ResNet和BERT模型訓練時間上的優勢

近日，英特爾宣布Habana? Gaudi?2深度學習處理器在MLPerf行業測試中表現優于英偉達A100提交的AI訓練時間，結果突顯了5月在英特爾On產業創新峰會上發布的Gaudi2處理器在視覺（ResNet-50）和語言（BERT）模型上訓練時間的優勢。

(相關資料圖)

英特爾公司執行副總裁兼數據中心與人工智能事業部總經理 Sandra Rivera表示：“非常高興能與大家分享Gaudi 2在MLPerf基準測試中的出色表現，我也為英特爾團隊在產品發布僅一個月取得的成就感到自豪。我們相信，在視覺和語言模型中提供領先的性能能夠為客戶帶來價值，有助于加速其AI深度學習解決方案。”

借助Habana Labs的Gaudi平臺，英特爾數據中心團隊能夠專注于深度學習處理器技術，讓數據科學家和機器學習工程師得以高效地進行模型訓練，并通過簡單的代碼實現新模型構建或現有模型遷移，提高工作效率的同時降低運營成本。

Habana Gaudi2處理器在縮短訓練時間（TTT）方面相較第一代Gaudi有了顯著提升。Habana Labs于2022年5月提交的Gaudi2處理器在視覺和語言模型訓練時間上已超越英偉達A100-80G的MLPerf測試結果。其中，針對視覺模型ResNet-50，Gaudi2處理器的TTT結果相較英偉達A100-80GB縮短了36%，相較戴爾提交的同樣針對ResNet-50和BERT模型、采用8個加速器的A100-40GB服務器，Gaudi2的TTT測試結果則縮短了45%。

MLCommons發布的數據，2022年6月。https://mlcommons.org/en/training-normal-20/

相比于第一代Gaudi處理器，Gaudi2在ResNet-50模型的訓練吞吐量提高了3倍，BERT模型的訓練吞吐量提高了4.7倍。這些歸因于制程工藝從16納米提升至7納米、Tensor處理器內核數量增加了三倍、增加GEMM引擎算力、封裝的高帶寬存儲容量提升了三倍、SRAM帶寬提升以及容量增加一倍。對于視覺處理模型的訓練，Gaudi2處理器集成了媒體處理引擎，能夠獨立完成包括AI訓練所需的數據增強和壓縮圖像的預處理。

兩代Gaudi處理器的性能都是在沒有特殊軟件操作的情況下通過Habana客戶開箱即用的商業軟件棧實現的。

通過商用軟件所提供的開箱即用性能，在Habana 8個GPU服務器與HLS-Gaudi2參考服務器上進行測試比對。其中，訓練吞吐量來自于NGC和Habana公共庫的TensorFlow docker，采用雙方推薦的最佳性能參數在混合精度訓練模式下進行測量。值得注意的是，吞吐量是影響最終訓練時間收斂的關鍵因素。

圖形測試配置詳見說明部分。

圖形測試配置見說明部分。

除了Gaudi2在MLPerf測試中的卓越表現，第一代Gaudi在128個加速器和256個加速器的ResNet基準測試中展現了強大的性能和令人印象深刻的近線性擴展，支持客戶高效系統擴展。

Habana Labs首席運營官Eitan Medina表示：“我們最新的MLPerf測試結果證明Gaudi2在訓練性能方面顯著優勢。我們將持續深度學習訓練架構和軟件創新，打造最具性價比的AI訓練解決方案?！?/p>

關于MLPerf基準測試：MLPerf社區旨在設計公平且極具實際價值的基準測試，以公平地測量機器學習解決方案的準確度、速度和效率。該社區由來自學術界、研究實驗室和業界的AI領導者創建，他們確立基準并制定了一套嚴格的規則，以確保所有參與者均能夠公平公正地進行性能比對?；谝惶酌鞔_的規則，以及能夠對端到端任務進行公平比較，目前MLPerf是AI行業唯一可靠的基準測試。此外，MLPerf基準測試結果要經過為期一個月的同行評審，這將進一步驗證報告結果。

說明：

ResNet-50性能對比中使用的測試配置

A100-80GB：Habana于2022年4月在Azure實例Standard_ND96amsr_A100_v4上進行測量，使用了一個A100-80GB，其中應用了NGC的TF docker 22.03-tf2-py3（optimizer=sgd, BS=256）

A100-40GB：Habana于2022年4月在DGX-A100上進行測量，使用了一個A100-40GB，其中應用了NGC的TF docker 22.03-tf2-py3（optimizer=sgd, BS=256）

V100-32GB?：Habana于2022年4月在p3dn.24xlarge上進行測量，使用了一個V100-32GB，其中應用了NGC的TF docker 22.03-tf2-py3（optimizer=sgd, BS=256）

Gaudi2：Habana于2022年5月在Gaudi2-HLS系統上進行測量，使用了一個Gaudi2，其中應用了SynapseAI TF docker 1.5.0（BS=256）

結果可能有所不同。

BERT性能對比中使用的測試配置

A100-80GB：Habana于2022年4月在Azure實例Standard_ND96amsr_A100_v4上進行測試，使用了一個A100-80GB，包含NGC的TF docker 22.03-tf2-py3（Phase-1：Seq len=128，BS=312，accu steps=256；Phase-2：seq len=512，BS=40，accu steps=768）

A100-40GB：Habana于2022年4月在DGX-A100上進行測試，使用了一個A100-40GB，包含NGC的TF docker 22.03-tf2-py3（Phase-1：Seq len=128，BS=64，accu steps=1024；Phase-2：seq len=512，BS=16，accu steps=2048）

V100-32GB：Habana于2022年4月在上p3dn.24xlarge進行測試，使用了一個V100-32GB，包含NGC的TF docker 21.12-tf2-py3（Phase-1：Seq len=128，BS=64，accu steps=1024；Phase-2：seq len=512，BS=8，accu steps=4096）

Gaudi2：Habana于2022年5月在上Gaudi2-HLS進行測試，使用了一個Gaudi2，包含SynapseAI TF docker 1.5.0（Phase-1：Seq len=128，BS=64，accu steps=1024；Phase-2：seq len=512，BS=16，accu steps=2048）

結果可能有所不同。

Habana Labs、Habana、Habana標識、Gaudi和SynapseAI是Habana Labs的商標。

+++

關于英特爾

英特爾（NASDAQ: INTC）作為行業引領者，創造改變世界的技術，推動全球進步并讓生活豐富多彩。在摩爾定律的啟迪下，我們不斷致力于推進半導體設計與制造，幫助我們的客戶應對最重大的挑戰。通過將智能融入云、網絡、邊緣和各種計算設備，我們釋放數據潛能，助力商業和社會變得更美好。如需了解英特爾創新的更多信息，請訪問英特爾中國新聞中心intel.cn/content/www/cn/zh/newsroom以及官方網站intel.cn。

關鍵詞：訓練時間基準測試測試結果解決方案數據中心

世界今亮點！Habana Gaudi2性能穩超英偉達A100，助力實現高效AI訓練

您可能也感興趣:

今日熱點

貴陽不斷優化區域創新體系當好強省會行動的科技創新“火車頭”

我國數據基礎制度建設加快各地已積極開展數據交易探索

中國算力大會將于7月29日舉行助力經濟社會數字化轉型

更多

更多

排行

最近更新

今日要聞

世界今亮點！Habana Gaudi2性能穩超英偉達A100，助力實現高效AI訓練

您可能也感興趣:

今日熱點

貴陽不斷優化區域創新體系 當好強省會行動的科技創新“火車頭”

我國數據基礎制度建設加快 各地已積極開展數據交易探索

中國算力大會將于7月29日舉行 助力經濟社會數字化轉型

為您推薦

山東省出臺社會保險援企穩崗措施 拓寬穩崗擴崗補助受益范圍

青海出臺措施健全重特大疾病醫療保險制度 提高大病保險保障能力

深港保險合作進一步合作 兩地保險業發展將獲得更大空間

山西確定社會保險費月繳費基數 上限為17742元

更多

更多

排行

最近更新

今日要聞

世界今亮點！Habana Gaudi2性能穩超英偉達A100，助力實現高效AI訓練

貴陽不斷優化區域創新體系當好強省會行動的科技創新“火車頭”

我國數據基礎制度建設加快各地已積極開展數據交易探索

中國算力大會將于7月29日舉行助力經濟社會數字化轉型

山東省出臺社會保險援企穩崗措施拓寬穩崗擴崗補助受益范圍

青海出臺措施健全重特大疾病醫療保險制度提高大病保險保障能力

深港保險合作進一步合作兩地保險業發展將獲得更大空間

山西確定社會保險費月繳費基數上限為17742元