• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 國內 >
     首頁(yè) > 資訊 > 國內 >

    Habana Gaudi 加速器首次運用于A(yíng)mazon EC2云

    2021-11-22 09:53:35   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      近日AWS宣布將推出采用Habana Gaudi AI加速器的Amazon EC2 DL1.24xlarge實(shí)例。這是AWS首個(gè)不基于GPU的AI訓練實(shí)例。
      AWS首席執行官Andy Jassy在2020 re:Invent和AWS最近宣布實(shí)例應用的活動(dòng)上,介紹了創(chuàng )建這一新型訓練實(shí)例類(lèi)的初衷:“為終端客戶(hù)提供比目前這一代基于GPU的實(shí)例性?xún)r(jià)比提升40%的新實(shí)例。”
      以下詳述Gaudi在常用計算機視覺(jué)和自然語(yǔ)言處理工作量方面具備的成本效益。
      AWS針對EC2 DL1實(shí)例以及基于GPU的p4d、p3dn和p3實(shí)例發(fā)布了DL1按需每小時(shí)定價(jià),終端用戶(hù)可以通過(guò)一種簡(jiǎn)單的方法來(lái)自行評估性?xún)r(jià)比。采用Nvidia在NGC上以及Habana在軟件Vault中提供的最新TensorFlow Docker容器,并分別在不同實(shí)例上運行這些容器,可比較訓練吞吐量和每小時(shí)定價(jià)。
      不同的模型提供的結果不同,而且Gaudi上目前也并非支持所有模型。在本次評估中,我們考慮的是兩種常用模型:ResNet-50和BERT-Large。
      以下表格例舉在各種實(shí)例類(lèi)型上訓練TensorFlow ResNet-50的訓練吞吐量、每小時(shí)定價(jià)和計算出的吞吐量/美元(即百萬(wàn)張圖像/美元)。以p4d.24xlarge實(shí)例上設置的性?xún)r(jià)比為基準,我們可計算出對于此工作量,其他每種實(shí)例類(lèi)型的相對值,以及DL1為目前使用基于GPU實(shí)例的EC2終端客戶(hù)所節省的相應成本百分比。
      
      根據Habana對各種EC2實(shí)例的測試結果以及Amazon發(fā)布的定價(jià),相比p4d實(shí)例,DL1能節省44%的ResNet-50訓練成本。對于p3dn最終用戶(hù),ResNet-50的訓練成本可節省69%。
      Habana認識到MLPerf性能基準測試的重要性,用戶(hù)可以查找在6月份發(fā)布的針對8個(gè)基于Gaudi的系統進(jìn)行基準測試的1.0提交結果 - 與DL1.24xlarge非常類(lèi)似。在此次MLPerf提交結果中,Habana并沒(méi)有應用數據封裝或層融合等額外的軟件優(yōu)化功能來(lái)提高性能。我們的目標是提交的結果與參考代碼最接近,并能代表客戶(hù)使用目前的SynapseAI TensorFlow軟件可以獲得的即時(shí)可用性能。因此,客戶(hù)能輕松對模型進(jìn)行小幅調整(更改數據、切換層等),同時(shí)保持性能相差無(wú)幾。在TensorFlow上測得的MLPerf TTT結果與早期客戶(hù)現在看到的訓練吞吐量相似。
      雖然每個(gè)實(shí)例的絕對吞吐量有所下降,但基于Gaudi的EC2 DL1定價(jià)遠低于p4d。這是怎么做到的呢?盡管基于16nm和HBM2的Gaudi封裝的晶體管數量不如基于7nm和HBM2e的A100 GPU那么多,但Gaudi的架構以效率為宗旨進(jìn)行了全新設計,相較于GPU架構,Gaudi架構的資源利用率更高,包含的系統組件更少。結果,系統成本下降,從而為最終用戶(hù)提供更低價(jià)格。
      在語(yǔ)言模型中,Gaudi與GPU的性?xún)r(jià)比提升幅度不如視覺(jué)模型,相比p4d,成本節省了10%,相比p3dn,成本節省了54%。BERT-Large是目前常用的一種模型,使用第1階段中的吞吐量來(lái)代表用戶(hù)可以自行測量的性能。下面是在實(shí)際EC2實(shí)例上使用Nvidia的NGC中以及Habana的Vault和GitHub中發(fā)布的最新即時(shí)可用容器和模型超參數針對TensorFlow所測得的結果。
     
      Habana提交的MLPerf BERT結果代表了客戶(hù)通過(guò)目前的SynapseAI? TensorFlow軟件可獲得的即時(shí)可用性能。因此,客戶(hù)可能輕松對模型進(jìn)行小幅調整,同時(shí)保持性能相差無(wú)幾。
      NVIDIA在MLPerf BERT提交結果中采用了一系列優(yōu)化功能,這些功能在其已發(fā)布的軟件中未提供,也很難用于一般用途。例如,他們將整個(gè)multi-head attention block融合到單一內核中。如果客戶(hù)希望對長(cháng)序列使用不同的attention,他們將不得不更改內核,否則會(huì )導致性能下降。NVIDIA還使用了在其標準軟件分發(fā)中未提供的自定義數據加載技術(shù)。
      將A100與DL1在NGC提供的最新Tensorflow AMI(基于21.06-tf1-py3 NGC Docker容器)上的BERT性能進(jìn)行對比,從中可以看出就算是對于BERT也能節省成本。Habana計劃下個(gè)月向MLPerf提交對BERT實(shí)施軟件優(yōu)化后的結果,其中將證明相比5月份的提交結果,性能有顯著(zhù)提高。
      Gaudi的價(jià)值主張立足于性?xún)r(jià)比和易用性。Habana提供的架構選項旨在提升效率,不會(huì )讓終端用戶(hù)遷移到Gaudi的工作產(chǎn)生困難。
      如果您有興趣了解提前獲得Gaudi訪(fǎng)問(wèn)權限的開(kāi)發(fā)人員對Gaudi和DL1的看法,請參閱Habana專(zhuān)題介紹Amazon EC2 DL1實(shí)例的產(chǎn)品頁(yè)面,其中引述了Seagate、Riskfuel、Leidos 等公司相關(guān)人員的想法。
      “我們預計,搭載Habana Gaudi加速器的Amazon EC2 DL1實(shí)例所具備的顯著(zhù)性?xún)r(jià)比優(yōu)勢,在未來(lái)很可能會(huì )成為AWS計算集群的有力補充,”Seagate高級分析部運營(yíng)與技術(shù)高級分析工程總監Darrell Louder表示:“隨著(zhù)Habana Labs的不斷發(fā)展,支持的運營(yíng)商覆蓋范圍越來(lái)越大,有潛力擴展來(lái)支持更多的企業(yè)用例,從而進(jìn)一步節省成本。”
      “AI和深度學(xué)習是我們機器視覺(jué)能力的核心,有助于客戶(hù)在我們服務(wù)的各個(gè)行業(yè)中做出更好的決策。為了提高準確性,數據集變得越來(lái)越大,越來(lái)越復雜,因此需要更大、更復雜的模型。這就推動(dòng)了提高計算性?xún)r(jià)比的需求,”Fractal集團首席執行官Srikanth Velamakanni說(shuō):“與基于GPU的EC2實(shí)例相比,新的Amazon EC2 DL1實(shí)例承諾能顯著(zhù)降低訓練成本。我們預計,對于廣泛的客戶(hù)來(lái)說(shuō),這一優(yōu)點(diǎn)將使云端的AI模型訓練無(wú)論在成本競爭力還是可訪(fǎng)問(wèn)性方面都較以往有大幅提升。”
      Leidos衛生與公共服務(wù)部首席技術(shù)官Chetan Paul表示:“目前我們支持推動(dòng)醫療保健進(jìn)步的眾多技術(shù)中,其中一項技術(shù)是使用機器學(xué)習和深度學(xué)習基于醫學(xué)成像數據對疾病進(jìn)行診斷。我們的海量數據集需要及時(shí)、高效的訓練,為苦心鉆研一些最亟待解決的醫學(xué)謎題的研究人員提供幫助。由于Leidos及其客戶(hù)需要對深度學(xué)習模型進(jìn)行快速簡(jiǎn)單而又經(jīng)濟高效的訓練,我們很高興與英特爾和AWS攜手,共同踏上基于Habana Gaudi AI處理器的Amazon EC2 DL1實(shí)例的發(fā)展之旅。使用DL1實(shí)例后,我們預計模型訓練速度和效率都會(huì )有所提升,進(jìn)而降低研發(fā)風(fēng)險和成本。”
      Riskfuel首席執行官Ryan Ferguson表示:“有兩個(gè)因素吸引我們采用基于Habana Gaudi AI加速器的Amazon EC2 DL1實(shí)例。一是我們希望確保銀行和保險業(yè)客戶(hù)可以運行利用了最新硬件的Riskfuel模型。幸運的是,我們發(fā)現將模型遷移到DL1實(shí)例非常簡(jiǎn)單 — 實(shí)際上,只需更改幾行代碼即可。二是訓練成本在我們的支出中占主要部分,高達40%的性?xún)r(jià)比提升承諾對我們的利潤有著(zhù)潛在的實(shí)質(zhì)性好處。”
      如今,我們的參考模型存儲庫中有20種高需求模型,我們已經(jīng)制定了路線(xiàn)圖,計劃對這些模型以及軟件功能進(jìn)行擴展。您也可以在Habana的GitHub上查看對所有人開(kāi)放的該路線(xiàn)圖。
      開(kāi)發(fā)者之旅始于SynapseAI SDK。SDK的詳細信息在此不再贅述;如果您想了解SDK的更多信息,請查看我們的文檔頁(yè)面。SynapseAI?軟件產(chǎn)品組合旨在促進(jìn)基于Habana Gaudi加速器的高性能深度學(xué)習訓練。它包括Habana圖形編譯器和運行時(shí)、TPC內核庫、固件和驅動(dòng)程序以及開(kāi)發(fā)人員工具,如用于自定義內核開(kāi)發(fā)的Habana分析器和TPC SDK。
      SynapseAI與TensorFlow和PyTorch框架相集成。與Gaudi PyTorch集成相比,TensorFlow集成更加成熟,因為后者的開(kāi)發(fā)時(shí)間比前者晚了半年。
      因此,相較于Habana在TensorFlow模型的表現,Habana 在PyTorch模型上的性能略低(吞吐量和訓練時(shí)間)。在SynapseAI用戶(hù)指南中以及GitHub上的參考模型中記錄了已知限制。此外,還在Habana開(kāi)發(fā)人員網(wǎng)站上發(fā)布了參考模型的性能結果。Habana團隊致力于在后續發(fā)行版中不斷提升易用性和性能。
      我們十分清楚,在進(jìn)一步開(kāi)發(fā)軟件和模型覆蓋范圍方面還有很多工作要做,將依靠數據研究人員和開(kāi)發(fā)人員來(lái)探索Gaudi,并向我們提供相應的反饋和請求。期待通過(guò)開(kāi)發(fā)人員站點(diǎn)和GitHub,對于云端(通過(guò) Amazon EC2 DL1 實(shí)例)和本地使用Gaudi的問(wèn)題與DL社區進(jìn)行互動(dòng)。
      下一步,在軟件方面還有很多工作要做,與此同時(shí) — Habana 正在開(kāi)發(fā)下一代Gaudi2 AI處理器,新一代處理器將Gaudi架構從16nm提升到7nm,進(jìn)一步提高了性?xún)r(jià)比,造福于終端客戶(hù),同時(shí)保持相同的架構,并充分利用Gaudi構建的相同SynapseAI軟件和生態(tài)系統。
      目前,Habana團隊對通過(guò)基于Gaudi的Amazon EC2 DL1實(shí)例,為AI提供AWS云中最具成本效益的訓練感到滿(mǎn)意。
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 台州市| 蒙山县| 肇源县| 恩施市| 报价| 五常市| 柯坪县| 读书| 克东县| 通江县| 措勤县| 墨玉县| 江安县| 房产| 安多县| 民和| 贵南县| 南川市| 新巴尔虎右旗| 宁国市| 南通市| 台北市| 淮南市| 志丹县| 海阳市| 东乌| 常熟市| 宜黄县| 新兴县| 莲花县| 盐亭县| 崇信县| 扬州市| 北流市| 宜州市| 宜州市| 武冈市| 红原县| 黄平县| 黄冈市| 麻城市| http://444 http://444 http://444 http://444 http://444 http://444