• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 新聞 > 國內 >
     首頁(yè) > 新聞 > 國內 >

    當浪潮FPGA也成為一種服務(wù)、想要AI的你還在顧慮什么

    2017-11-23 10:11:58   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      這幾天,已經(jīng)退役的AlphaGo又強行刷了一波頭條,不是又跟哪位世界高手對決,而是“新狗”通過(guò)無(wú)監督式學(xué)習,僅用3天時(shí)間就戰勝了李世石版的AlphaGo,然后用了21天時(shí)間戰勝了柯潔版本AlphaGo。AlphaGo讓我們真真切切地看到了AI計算的強大。
      目前,在A(yíng)I計算平臺使用最廣泛的兩種加速部件是GPU和FPGA。GPU可適用于具備計算密集、高并行、SIMD(Single Instruction Multiple Data,單指令多數據流)應用等特點(diǎn)的深度學(xué)習訓練模型領(lǐng)域,并且GPU創(chuàng )建了包含CNN、DNN、RNN、LSTM以及強化學(xué)習網(wǎng)絡(luò )等算法在內的應用加速平臺和生態(tài)系統。
      但是,最近FPGA又頻頻被各AI領(lǐng)域的巨頭看好,比如微軟、百度、科大訊飛都對FPGA應用前景有所期待。那么如果讓你選擇FPGA作為AI計算系統的主力軍,你會(huì )有什么樣的顧慮?
      顧慮一:FPGA有啥優(yōu)勢?什么樣的場(chǎng)景更適合FPGA?
      首先,深度學(xué)習包含兩個(gè)計算環(huán)節,即訓練和推理環(huán)節。GPU在深度學(xué)習算法模型訓練上非常高效,但在推理時(shí)對于小批量數據,并行計算的優(yōu)勢不能發(fā)揮出來(lái)。
      而FPGA 同時(shí)擁有流水線(xiàn)并行和數據并行,因此處理任務(wù)時(shí)候延遲更低。例如處理一個(gè)數據包有 10 個(gè)步驟,FPGA 可以搭建一個(gè) 10 級流水線(xiàn),流水線(xiàn)的不同級在處理不同的數據包,每個(gè)數據包流經(jīng) 10 級之后處理完成。每處理完成一個(gè)數據包,就能馬上輸出。通常來(lái)說(shuō),FPGA 加速只需要微秒級的 PCIe 延遲。當Intel 推出通過(guò) QPI快速通道互聯(lián)的 Xeon + FPGA 之后,CPU 和 FPGA 之間的延遲甚至可以降到 100 納秒以下。
      其次,FPGA是可編程芯片,算法燒錄更加靈活。目前來(lái)看,深度學(xué)習算法還未完全成熟,算法還在迭代衍化過(guò)程中,若深度學(xué)習算法發(fā)生大的變化,FPGA是軟件定義硬件,可以靈活切換算法,快速切入市場(chǎng)。
      未來(lái)至少95%的機器學(xué)習計算都是用于推斷,只有不到5%是用于模型訓練,而FPGA正是強在推斷。大幅提升推斷效率的同時(shí),還能最小限度損失精確性,這正是FPGA的強項。
      顧慮二:FPGA的計算性能能不能滿(mǎn)足我的需求?
      與CPU和GPU不同,FPGA是一種典型的非諾依曼架構,是硬件適配軟件的模式,它能夠根據系統資源和算法特征靈活的調整并行度,達到最優(yōu)的適配,因此能效比高于CPU和GPU。
      以浪潮F10A為例,這是目前業(yè)界支持OpenCL的最高密度最高性能的FPGA加速設備,基于A(yíng)ltera的Arria 10芯片,單芯片峰值運算能力達到了1.5TFlops,功耗卻只需35W,每瓦特性能達到42GFlops。同時(shí),F10A設計為高密度的半高半長(cháng)PCI-E插卡,同時(shí)具有靈活的板卡內存配置,最大支持32G雙通道內存,是業(yè)內同等FPGA卡內存容量的4-8倍。此外,F10A支持2個(gè)10Gb光口,可以實(shí)現數據直接從網(wǎng)絡(luò )到板卡處理,無(wú)需經(jīng)過(guò)CPU,大大減低了傳輸延時(shí)。
      測試數據顯示,在語(yǔ)音識別應用下,浪潮F10A較CPU性能加速2.87倍,而功耗相當于CPU的15.7%,性能功耗比提升18倍。
      顧慮三:FPGA的開(kāi)發(fā)周期得1年以上吧,這不能滿(mǎn)足我的業(yè)務(wù)上線(xiàn)需求?
      傳統的FPGA的開(kāi)發(fā)類(lèi)似于芯片的開(kāi)發(fā),采用硬件描述語(yǔ)言(HDL)開(kāi)發(fā),HDL開(kāi)發(fā)帶來(lái)的問(wèn)題就會(huì )像芯片設計一樣周期會(huì )比較長(cháng),從架構設計、到仿真驗證、再到最終完成,需要一年左右的開(kāi)發(fā)時(shí)間。
      但是互聯(lián)網(wǎng)的業(yè)務(wù)迭代速度極快,在幾個(gè)月時(shí)間內就可能完成龐大用戶(hù)群的積累,因此業(yè)務(wù)對于數據中心的要求是“快”—計算力平臺的升級要盡量快地滿(mǎn)足業(yè)務(wù)的發(fā)展,因此FPGA的傳統開(kāi)發(fā)模式動(dòng)輒以半年或年為單位的開(kāi)發(fā)周期難以滿(mǎn)足需求。
      為此浪潮嘗試通過(guò)OpenCL高級語(yǔ)言開(kāi)發(fā)方式,它把底層的硬件如總線(xiàn)、IO接口、訪(fǎng)存控制器等和底層軟件如驅動(dòng)、函數調用等全部封裝,變成標準單元提供上層支持,用戶(hù)只需要關(guān)注算法本身,OpenCL開(kāi)發(fā)的邏輯通過(guò)編譯工具直接映射到FPGA中,開(kāi)發(fā)周期從至少1年縮短至4個(gè)月以?xún)取?/div>
      顧慮四:對于O經(jīng)驗的公司,怎樣快速上線(xiàn)FPGA應用?
      或許你還是有些顧慮,即時(shí)開(kāi)發(fā)效率大幅提升、開(kāi)發(fā)周期大大縮短,但是對于技術(shù)和團隊儲備不足的中小型AI企業(yè)來(lái)說(shuō),FPGA仍是“高不可攀”的AI加速部件。
      如果,有一種方案能夠將軟件、算法和硬件板卡整合,以軟硬一體化的形式,提供FaaS(FPGA as a Service)服務(wù)。你還有什么顧慮么?
      目前,浪潮正在針對市場(chǎng)上需求最迫切的幾種應用場(chǎng)景進(jìn)行算法的移植開(kāi)發(fā),在圖像壓縮、文本數據壓縮及神經(jīng)網(wǎng)絡(luò )加速等應用開(kāi)發(fā)出業(yè)界領(lǐng)先的IP,省去客戶(hù)的算法開(kāi)發(fā)周期,最小化FPGA落地門(mén)檻、最大化FPGA落地效率。
    • 神經(jīng)網(wǎng)絡(luò )加速方案:基于浪潮F10A的AI線(xiàn)上推理加速方案,針對CNN卷積神經(jīng)網(wǎng)絡(luò )的相關(guān)算法進(jìn)行優(yōu)化和固化,可加速ResNet等神經(jīng)網(wǎng)絡(luò ),能夠應用于圖片分類(lèi)、對象檢測和人臉識別等應用場(chǎng)景。
      實(shí)測數據顯示,在進(jìn)行ResNet殘差網(wǎng)絡(luò )的圖片識別分類(lèi)任務(wù)時(shí),浪潮F10A加速方案圖片處理速度可達每秒742張,Top-5識別準確率達到99.6%,相比同檔次GPU能效比提升3倍以上。而與通用CPU對比,在處理這種高并行、小計算量的任務(wù)時(shí),F10A的優(yōu)勢將更明顯。
    • WebP圖片轉碼壓縮加速方案:針對圖片數據的壓縮應用,嵌入基于FPGA計算環(huán)境下的WebP編解碼優(yōu)化算法,通過(guò)充分利用硬件流水設計和任務(wù)級并行,大大提升WebP圖像壓縮編碼算法的處理性能,能夠實(shí)現JPEG-WebP圖片格式的快速轉換,比傳統實(shí)現方式的整體處理效率平均高9.13倍左右,最高性能可比CPU提高14倍。
      數據壓縮加速方案:為解決傳統壓縮架構的弊端,浪潮GZip算法加速方案充分利用板卡硬件流水設計和任務(wù)級并行,大幅提升了壓縮任務(wù)的吞吐量并有效降低CPU的負載,壓縮率(壓縮率=1-壓縮后文件/壓縮前文件)最高可達94.8%,壓縮速度達到1.2GB/s,10倍于傳統方案的壓縮效率。
      顧慮五:我是做云的,FPGA咋管理?支持虛擬機么?
      FaaS不僅僅是指板卡與軟件算法的一體化服務(wù),同時(shí)還可以支持公有云及在線(xiàn)遠程管理和更新。浪潮FPGA解決方案能夠支持動(dòng)態(tài)邏輯的在線(xiàn)可重構、靜態(tài)邏輯的遠程更新,并且通過(guò)優(yōu)化的監控管理機制,提升板卡遠程監控管理的可靠性,通過(guò)它們可以實(shí)時(shí)的監控FPGA芯片的溫度、板卡風(fēng)扇轉速、板卡內存特性等從而調整FPGA的工作頻率。
      同時(shí)浪潮FPGA也支持虛擬機的直接訪(fǎng)問(wèn),板卡本身也加入了很多RAS(可靠性、可用性、可擴展性)特性,如高可靠?jì)却嬖L(fǎng)問(wèn)等,支持并行(FPP)和串行(AS)雙加載模式,任何一種模式加載出現故障,都可以快速切換到另一種模式加載,保證了板卡大規模服務(wù)的可用性。
      有了這些特性,就可以利用浪潮FPGA方案,快速搭建FPGA云所需要的基礎底層計算平臺,不論是對外提供公有云服務(wù),還是對內實(shí)現FPGA計算力快速分配都能夠既高效又可靠。
      顧慮六:我可不想當小白鼠,有誰(shuí)用過(guò)了?
      對于FPGA這種新興的AI計算設備,“觀(guān)望”往往是明智的選擇,畢竟不是每家公司都想要作為新技術(shù)的小白鼠,而當有第一個(gè)吃螃蟹的人出現后,“跟進(jìn)”則成為“飛豬”的必然之路。
      目前,浪潮FPGA已經(jīng)在百度、阿里巴巴、騰訊、網(wǎng)易、科大訊飛取得批量的落地應用或深度測試,FPGA在人工智能線(xiàn)上推理的能效優(yōu)勢已經(jīng)得到大部分互聯(lián)網(wǎng)和AI公司的認可。
      那么,FPGA可以應用在哪些領(lǐng)域?我們可以聽(tīng)聽(tīng)騰訊云FPGA團隊負責人怎么說(shuō):
      在機器學(xué)習領(lǐng)域、金融領(lǐng)域、大數據領(lǐng)域、基因檢測領(lǐng)域都存在比較大的數據量需要分析計算,這些是FPGA可以發(fā)揮高吞吐優(yōu)勢的領(lǐng)域。
      網(wǎng)絡(luò )安全領(lǐng)域有更安全、更低延時(shí)的需求,這些場(chǎng)景也可以發(fā)揮FPGA低延時(shí)的優(yōu)勢。
      超大規模圖像處理,這些圖片的處理都使用FPGA來(lái)進(jìn)行處理加速,都可以得到滿(mǎn)意的效果。
      現在比較熱門(mén)的自然語(yǔ)言處理和語(yǔ)音識別這些也都是FPGA可以發(fā)揮優(yōu)勢的場(chǎng)景。
      當FPGA成為一種計算力服務(wù),有著(zhù)高效的硬件、成熟的IP和云化管理,你還在顧慮什么?
      浪潮擁有國內領(lǐng)先的FPGA軟硬件開(kāi)發(fā)團隊,浪潮正聯(lián)合Intel及BAT、科大訊飛、網(wǎng)易等AI領(lǐng)先企業(yè)深入研發(fā)基于FPGA的通用系統方案,包括深度學(xué)習、網(wǎng)絡(luò )加速、存儲優(yōu)化等,并將方案推廣到其它應用領(lǐng)域和客戶(hù)。未來(lái),CPU+FPGA或許將作為新的異構加速模式,被越來(lái)越多的應用領(lǐng)域采用。
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 明溪县| 平和县| 嵩明县| 南京市| 余江县| 白水县| 两当县| 凯里市| 南雄市| 嘉禾县| 盐津县| 横峰县| 德格县| 罗甸县| 南开区| 益阳市| 高青县| 蓬莱市| 宁城县| 新绛县| 奇台县| 惠来县| 孙吴县| 石阡县| 金溪县| 周至县| 寿光市| 晋宁县| 芮城县| 济宁市| 景泰县| 连云港市| 万源市| 黄浦区| 伊春市| 富阳市| 嘉定区| 蛟河市| 蒙城县| 高要市| 永康市| http://444 http://444 http://444 http://444 http://444 http://444