截至目前,通信行業(yè)都開(kāi)啟了自己的人工智能業(yè)務(wù),人工智能已經(jīng)成為運營(yíng)商發(fā)力數字化新業(yè)務(wù)的著(zhù)力點(diǎn)。而在平臺AI核心能力層,將產(chǎn)生大量語(yǔ)音、圖像、視頻以及其他結構化數據,算力的進(jìn)步也為深度學(xué)習集群方案提供了后盾支持。
為了提高網(wǎng)絡(luò )運營(yíng)、服務(wù)和管理等全鏈條的智能化水平、運用信息通信技術(shù)更好地支撐和服務(wù)人工智能產(chǎn)業(yè)以及各行業(yè)的智能化轉型。近日,曙光通過(guò)多年通信行業(yè)的深耕經(jīng)驗,以深度學(xué)習集群方案保障高效計算,滿(mǎn)足通信行業(yè)智能語(yǔ)音、市場(chǎng)營(yíng)銷(xiāo)、網(wǎng)絡(luò )智能化、客戶(hù)服務(wù)智能運用等業(yè)務(wù)層需求。
曙光深度學(xué)習集群方案是如何支撐起通信行業(yè)AI智能運用的呢?

深度學(xué)習集群方案架構
從整體來(lái)看
曙光深度學(xué)習集群方案從計算、存儲、網(wǎng)絡(luò )、軟件等部分,組成了合理、符合通信行業(yè)用戶(hù)應用特點(diǎn)、沒(méi)有性能與功能短板的一套集群方案。
從計算層角度
GPU服務(wù)器為深度學(xué)習提供強勁的算力支持。GPU的眾核體系結構包含了大量的流處理器,矢量運算可以并行進(jìn)行,對于矩陣運算的加速效果非常明顯,而深度網(wǎng)絡(luò )在訓練過(guò)程中需要進(jìn)行大量的矩陣運算,這無(wú)疑成了深度模型訓練方面的首選方案之一,利用GPU訓練深度網(wǎng)絡(luò )可以充分的發(fā)揮計算核心的并行計算能力,在海量訓練數據的情況下,耗費時(shí)間短,使用服務(wù)器數量也變得更少。
針對不同深度學(xué)習場(chǎng)景,可以搭載多顆GPU的不同類(lèi)型GPU服務(wù)器,在整個(gè)計算層中成為了的核心計算單元。同時(shí),在計算層中針對集群管理和桌面服務(wù)等非核心計算部分采用通用機架服務(wù)器支撐。
從網(wǎng)絡(luò )層角度
網(wǎng)絡(luò )層主要包括物理網(wǎng)絡(luò )傳輸、集群管理調度、人工智能平臺三個(gè)部分。
- 網(wǎng)絡(luò )傳輸部分,對于深度學(xué)習網(wǎng)絡(luò )模型訓練,除了提供強大計算能力還需要保證PCI-E的傳輸帶寬,對于多機情況,需要能提供更好網(wǎng)絡(luò )帶寬的網(wǎng)絡(luò )設備來(lái)保證整個(gè)系統的數據傳輸效率,減少網(wǎng)絡(luò )數據傳輸帶來(lái)的影響;
- 集群管理調度需要對計算集群整體狀態(tài)和計算節點(diǎn)的實(shí)時(shí)狀態(tài)進(jìn)行監控和分析,并形成實(shí)時(shí)的可視化數據報表;
- 人工智能平臺需要提供對深度學(xué)習開(kāi)發(fā)環(huán)境的快速部署;并要針對深度學(xué)習開(kāi)發(fā),對運算資源按照訓練任務(wù)進(jìn)行分割和分發(fā)。
從存儲層角度
存儲層主要用于存放計算數據,在高性能計算中,數十個(gè)或者上百個(gè)計算節點(diǎn)需要有一個(gè)統一映像的共享存儲,使用并行文件系統把所有的存儲陣列統一為一個(gè)大的存儲,而并行文件系統能夠滿(mǎn)足用戶(hù)需求。針對深度學(xué)習解決方案,曙光ParaStor系列采用分布式集群架構,提供充足的I/O聚合帶寬,存儲系統穩定可靠、具有線(xiàn)性擴展能力。

曙光ParaStor系列
隨著(zhù)物聯(lián)網(wǎng)、5G等通信技術(shù)的應用,連接規模必將指數級地增長(cháng)。當這張連接一切的網(wǎng)絡(luò )和被連接的單元都被賦予智能后,智能化的生產(chǎn)和生活將無(wú)處不在,將給全社會(huì )帶來(lái)天翻地覆的變化和全新的體驗。