而近年來(lái),隨著(zhù)互聯(lián)網(wǎng)、大數據、人工智能等新興技術(shù)的興起,企業(yè)中越來(lái)越多的計算密集型場(chǎng)景,也對高性能計算提出了應用需求。
11月19日,在第13屆 HPC China全國高性能計算學(xué)術(shù)年會(huì )上,騰訊云正式發(fā)布騰訊超算云解決方案,以云服務(wù)的方式,讓科研級的高性能計算力,真正從實(shí)驗室走向企業(yè)級應用場(chǎng)景。

騰訊云深度定制云中心高級產(chǎn)品總監吳堅堅
1、來(lái)自云端的高性能計算力
對企業(yè)而言,獲取高性能計算能力一般有兩種形式:
一是自建超算集群,二是租用超算中心的計算資源。
前者存在超算集群建設周期慢、價(jià)格貴、初始投資高、機型不能及時(shí)更新等問(wèn)題;而后者也面臨著(zhù)超算中心資源難尋、計算資源迭代周期長(cháng)、大規模伸縮靈活性欠佳等一系列問(wèn)題。
以云服務(wù)的形式提供高性能計算力則能夠解決這些問(wèn)題。
騰訊超算云提供了集合黑石物理服務(wù)器、云服務(wù)器(CVM)、存儲、網(wǎng)絡(luò )、批量計算(Batch)、深度學(xué)習DI-X平臺等優(yōu)勢產(chǎn)品的云端高性能計算解決方案。
較之企業(yè)過(guò)往獲取高性能計算力的模式,騰訊超算云具備了三大優(yōu)勢:
- 快速可獲取:用戶(hù)可即時(shí)獲取HPC資源并快速擴容,可通過(guò)HPC PaaS平臺按小時(shí)購買(mǎi),也可按月、按季、按年租用專(zhuān)屬HPC集群,減少了集群的建設周期,也不用一次性巨額資金投入。
- 資源靈活配置:使用者可以根據應用需求創(chuàng )建各種配置的 HPC 群集,比如減少GPU服務(wù)器配比,增加FPGA服務(wù)器等。同時(shí)還能在技術(shù)革新后,即時(shí)使用到換代機型,用戶(hù)不用再受限于HPC資源,加快研發(fā)速度,節約研發(fā)成本。
- 高性能硬件:騰訊超算云采用基于英特爾至強可擴展處理器定制機型的黑石服務(wù)器,并針對HPC應用進(jìn)行專(zhuān)門(mén)優(yōu)化,高性能無(wú)虛擬化開(kāi)銷(xiāo)。同時(shí)提供包括NVIDIA P100/V100 GPU機型、FPGA機型等在內的各種異構計算機型,加速多機并行應用,讓?xiě)孟硎茏钚碌挠布铀佟?/li>

同時(shí),騰訊超算云專(zhuān)門(mén)為HPC集群設計了高可用高帶寬和可擴展性強的網(wǎng)絡(luò )架構,大幅提升網(wǎng)絡(luò )性能。其中,騰訊超算云提供40GE/100GE的RDMA網(wǎng)絡(luò ),延時(shí)小于1.5us,還能兼容基于MPI的傳統HPC應用;并提供GPUDirect RDMA功能,使多機多GPU之間的帶寬和延遲性能得到大幅度提升。
此外,為了應對高性能計算對存儲的高標準需求,騰訊超算云提供文件存儲CFS和高性能并行文件系統,其中騰訊云并行文件系統基于騰訊分布式存儲架構,能提供TBps級的吞帶寬和EB級文件系統。
2、滿(mǎn)足多樣化高性能計算場(chǎng)景需求
基于優(yōu)勢基礎能力,騰訊超算云還針對工業(yè)制造(CAD/CAE、碰撞、材料模擬等)、生物基因和人工智能等場(chǎng)景推出基于業(yè)務(wù)流的PaaS平臺和行業(yè)應用的集成,讓客戶(hù)在使用高性能計算服務(wù)時(shí)專(zhuān)注產(chǎn)品研發(fā)和創(chuàng )新,無(wú)需關(guān)注底層集群和調度系統,提升產(chǎn)品研發(fā)效率和上市速度。
汽車(chē)制造中,從汽車(chē)外觀(guān)的流體力學(xué)設計、模擬汽車(chē)碰撞從而得出保護車(chē)內人員的結構設計,都需要高性能計算來(lái)進(jìn)行建模分析。
目前,騰訊超算云中的黑石HPC集群已經(jīng)通過(guò)北京汽車(chē)的“汽車(chē)典型的碰撞模擬和流體力學(xué)計算”場(chǎng)景測試。后續,這種高性能的計算力,將幫助汽車(chē)制造企業(yè)大幅縮減研發(fā)時(shí)間,有效提升企業(yè)效益。
在生物基因領(lǐng)域,基因測序的數據量即將達到EB級別,大量數據需要高效的存儲與管理,也需要的超大規模計算資源能夠按期交付。騰訊超算云的雙螺旋PaaS平臺為基因行業(yè)用戶(hù)提供高性能、低成本、高自動(dòng)化、易管理的整體解決方案,幫助客戶(hù)一鍵完成基因相關(guān)軟件的部署,平臺自動(dòng)調度計算、存儲資源,加速基因分析流程。
諾禾致源利用騰訊超算云精準匹配所需資源,實(shí)現資源快速交付,并節省大量的人力物力;碳云智能則通過(guò)騰訊超算云,實(shí)現在分鐘級別創(chuàng )建動(dòng)輒上千核、數百 TB 的 HPC 集群用以處理海量數據,減少人工投入,極大節約成本。
在人工智能領(lǐng)域,以圖形圖象和音視頻為代表的深度學(xué)習技術(shù)快速發(fā)展,也需要高性能計算力提供支撐。
騰訊優(yōu)圖實(shí)驗室在國際權威海量人臉識別數據庫MegaFace中刷新世界紀錄,在100萬(wàn)級別人臉識別測試中位居榜首,用的就是騰訊超算云提供的黑石HPC集群。
此外,騰訊超算云在石油勘探、地球科學(xué)、物理化學(xué)、圖像渲染等行業(yè)場(chǎng)景下,也有著(zhù)豐富的應用前景。
3、打造開(kāi)放的超算云生態(tài)
在高性能計算領(lǐng)域,騰訊超算云并不滿(mǎn)足于做一個(gè)單獨的解決方案,更希望用開(kāi)放的理念來(lái)建設超算云生態(tài),讓高性能計算力更好地服務(wù)于各行各業(yè)的密集型計算需求。

目前,騰訊云已經(jīng)與英特爾、NVIDIA、Mellanox等硬件提供商達成合作,確保用戶(hù)獲得快速迭代的高性能計算硬件。其中與英特爾合作推出至強可擴展處理器定制的HPC機型,為客戶(hù)提供前所未有的使用體驗,并合作推出Lustre文件系統,兼容原有應用和使用習慣,方便企業(yè)應用的順利上云。
騰訊云還與中國國家網(wǎng)格服務(wù)公司并行科技達成合作,推出部署在騰訊超算云上的HPC PaaS平臺,該PaaS集成工作制造CAE等相關(guān)應用,提供隨租隨用HPC服務(wù),輕松幫助客戶(hù)HPC業(yè)務(wù)云化。
“高性能計算不僅需要強勁的計算力,還需要從應用層針對性地匹配解決方案,才能讓場(chǎng)景更好落地。”騰訊云深度定制云高級產(chǎn)品總監吳堅堅表示,騰訊云還將繼續秉承開(kāi)放的理念發(fā)展騰訊超算云平臺,引入更多的HPC ISV合作伙伴,幫助企業(yè)HPC應用上云,降低使用成本,提高產(chǎn)品研發(fā)效率。