NVIDIA日前宣布在語(yǔ)言理解方面取得了突破性成果,令企業(yè)能夠以更加自然的方式,使用實(shí)時(shí)會(huì )話(huà)AI與客戶(hù)進(jìn)行互動(dòng)。

BERT是當前最先的AI語(yǔ)言模型之一,NVIDIA借助其AI平臺率先將BERT的訓練時(shí)間控制在一小時(shí)之內,并以?xún)H比2毫秒多一點(diǎn)的時(shí)間完成了AI推理。這種具有突破性的性能水平能夠讓開(kāi)發(fā)者將先進(jìn)的語(yǔ)言理解技術(shù)應用于大型應用程序之上,為全球數億消費者提供服務(wù)。
早期采用NVIDIA性能提升技術(shù)的公司中包括Microsoft,平安科技以及全球范圍內一些最具創(chuàng )新性的初創(chuàng )公司。借助于NVIDIA平臺,這些公司為客戶(hù)開(kāi)發(fā)了高度直觀(guān)、響應即時(shí)且基于語(yǔ)言的服務(wù)。
有限的會(huì )話(huà)AI服務(wù)已經(jīng)存在多年。但由于此前無(wú)法實(shí)現超大型AI模型的實(shí)時(shí)部署,聊天機器人、智能個(gè)人助理和搜索引擎的理解能力很難達到與人類(lèi)相當的水平。然而,NVIDIA通過(guò)在其AI平臺中添加關(guān)鍵性的優(yōu)化功能,將此問(wèn)題迎刃而解,在A(yíng)I訓練和推理方面都創(chuàng )造了新的速度紀錄,并構建了迄今為止同類(lèi)型中最大的語(yǔ)言模型。
NVIDIA深度學(xué)習應用研究副總裁Bryan Catanzaro表示:“對于適用于自然語(yǔ)言的AI而言,大型語(yǔ)言模型正在為其帶來(lái)革新。它們正在幫助我們解決那些最為棘手的語(yǔ)言問(wèn)題,讓我們距離實(shí)現真正的會(huì )話(huà)AI更進(jìn)了一步。NVIDIA所取得的突破性工作成果加速了這些模型的創(chuàng )建,讓企業(yè)能夠打造全新的高質(zhì)量服務(wù),以前所未有的方式服務(wù)客戶(hù),為其帶來(lái)愉快的客戶(hù)體驗。”
最快的訓練速度、最短的推理時(shí)間和最大的模型規模
預計未來(lái)幾年,基于自然語(yǔ)言理解的AI服務(wù)將呈指數級增長(cháng)。根據Juniper Research的研究表明,在未來(lái)4年中,僅數字語(yǔ)音助手的數量就將有望從25億攀升到80億。此外,據Gartner預計,到2021年,15%的客服互動(dòng)都將完全通過(guò)AI完成,相比于2017年,將增長(cháng)4倍。
在引領(lǐng)這個(gè)新時(shí)代的過(guò)程中,NVIDIA對其AI平臺進(jìn)行了多項關(guān)鍵性?xún)?yōu)化,從而創(chuàng )造了三項新的自然語(yǔ)言理解性能記錄:
最快的訓練速度:BERT(Bidirectional Encoder Representationsfrom Transformers)是世界上最先進(jìn)的AI語(yǔ)言模型之一。NVIDIA使用搭載了92臺NVIDIA DGX-2H系統的NVIDIA DGX SuperPOD運行該模型的大型版本,憑借1472個(gè)NVIDIA V100 GPU的強大性能,NVIDIA將BERT-Large的典型訓練時(shí)間從幾天縮短至僅僅53分鐘。此外,NVIDIA還在單獨一臺NVIDIA DGX-2系統上執行了BERT-Large模型的訓練任務(wù),用時(shí)也僅為2.8天,這充分體現了NVIDIA GPU在會(huì )話(huà)AI方面的可擴展性。
最短的推理時(shí)間:借助于運行了NVIDIA TensorRT的NVIDIA T4 GPU,NVIDIA執行BERT-BaseSQuAD數據集的推理任務(wù),用時(shí)僅為2.2毫秒,遠低于許多實(shí)時(shí)應用程序所需的10毫秒處理閾值,與使用高度優(yōu)化的CPU代碼時(shí)所測得的40多毫秒相比,有著(zhù)顯著(zhù)改進(jìn)。
最大的模型規模:開(kāi)發(fā)者們對于更大模型的需求正在日益增長(cháng),NVIDIA研究團隊基于Transformer構建并訓練了世界上最大的語(yǔ)言模型,Transformer是BERT的技術(shù)構件,也正被越來(lái)越多的其他自然語(yǔ)言AI模型所使用。NVIDIA定制的模型包含83億個(gè)參數,是BERT-Large的24倍。
生態(tài)系統的采用情況
全球數以百計的開(kāi)發(fā)者都已使用NVIDIA的AI平臺,來(lái)推進(jìn)他們自己的語(yǔ)言理解研究并創(chuàng )建新的服務(wù)。
Microsoft Bing正在利用其AzureAI平臺和NVIDIA技術(shù)的強大功能來(lái)運行BERT,并使搜索結果更為準確。
Microsoft Bing部門(mén)項目經(jīng)理Rangan Majumder說(shuō):“Microsoft Bing依靠最先進(jìn)的AI模型和計算平臺,為我們的客戶(hù)提供最好的全球搜索體驗。通過(guò)與NVIDIA密切合作,Bing使用NVIDIA GPU(AzureAI基礎設施的一部分)進(jìn)一步優(yōu)化了熱門(mén)自然語(yǔ)言模型BERT的推理功能,從而大幅提升了Bing于去年部署的排名搜索的搜索質(zhì)量。與基于CPU的平臺相比,使用Azure NVIDIA GPU進(jìn)行推理,延遲降低了一半,吞吐量提升了5倍,這使得Bing能夠為全球所有客戶(hù)提供更加專(zhuān)業(yè)、更具成本效益且更實(shí)時(shí)的搜索體驗。”
在中國,基于GPU加速的BERT已經(jīng)陸續在搜索引擎、廣告系統、內容推薦、智能客服等實(shí)際應用中發(fā)揮重要作用。
平安集團——世界500強第29位,金融機構第4位——旗下平安科技,覆蓋金融、醫療、汽車(chē)、房產(chǎn)、智慧城市五大生態(tài)圈,其人工智能解決方案服務(wù)超過(guò)5億用戶(hù)。目前平安科技已經(jīng)將基于Occam平臺訓練加速的BERT部署到在線(xiàn)客服問(wèn)答系統上,未來(lái)會(huì )在更多的應用場(chǎng)景中使用。
平安集團首席科學(xué)家肖京博士表示,“平安科技率先采用先進(jìn)AutoML技術(shù)打造一鍵式開(kāi)發(fā)Occam平臺,在NVIDIA研發(fā)的Fast Transformer的助力下,Occam以零算法基礎和少量數據即可實(shí)現訓練高精度機器學(xué)習模型為核心,結合SaaS、PaaS與微服務(wù)架構的思想,為各行各業(yè)提出適應性的解決方案。區別于其他的AutoML平臺,Occam平臺更具精準高效的自動(dòng)模型訓練能力,在保證模型精度的情況下,能夠縮短模型訓練的研發(fā)周期;同時(shí)在訓練模型的推理能力上更勝一籌,因此在最具挑戰的自然語(yǔ)言處理技術(shù)領(lǐng)域,平安科技憑借Occam平臺能夠獨占鰲頭,為營(yíng)銷(xiāo)、運營(yíng)、風(fēng)控、決策、服務(wù)、預測等各種智能場(chǎng)景業(yè)務(wù)提供支持。”
“我們用了NVIDIA最新的Faster Transformer改造的PA-Occam-BERT。實(shí)現了在NVIDIAGPU上相較CPU系統,10倍以上的延遲提升,和20倍以上吞吐提升,正因如此,平安科技能夠以最短的時(shí)間,最低的成本訓練出最精準、最具推理能力的PA-Occam-BERT模型,在Stanford DAWN Bench SQuAD 2.0問(wèn)答推理延遲競賽中獲得冠軍,這一成績(jì)讓我們有信心未來(lái)在更多業(yè)務(wù)線(xiàn)上部署基于GPU的PA-Occam-BERT,實(shí)現技術(shù)的快速落地。”平安科技副總工程師、Occam平臺技術(shù)總監王健宗博士表示。
NVIDIA初創(chuàng )加速計劃中也有多家初創(chuàng )公司(例如:Clinc、PassageAI和Recordsure等)正在使用NVIDIA的AI平臺為銀行、汽車(chē)制造商、零售商、醫療服務(wù)提供商、旅行社和酒店等客戶(hù)構建先進(jìn)的會(huì )話(huà)AI服務(wù)。
Clinc已通過(guò)客戶(hù)名冊,使全球3000多萬(wàn)人可以使用NVIDIAGPU支持的會(huì )話(huà)AI解決方案。這些客戶(hù)包括領(lǐng)先的汽車(chē)制造商、醫療健康組織和一些全球頂級金融機構,例如:Barclays、USAA和土耳其最大的銀行Isbank。
Clinc首席執行官Jason Mars說(shuō):“Clinc領(lǐng)先的AI平臺能夠理解復雜的問(wèn)題,并將其轉化為功能強大、切實(shí)可行的洞察,以服務(wù)于這些全球領(lǐng)先的品牌。借助NVIDIAAI平臺提供的突破性性能,我們能夠突破會(huì )話(huà)AI的界限并提供革命性服務(wù),讓我們的客戶(hù)能夠借助于先進(jìn)的技術(shù),以更強大、更有意義的方式與客戶(hù)進(jìn)行互動(dòng)。”
目前提供的優(yōu)化
NVIDIA已為開(kāi)發(fā)者提供了多項用于實(shí)現會(huì )話(huà)AI突破的軟件優(yōu)化:
- 使用PyTorch的NVIDIA GitHub BERT訓練代碼
- 適用于TensorFlow的NGC模型腳本和檢查點(diǎn)
- GitHub上TensorRT經(jīng)過(guò)優(yōu)化的BERT樣本
- 速度更快的Transformer:C++API、TensorRT插件和TensorFlow OP
- MXNetGluon-NLP,帶面向BERT的AMP支持(訓練和推理)
- AIHub上TensorRT經(jīng)過(guò)優(yōu)化的BERT Jupyter Notebook
- Megatron-LM:用于訓練大型Transformer模型的PyTorch代碼
- NVIDIA所采用的BERT是熱門(mén)存儲庫HuggingFace中的一個(gè)優(yōu)化版本