Nvidia發(fā)布了用于高性能深度學(xué)習推理的新版本TensorRT軟件平臺,以強化自己的人工智能戰略。

TensorRT是一個(gè)將高性能深度學(xué)習推理優(yōu)化器與運行時(shí)相結合的平臺,可為AI應用提供低延遲、高吞吐量的推理。
推理是AI的一個(gè)重要方面,AI訓練涉及算法理解數據集的能力演化,而推理是指AI能夠對這些數據進(jìn)行操作以推斷特定查詢(xún)的答案。
新版本的TensorRT在性能方面有了顯著(zhù)改善,包括大幅縮短了在最先進(jìn)AI語(yǔ)言模型之一——Bidirectional Encoder Representations from Transformers -Large(BERT-Large)——上的推理時(shí)間。眾所周知,BERT-Large是一種自然語(yǔ)言處理訓練方法,涉及在大型文本語(yǔ)料庫(如維基百科)上訓練通用語(yǔ)言理解模型,然后把該模型作為下游NLP任務(wù)的基礎,例如回答人們的問(wèn)題。
Nvidia表示,TensorRT6新增的優(yōu)化功能可以將B44與T4GPU的算法推理時(shí)間縮短至5.8毫秒,低于之前的10毫秒性能閾值。
Nvidia表示,這次改進(jìn)的性能足夠高,使得BERT可以被企業(yè)首次部署到生產(chǎn)環(huán)境中。傳統觀(guān)點(diǎn)認為,應該在不到10毫秒的時(shí)間內執行NLP模型,才能提供自然的、引人入勝的體驗。
Nvidia表示,還對該平臺進(jìn)行了優(yōu)化,加速了對于語(yǔ)音識別、醫療應用3D圖像分割、工業(yè)自動(dòng)化中基于圖像的應用相關(guān)任務(wù)的推斷。
Nvidia表示,TensorRT6還增加了對動(dòng)態(tài)輸入批大小的支持,這有助于加速AI應用,例如計算需求波動(dòng)的在線(xiàn)服務(wù)等。TensorRT Open Source Repository也有升級,新增的訓練樣本有助于加快基于語(yǔ)言和圖像的應用的推斷。
Constellation Research分析師Holger Mueller表示,這次改進(jìn)很及時(shí),因為會(huì )話(huà)AI平臺的競爭正在全面展開(kāi)。
“但是Nvidia仍然需要解決下一代應用的本地部署問(wèn)題,除非它設法將TensorRT平臺變成公有云。在這方面Nvidia有很好的經(jīng)驗,但需要一定的時(shí)間才能實(shí)現。”
Nvidia表示,現在已經(jīng)可以通過(guò)產(chǎn)品頁(yè)面下載TensorRT6平臺。