
雖然從2014年開(kāi)始,就已經(jīng)出現MLOps的實(shí)踐案例,但這套AI協(xié)作的概念兩年前被重新定義,形成一股AI開(kāi)發(fā)新趨勢吹進(jìn)全球。
MLOps興起主要有三大原因。第一,是企業(yè)用過(guò)去的開(kāi)發(fā)方法來(lái)擴大AI應用規模時(shí),開(kāi)始面臨瓶頸,Line臺灣資料工程部資深經(jīng)理蔡景祥以自身經(jīng)驗為例表示,過(guò)去只有自己一人開(kāi)發(fā)AI時(shí),能清楚了解每個(gè)程式開(kāi)發(fā)步驟的意涵,但這種開(kāi)發(fā)流程過(guò)於客制化,一旦有第二個(gè)角色要共同協(xié)作,就得相互溝通來(lái)理解每個(gè)開(kāi)發(fā)步驟,徒增許多溝通成本。
勤業(yè)眾信去年發(fā)布的技術(shù)趨勢報告也提到,企業(yè)剛開(kāi)始開(kāi)發(fā)AI時(shí),容易采取英雄主義作法,靠少數資料科學(xué)家包辦從頭到尾的開(kāi)發(fā)流程,但這些流程高度手動(dòng)、難被復制或擴張,會(huì )增加協(xié)作過(guò)程中的溝通成本,難以提升開(kāi)發(fā)速度。藉由MLOps的實(shí)踐,才能讓過(guò)去自成一格的特制化開(kāi)發(fā)(Exceptionalism),走向快速擴張且更有效率的專(zhuān)業(yè)化開(kāi)發(fā)(Professionalism)。
第二,則是AI開(kāi)發(fā)面臨部署上線(xiàn)的挑戰,讓更多企業(yè)開(kāi)始采用MLOps。根據國外企管顧問(wèn)公司Vantage Partners去年調查,在美國,盡管有91.5%的企業(yè)都表示正在持續投資AI,卻只有14.6%的企業(yè)已經(jīng)將AI部署到生產(chǎn)環(huán)境,換句話(huà)說(shuō),實(shí)作了AI卻難以部署上線(xiàn),就是企業(yè)應用AI的一大痛點(diǎn)。
IDC在2020年發(fā)布的全球AI采用度調查也發(fā)現,根據受調查的2,000多位IT或相關(guān)主管回覆,仍有約有28%的專(zhuān)案因缺乏專(zhuān)家、生產(chǎn)數據與整合的開(kāi)發(fā)環(huán)境,最終以失敗收尾。IDC因此鼓吹,企業(yè)必須擁抱MLOps,才能更大規模的實(shí)現AI。
勤業(yè)眾信風(fēng)險管理諮詢(xún)副總經(jīng)理廖子毅更以身為資料科學(xué)家的開(kāi)發(fā)經(jīng)驗點(diǎn)出模型部署的難處。他解釋?zhuān)m然在A(yíng)I開(kāi)發(fā)的實(shí)驗階段,資料科學(xué)家可以在數周內快速訓練出良好準確率的模型,但是,一旦要落地生產(chǎn)環(huán)境,就需要根據現實(shí)資料進(jìn)一步調校模型,還要將模型打包成預測服務(wù),手動(dòng)開(kāi)發(fā)的過(guò)程可能要花費數月甚至一年以上。因此,企業(yè)得建立起持續交付、持續部署的作業(yè)流程,才能加速落地AI。
第三個(gè)促使MLOps在一年內快速成長(cháng)的原因,則是受到疫情帶動(dòng)大環(huán)境快速改變,導致許多部署上線(xiàn)的模型在一夕間不敷使用,凸顯了AI維運的挑戰。勤業(yè)眾信內部觀(guān)察,疫情期間的「新常態(tài)」,導致許多供應鏈需求預測模型,已經(jīng)無(wú)法再仰賴(lài)過(guò)去的數據和假設,需要滾動(dòng)蒐集企業(yè)與用戶(hù)資料,必要時(shí)更需重新訓練模型,才能維持預測服務(wù)的準確率。
業(yè)界也開(kāi)始感受到MLOps市場(chǎng)升溫,一家MLOps軟體商DataRobot臺灣總經(jīng)理蔡宜真透露,近一年來(lái),企業(yè)對MLOps的詢(xún)問(wèn)度提升,除了疫情驅動(dòng)企業(yè)加速采用AI,連帶的提升對MLOps的關(guān)注,更因消費者行為的大幅改變,導致模型表現快速偏移,來(lái)詢(xún)問(wèn)的企業(yè)正因這個(gè)契機重新檢視模型維運的流程,開(kāi)始意識到MLOps的重要性。

更多AI廠(chǎng)商加入戰局,要瓜分2025年40億美元市場(chǎng)大餅
勤業(yè)眾信制作了一張全球MLOps版圖,整理了三大類(lèi)別的MLOps廠(chǎng)商名單,包括全球六大AI與MLOps服務(wù)供應商、從ML平臺跨足MLOps解決方案的供應商、以及僅提供MLOps解決方案的業(yè)者。(圖片來(lái)源/勤業(yè)眾信)
MLOps概念興起後,市場(chǎng)上越來(lái)越多AI服務(wù)供應商投入這個(gè)市場(chǎng),帶動(dòng)了MLOps的聲量。比如公有云大廠(chǎng)如微軟、Google以及AWS,本來(lái)就提供完整的AI開(kāi)發(fā)服務(wù),微軟更在2019年的Build大會(huì )上,率先宣布了Azure ML服務(wù)中的MLOps功能,Google以及AWS隨後跟進(jìn),就是讓開(kāi)發(fā)者能透過(guò)平臺工具快速建立ML工作流,更著(zhù)力於AI全生命周期的管理與監控,來(lái)加速AI產(chǎn)品化。
勤業(yè)眾信內部制作了一張全球MLOps版圖,除了名列三家公有云業(yè)者,更將IBM、SAS與HPE,劃入AI與MLOps大型服務(wù)供應商的行列。
MLOps版圖更顯示,在公有云推出服務(wù)之前,市面上也已經(jīng)有些ML平臺服務(wù)供應商,提供企業(yè)從開(kāi)發(fā)到維運端的平臺服務(wù),讓企業(yè)能快速導入來(lái)開(kāi)發(fā)AI應用,比如Databricks、DataRobot、Dataiku、Iguazio、C3.ai、H2O.ai等廠(chǎng)商;後來(lái)MLOps興起,這些廠(chǎng)商更進(jìn)一步聚焦ML部署與維運端的工具,奠基在原本的ML平臺的基礎上提供MLOps服務(wù)。除此之外,市場(chǎng)上也出現了單純提供MLOps解決方案的新創(chuàng )企業(yè),比如Dotscience、Algorithmia、Datmo等。
勤業(yè)眾信風(fēng)險管理諮詢(xún)副總經(jīng)理許梅君提供一份內部估計,MLOps市場(chǎng)預計在2025年達到40億美元,復合年增長(cháng)率為50%,將成企業(yè)擴大應用AI的又一大關(guān)鍵市場(chǎng)。
除了導入相關(guān)工具與平臺,許梅君也提醒,企業(yè)需建立一套管理機制,讓AI在合規的前提下快速落地,比如資料治理的規范、資料及專(zhuān)案的權限管理、資安與AI風(fēng)險的管理,也需透過(guò)相關(guān)規則的建立,避免AI做出違背常理的判斷或有偏見(jiàn)的決策,且當AI用於個(gè)人化決策的場(chǎng)景,更要建立可解釋性AI機制,以及人機協(xié)作進(jìn)行決策的原則或方法。
「導入工具或平臺來(lái)解決局部的問(wèn)題,能夠快速看見(jiàn)AI開(kāi)發(fā)的成效,但光是這樣不能解決企業(yè)面臨的所有問(wèn)題,還要建立起管理機制,帶動(dòng)組織或文化的改變。 」許梅君說(shuō)。
不只講究ML模型自動(dòng)化,AI維運也是MLOps關(guān)鍵
「過(guò)去,資料科學(xué)家部署完模型後,就認為工作已經(jīng)告一段落,沒(méi)有模型維運的概念,」DataRobot資料科學(xué)家藍秀仁解釋?zhuān)郧爸恢vModel Management,聚焦開(kāi)發(fā)流程中的版本管理。直到近幾年,模型上線(xiàn)後表現產(chǎn)生偏移而失效,才讓更多人認真的看待模型維運的重要性,在MLOps中,更重視透過(guò)監控并迭代更新模型,來(lái)維持預測服務(wù)的準確率。
MLOps泛指從AI開(kāi)發(fā)到維運各階段的協(xié)作,若聚焦在ML部署與維運階段,涵蓋了從模型快速部署、上線(xiàn)、監控到重新訓練等機制。
這個(gè)階段不只要讓不同程式語(yǔ)言、架構開(kāi)發(fā)的ML模型,能夠快速部署到生產(chǎn)環(huán)境,整合到系統或App來(lái)提供預測服務(wù)。預測服務(wù)上線(xiàn)後,也需透過(guò)監控機制來(lái)檢視模型表現,來(lái)了解部署在本地端、云端的每個(gè)ML模型,每日新進(jìn)的輸入資料是否漂移、模型的準確率是否下降、預測服務(wù)是否健康,更要能長(cháng)期監控模型表現的變化趨勢,來(lái)更全面的評估是否有重新訓練、迭代更新的需求。
藍秀仁也建議,企業(yè)應在維運監控階段,納入一般常識檢查的判斷機制,像是,讓上線(xiàn)後的ML模型預測結果,不會(huì )違背常理或超出現實(shí),比如若AI預測出年齡超過(guò)120歲、日薪超過(guò)千萬(wàn),或是自駕車(chē)辨識道路的信心值不夠高,就會(huì )透過(guò)一套機制來(lái)阻止決策執行。
另外,為了避免模型做出偏誤決策而不自知,企業(yè)也應設計偏誤資料的監測機制,在模型輸出不公正預測結果時(shí),找出隱含偏見(jiàn)的訓練資料,再交由開(kāi)發(fā)人員將偏誤資料去除,重新進(jìn)行模型開(kāi)發(fā)、部署更新的流程。
如何選擇MLOps工具?
勤業(yè)眾信提供了一家AI解決方案供應商Ambiata所制作的MLOps工具比較表,可做為企業(yè)評選MLOps商用與開(kāi)源工具之用。這個(gè)比較表將MLOps工具分為四個(gè)類(lèi)別,分別是資料與Pipeline版本控管、模型實(shí)驗版本控管、超參數調校、模型部署與監控。勤業(yè)眾信提醒,企業(yè)得先清楚了解哪一個(gè)環(huán)節有需求,例如待解決的開(kāi)發(fā)痛點(diǎn),再來(lái)導入相應功能的工具。
由於功能相近的MLOps軟體很多,企業(yè)也可以進(jìn)一步根據自身常用的程式言語(yǔ)與函式庫,比如企業(yè)開(kāi)發(fā)AI時(shí),使用Python與R來(lái)開(kāi)發(fā),常用如Tensorflow、PyTorch、Keras、Scikit-learn等函式庫,來(lái)選擇可支援開(kāi)發(fā)的MLOps工具導入。
在挑選工具時(shí),也能參考GitHub上的評分星級、貢獻者或員工數量,列為挑選工具的一大考量,前者可作為該工具受歡迎程度的參考,後者則可以作為該工具能否長(cháng)期支持AI開(kāi)發(fā)的指標。