據(jù)報(bào)道，大模型訓(xùn)練對數(shù)據(jù)燃料的需求日益倍增，尤其是對現(xiàn)有的公開文本數(shù)據(jù)有較強(qiáng)依賴。有研究預(yù)測，到2026年ChatGPT的訓(xùn)練或?qū)⒑谋M互聯(lián)網(wǎng)公開可用文本數(shù)據(jù)，下一代萬億級別大模型訓(xùn)練或?qū)⒚媾R存量見底的境遇。在此背景下，有望解決此類數(shù)據(jù)供給問題的“合成數(shù)據(jù)”興起，市場規(guī)模迅速擴(kuò)大。Cognilytica發(fā)布報(bào)告稱，合成數(shù)據(jù)生成市場預(yù)計(jì)到2027年底將增加到11.5億美元。此外，伴隨《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》的出臺，數(shù)據(jù)要素市場亟需增量擴(kuò)容，對于數(shù)據(jù)要素優(yōu)質(zhì)供給的需求也在持續(xù)增加，更高效率、更高質(zhì)量和更低成本的合成數(shù)據(jù)將迎來更加廣闊的發(fā)展空間。

　　合成數(shù)據(jù)將助力AI模型開發(fā)，成為數(shù)據(jù)要素市場新增量

　　與從真實(shí)世界中采集的現(xiàn)實(shí)數(shù)據(jù)相反，合成數(shù)據(jù)（Synthetic Data）是基于計(jì)算機(jī)模擬技術(shù)或算法人工生成的虛擬數(shù)據(jù)。它在真實(shí)數(shù)據(jù)集上進(jìn)行訓(xùn)練，從數(shù)學(xué)和統(tǒng)計(jì)學(xué)上反映了真實(shí)數(shù)據(jù)信息，可以用來獲取極端情況下的訓(xùn)練數(shù)據(jù)以填補(bǔ)現(xiàn)有數(shù)據(jù)缺陷，也可以用來訓(xùn)練、測試和驗(yàn)證AI模型。合成數(shù)據(jù)依賴少部分的高質(zhì)量真實(shí)數(shù)據(jù)用于初始創(chuàng)建，將大幅減少算法訓(xùn)練所需的真實(shí)數(shù)據(jù)量，提供了一種更快捷高效的方式來獲取所需數(shù)據(jù)。目前主要通過以下四種技術(shù)路徑來獲取合成數(shù)據(jù)。

　　圖1 合成數(shù)據(jù)獲取方式

　　1. 合成數(shù)據(jù)對AI模型開發(fā)價(jià)值增大，助力形成應(yīng)用閉環(huán)

　　合成數(shù)據(jù)在人工智能領(lǐng)域具有重要的應(yīng)用價(jià)值。根據(jù)Gartner預(yù)測，到2024年，用于訓(xùn)練AI的數(shù)據(jù)中有60%將是合成數(shù)據(jù)，到 2030 年，合成數(shù)據(jù)將完全蓋過 AI 模型中的真實(shí)數(shù)據(jù)，成為AI模型訓(xùn)練使用數(shù)據(jù)的主要來源。通過使用合成數(shù)據(jù)可以快速、準(zhǔn)確地構(gòu)建數(shù)據(jù)集，以幫助機(jī)器學(xué)習(xí)算法更好地理解和預(yù)測現(xiàn)實(shí)世界的情況。合成數(shù)據(jù)也能填補(bǔ)真實(shí)數(shù)據(jù)集中可能存在的數(shù)據(jù)缺失、數(shù)據(jù)不足、數(shù)據(jù)不均衡等問題，提高機(jī)器學(xué)習(xí)算法的魯棒性和泛化能力。此外，在AI 2.0階段，人們可以讓AI在由合成數(shù)據(jù)構(gòu)建的虛擬仿真世界中進(jìn)行自我學(xué)習(xí)，這將大大拓展AI的潛力邊界。

　　2. 合成數(shù)據(jù)有望成為數(shù)據(jù)要素市場重要組成部分

　　目前，數(shù)據(jù)要素市場面臨數(shù)據(jù)采集和標(biāo)注成本高昂、數(shù)據(jù)質(zhì)量難以保障、數(shù)據(jù)多樣性受限、數(shù)據(jù)隱私問題等多重挑戰(zhàn)。在建設(shè)數(shù)據(jù)要素市場的過程中，合成數(shù)據(jù)可以作為數(shù)據(jù)要素市場中的一種交易對象，幫助買家更好地評估和改進(jìn)算法性能，提高數(shù)據(jù)交易的效率和價(jià)值。合成數(shù)據(jù)的具體價(jià)值主要體現(xiàn)在以下幾個(gè)方面。第一，極大節(jié)省數(shù)據(jù)采集成本，滿足大規(guī)模數(shù)據(jù)需求，具有成本效益；第二，有效解決數(shù)據(jù)隱私與數(shù)據(jù)安全問題，在金融、醫(yī)療等用戶信息較敏感的領(lǐng)域應(yīng)用價(jià)值巨大。第三，確保數(shù)據(jù)多樣性，預(yù)測邊緣情況，進(jìn)而避免算法歧視，打造更公正更普惠的人工智能模型。第四，提高數(shù)據(jù)利用的靈活性，使數(shù)據(jù)利用更加定制化。合成數(shù)據(jù)可以根據(jù)特定場景和需求生成具有特定屬性的數(shù)據(jù)，滿足特定情境的數(shù)據(jù)需求。

　　合成數(shù)據(jù)產(chǎn)業(yè)布局細(xì)分四大方向，應(yīng)用領(lǐng)域前景廣闊

　　眾多科技廠商和創(chuàng)新企業(yè)已經(jīng)意識到合成數(shù)據(jù)在人工智能領(lǐng)域的巨大價(jià)值，開始搶先投入和布局。從合成數(shù)據(jù)供給側(cè)視角，合成數(shù)據(jù)的產(chǎn)業(yè)布局可分為結(jié)構(gòu)化數(shù)據(jù)（表格數(shù)據(jù)）、非結(jié)構(gòu)化數(shù)據(jù)（視頻、圖像等）、測試數(shù)據(jù)、開源服務(wù)等四大方向，代表企業(yè)與提供服務(wù)如下表：

　　在此基礎(chǔ)上，英偉達(dá)、微軟等大型科技企業(yè)也紛紛與上述部分合成數(shù)據(jù)供應(yīng)廠商合作，推出平臺服務(wù)。如英偉達(dá)與AI Reverie、Sky Engine合作，在其Omniverse元宇宙平臺中加載了omniverse replicator合成數(shù)據(jù)能力，用于創(chuàng)建機(jī)器人訓(xùn)練的虛擬環(huán)境以及模擬豐富的自動(dòng)駕駛現(xiàn)實(shí)場景。

　　從應(yīng)用側(cè)來看，合成數(shù)據(jù)的應(yīng)用領(lǐng)域十分廣泛，早期主要應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域，現(xiàn)在正向金融、醫(yī)療、零售甚至運(yùn)營商領(lǐng)域拓展，具有廣闊的市場前景和價(jià)值空間。未來，隨著產(chǎn)業(yè)技術(shù)越來越成熟，合成數(shù)據(jù)將會賦能更多行業(yè)和領(lǐng)域，幫助企業(yè)解決實(shí)際問題，給企業(yè)帶來業(yè)務(wù)突破和發(fā)展。

　　合成數(shù)據(jù)潛在風(fēng)險(xiǎn)與局限

　　合成數(shù)據(jù)雖然有諸多優(yōu)勢和廣闊的應(yīng)用前景，但由于技術(shù)手段、產(chǎn)業(yè)發(fā)展等方面限制，合成數(shù)據(jù)仍存在一定潛在風(fēng)險(xiǎn)和局限性，因此在使用合成數(shù)據(jù)時(shí)，要注意在一定程度上規(guī)避和防范。

　　合成數(shù)據(jù)在技術(shù)精度上仍存在一定局限。合成數(shù)據(jù)的質(zhì)量通常取決于創(chuàng)建它的模型和開發(fā)數(shù)據(jù)集的質(zhì)量，使用高質(zhì)量的真實(shí)數(shù)據(jù)作為起點(diǎn)就顯得尤為重要。如果合成數(shù)據(jù)不準(zhǔn)確或與真實(shí)世界數(shù)據(jù)不匹配，這可能導(dǎo)致生成不合邏輯的非自然數(shù)據(jù)。因此，創(chuàng)建合成數(shù)據(jù)時(shí)需要額外對數(shù)據(jù)質(zhì)量進(jìn)行評估和管理，與人工標(biāo)注的真實(shí)數(shù)據(jù)進(jìn)行比較確保兩者的匹配程度。

　　合成數(shù)據(jù)存在“隱式隱私”泄露問題。目前，合成數(shù)據(jù)不可避免地需要依賴小部分真實(shí)數(shù)據(jù)用于訓(xùn)練數(shù)據(jù)模型。在模型訓(xùn)練過程中，存在記憶原始訓(xùn)練樣本分布，通過逆向工程反推原始訓(xùn)練數(shù)據(jù)的風(fēng)險(xiǎn)。如何平衡好保真度和隱私保護(hù)之間的關(guān)系亟待探討。

　　合成數(shù)據(jù)賦能電信運(yùn)營商

　　業(yè)務(wù)相關(guān)建議

　　在電信運(yùn)營商領(lǐng)域，西班牙電信運(yùn)營商Telefónica已經(jīng)對合成數(shù)據(jù)的應(yīng)用價(jià)值進(jìn)行了初步探索。未來，隨著AIGC技術(shù)能力全面提升，基于AIGC技術(shù)的合成數(shù)據(jù)也將展現(xiàn)出更大的發(fā)揮空間，充分賦能于運(yùn)營商現(xiàn)有業(yè)務(wù)發(fā)展和新業(yè)務(wù)領(lǐng)域拓展，助力運(yùn)營商迎來新一輪變革。

　　合成數(shù)據(jù)將驅(qū)動(dòng)運(yùn)營商現(xiàn)有業(yè)務(wù)向高效、智能化發(fā)展。在不提供用戶敏感信息的前提下，模擬真實(shí)客戶數(shù)據(jù)的統(tǒng)計(jì)模式，根據(jù)現(xiàn)有用戶數(shù)據(jù)進(jìn)行推演形成其他屬性，通過合成數(shù)據(jù)集訓(xùn)練精準(zhǔn)營銷模型、客戶流失預(yù)警模型等，進(jìn)而提升獲利能力。還可以利用這一合規(guī)可用的數(shù)據(jù)源更加高效廉價(jià)地訓(xùn)練智能客服或虛擬數(shù)字人，從而提升用戶服務(wù)感知。

　　合成數(shù)據(jù)也將幫助運(yùn)營商找到新定位、拓展新領(lǐng)域。合成數(shù)據(jù)產(chǎn)業(yè)的興起可促進(jìn)運(yùn)營商向數(shù)據(jù)服務(wù)商身份發(fā)展，拓展新業(yè)務(wù)領(lǐng)域，解鎖數(shù)據(jù)資產(chǎn)價(jià)值。結(jié)合運(yùn)營商自身真實(shí)數(shù)據(jù)資源生成無統(tǒng)計(jì)學(xué)相關(guān)性的合成數(shù)據(jù)，向外部有數(shù)據(jù)需要的企業(yè)出售相關(guān)訓(xùn)練數(shù)據(jù)產(chǎn)品，也可與外部企業(yè)合作，提供基于合成數(shù)據(jù)的咨詢服務(wù)。

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

展望AIGC發(fā)展未來：合成數(shù)據(jù)將助力AI模型開發(fā) 成為數(shù)據(jù)要素市場新增量

評論排行

推薦閱讀

專題

大家都在看

CTI論壇會員企業(yè)