• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > IT與互聯(lián)網(wǎng) >
     首頁(yè) > 資訊 > IT與互聯(lián)網(wǎng) >

    展望AIGC發(fā)展未來(lái):合成數據將助力AI模型開(kāi)發(fā) 成為數據要素市場(chǎng)新增量

    2023-03-30 10:31:17   作者:   來(lái)源:天翼智庫   評論:0  點(diǎn)擊:


      據報道,大模型訓練對數據燃料的需求日益倍增,尤其是對現有的公開(kāi)文本數據有較強依賴(lài)。有研究預測,到2026年ChatGPT的訓練或將耗盡互聯(lián)網(wǎng)公開(kāi)可用文本數據,下一代萬(wàn)億級別大模型訓練或將面臨存量見(jiàn)底的境遇。在此背景下,有望解決此類(lèi)數據供給問(wèn)題的“合成數據”興起,市場(chǎng)規模迅速擴大。Cognilytica發(fā)布報告稱(chēng),合成數據生成市場(chǎng)預計到2027年底將增加到11.5億美元。此外,伴隨《關(guān)于構建數據基礎制度更好發(fā)揮數據要素作用的意見(jiàn)》的出臺,數據要素市場(chǎng)亟需增量擴容,對于數據要素優(yōu)質(zhì)供給的需求也在持續增加,更高效率、更高質(zhì)量和更低成本的合成數據將迎來(lái)更加廣闊的發(fā)展空間。

      合成數據將助力AI模型開(kāi)發(fā),成為數據要素市場(chǎng)新增量

      與從真實(shí)世界中采集的現實(shí)數據相反,合成數據(Synthetic Data)是基于計算機模擬技術(shù)或算法人工生成的虛擬數據。它在真實(shí)數據集上進(jìn)行訓練,從數學(xué)和統計學(xué)上反映了真實(shí)數據信息,可以用來(lái)獲取極端情況下的訓練數據以填補現有數據缺陷,也可以用來(lái)訓練、測試和驗證AI模型。合成數據依賴(lài)少部分的高質(zhì)量真實(shí)數據用于初始創(chuàng )建,將大幅減少算法訓練所需的真實(shí)數據量,提供了一種更快捷高效的方式來(lái)獲取所需數據。目前主要通過(guò)以下四種技術(shù)路徑來(lái)獲取合成數據。

      圖1 合成數據獲取方式

      1. 合成數據對AI模型開(kāi)發(fā)價(jià)值增大,助力形成應用閉環(huán)

      合成數據在人工智能領(lǐng)域具有重要的應用價(jià)值。根據Gartner預測,到2024年,用于訓練AI的數據中有60%將是合成數據,到 2030 年,合成數據將完全蓋過(guò) AI 模型中的真實(shí)數據,成為AI模型訓練使用數據的主要來(lái)源。通過(guò)使用合成數據可以快速、準確地構建數據集,以幫助機器學(xué)習算法更好地理解和預測現實(shí)世界的情況。合成數據也能填補真實(shí)數據集中可能存在的數據缺失、數據不足、數據不均衡等問(wèn)題,提高機器學(xué)習算法的魯棒性和泛化能力。此外,在A(yíng)I 2.0階段,人們可以讓AI在由合成數據構建的虛擬仿真世界中進(jìn)行自我學(xué)習,這將大大拓展AI的潛力邊界。

      2. 合成數據有望成為數據要素市場(chǎng)重要組成部分

      目前,數據要素市場(chǎng)面臨數據采集和標注成本高昂、數據質(zhì)量難以保障、數據多樣性受限、數據隱私問(wèn)題等多重挑戰。在建設數據要素市場(chǎng)的過(guò)程中,合成數據可以作為數據要素市場(chǎng)中的一種交易對象,幫助買(mǎi)家更好地評估和改進(jìn)算法性能,提高數據交易的效率和價(jià)值。合成數據的具體價(jià)值主要體現在以下幾個(gè)方面。第一,極大節省數據采集成本,滿(mǎn)足大規模數據需求,具有成本效益;第二,有效解決數據隱私與數據安全問(wèn)題,在金融、醫療等用戶(hù)信息較敏感的領(lǐng)域應用價(jià)值巨大。第三,確保數據多樣性,預測邊緣情況,進(jìn)而避免算法歧視,打造更公正更普惠的人工智能模型。第四,提高數據利用的靈活性,使數據利用更加定制化。合成數據可以根據特定場(chǎng)景和需求生成具有特定屬性的數據,滿(mǎn)足特定情境的數據需求。

      合成數據產(chǎn)業(yè)布局細分四大方向,應用領(lǐng)域前景廣闊

      眾多科技廠(chǎng)商和創(chuàng )新企業(yè)已經(jīng)意識到合成數據在人工智能領(lǐng)域的巨大價(jià)值,開(kāi)始搶先投入和布局。從合成數據供給側視角,合成數據的產(chǎn)業(yè)布局可分為結構化數據(表格數據)、非結構化數據(視頻、圖像等)、測試數據、開(kāi)源服務(wù)等四大方向,代表企業(yè)與提供服務(wù)如下表:

      在此基礎上,英偉達、微軟等大型科技企業(yè)也紛紛與上述部分合成數據供應廠(chǎng)商合作,推出平臺服務(wù)。如英偉達與AI Reverie、Sky Engine合作,在其Omniverse元宇宙平臺中加載了omniverse replicator合成數據能力,用于創(chuàng )建機器人訓練的虛擬環(huán)境以及模擬豐富的自動(dòng)駕駛現實(shí)場(chǎng)景。

      從應用側來(lái)看,合成數據的應用領(lǐng)域十分廣泛,早期主要應用于計算機視覺(jué)領(lǐng)域,現在正向金融、醫療、零售甚至運營(yíng)商領(lǐng)域拓展,具有廣闊的市場(chǎng)前景和價(jià)值空間。未來(lái),隨著(zhù)產(chǎn)業(yè)技術(shù)越來(lái)越成熟,合成數據將會(huì )賦能更多行業(yè)和領(lǐng)域,幫助企業(yè)解決實(shí)際問(wèn)題,給企業(yè)帶來(lái)業(yè)務(wù)突破和發(fā)展。

      合成數據潛在風(fēng)險與局限

      合成數據雖然有諸多優(yōu)勢和廣闊的應用前景,但由于技術(shù)手段、產(chǎn)業(yè)發(fā)展等方面限制,合成數據仍存在一定潛在風(fēng)險和局限性,因此在使用合成數據時(shí),要注意在一定程度上規避和防范。

      合成數據在技術(shù)精度上仍存在一定局限。合成數據的質(zhì)量通常取決于創(chuàng )建它的模型和開(kāi)發(fā)數據集的質(zhì)量,使用高質(zhì)量的真實(shí)數據作為起點(diǎn)就顯得尤為重要。如果合成數據不準確或與真實(shí)世界數據不匹配,這可能導致生成不合邏輯的非自然數據。因此,創(chuàng )建合成數據時(shí)需要額外對數據質(zhì)量進(jìn)行評估和管理,與人工標注的真實(shí)數據進(jìn)行比較確保兩者的匹配程度。

      合成數據存在“隱式隱私”泄露問(wèn)題。目前,合成數據不可避免地需要依賴(lài)小部分真實(shí)數據用于訓練數據模型。在模型訓練過(guò)程中,存在記憶原始訓練樣本分布,通過(guò)逆向工程反推原始訓練數據的風(fēng)險。如何平衡好保真度和隱私保護之間的關(guān)系亟待探討。

      合成數據賦能電信運營(yíng)商

      業(yè)務(wù)相關(guān)建議

      在電信運營(yíng)商領(lǐng)域,西班牙電信運營(yíng)商Telefónica已經(jīng)對合成數據的應用價(jià)值進(jìn)行了初步探索。未來(lái),隨著(zhù)AIGC技術(shù)能力全面提升,基于A(yíng)IGC技術(shù)的合成數據也將展現出更大的發(fā)揮空間,充分賦能于運營(yíng)商現有業(yè)務(wù)發(fā)展和新業(yè)務(wù)領(lǐng)域拓展,助力運營(yíng)商迎來(lái)新一輪變革。

      合成數據將驅動(dòng)運營(yíng)商現有業(yè)務(wù)向高效、智能化發(fā)展。在不提供用戶(hù)敏感信息的前提下,模擬真實(shí)客戶(hù)數據的統計模式,根據現有用戶(hù)數據進(jìn)行推演形成其他屬性,通過(guò)合成數據集訓練精準營(yíng)銷(xiāo)模型、客戶(hù)流失預警模型等,進(jìn)而提升獲利能力。還可以利用這一合規可用的數據源更加高效廉價(jià)地訓練智能客服或虛擬數字人,從而提升用戶(hù)服務(wù)感知。

      合成數據也將幫助運營(yíng)商找到新定位、拓展新領(lǐng)域。合成數據產(chǎn)業(yè)的興起可促進(jìn)運營(yíng)商向數據服務(wù)商身份發(fā)展,拓展新業(yè)務(wù)領(lǐng)域,解鎖數據資產(chǎn)價(jià)值。結合運營(yíng)商自身真實(shí)數據資源生成無(wú)統計學(xué)相關(guān)性的合成數據,向外部有數據需要的企業(yè)出售相關(guān)訓練數據產(chǎn)品,也可與外部企業(yè)合作,提供基于合成數據的咨詢(xún)服務(wù)。

    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    相關(guān)閱讀:

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 晋宁县| 通江县| 龙井市| 丹棱县| 定日县| 云安县| 桓台县| 桃园市| 类乌齐县| 莎车县| 西乌珠穆沁旗| 孟村| 神池县| 岳阳市| 涿鹿县| 凤凰县| 华坪县| 台南县| 葵青区| 达拉特旗| 鱼台县| 湘潭县| 九龙县| 曲靖市| 上林县| 高密市| 柳林县| 裕民县| 晋宁县| 彭泽县| 靖宇县| 长子县| 岑巩县| 兖州市| 游戏| 剑阁县| 建宁县| 榆中县| 新野县| 寻甸| 徐汇区| http://444 http://444 http://444 http://444 http://444 http://444