• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 國內 >
     首頁(yè) > 資訊 > 國內 >

    科大訊飛拿下SemEval 2022三項冠軍,多語(yǔ)種語(yǔ)言理解再上新臺階!

    2022-04-21 09:31:34   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      近日,第十六屆國際語(yǔ)義評測(The 16th International Workshop on Semantic Evaluation, SemEval 2022)大賽落下帷幕,科大訊飛在三項主要賽道中拿下冠軍,標志著(zhù)科大訊飛在多語(yǔ)種語(yǔ)言理解領(lǐng)域持續進(jìn)階。
      SemEval2022評測由國際計算語(yǔ)言學(xué)協(xié)會(huì )(Association for Computational Linguistics, ACL)旗下SIGLEX主辦,迄今已舉辦16屆,參賽者覆蓋國內、外一流高校及知名企業(yè),包括達特茅斯學(xué)院、謝菲爾德大學(xué)、華為、阿里達摩院等,代表著(zhù)最前沿國際技術(shù)和水平。
      經(jīng)過(guò)角逐,科大訊飛分別在“多語(yǔ)種新聞相似度評測任務(wù)”(Task8)、“多語(yǔ)種慣用語(yǔ)識別任務(wù)”子賽道(Task 2: Subtask A one-shot)、“多語(yǔ)種復雜命名實(shí)體識別任務(wù)”(Task11)三個(gè)子賽道中拿下冠軍。
      新聞相似度評價(jià):目光如炬
      本次SemEval2022評測聚焦的Task8是多語(yǔ)種新聞相似度評價(jià)任務(wù)。科大訊飛與哈爾濱工業(yè)大學(xué)聯(lián)合組建的“哈工大訊飛聯(lián)合實(shí)驗室”(Joint Laboratory of HIT and iFLYTEK Research,簡(jiǎn)稱(chēng)HFL)以顯著(zhù)優(yōu)勢摘得冠軍。
      簡(jiǎn)單來(lái)說(shuō),參賽隊伍需要在每組新聞中判斷是否描述了同一個(gè)事件,并以1-4分為兩篇新聞的相似度打分,其中包含了多達10種語(yǔ)言,分別為阿拉伯語(yǔ)、德語(yǔ)、英語(yǔ)、西班牙語(yǔ)、法語(yǔ)、意大利語(yǔ)、波蘭語(yǔ)、俄語(yǔ)、土耳其語(yǔ)和中文。但新聞相似度究竟是什么?讓我們用一則示例為大家解讀。
      圖中列舉了兩篇相似度極高的新聞稿件,參賽隊伍必須將文中相似的主要元素剝離出來(lái)并逐一分析,比如地理信息、敘事技巧、實(shí)體、語(yǔ)氣、時(shí)間及風(fēng)格,最終得出兩篇文章的相似度與差異化。
      與普通的文章相比,該項比賽更強調跨語(yǔ)言理解能力,除了寫(xiě)作風(fēng)格和敘述方式外,還需要把握文章中描述的具體事件。通俗來(lái)說(shuō),該項技術(shù)可以甄別外網(wǎng)的一些新聞報道是否存在偏差與曲解,從而有效預防虛假信息、不良信息的傳播。
      科大訊飛在這樣的賽道上拔得頭籌,充分展示了在跨語(yǔ)言理解能力上的強硬實(shí)力。
      慣用語(yǔ)檢測:熟能生巧
      哈工大訊飛聯(lián)合實(shí)驗室拿下的第二項任務(wù)冠軍,便是Task2 Subtask A的慣用語(yǔ)檢測。通俗來(lái)說(shuō),無(wú)論你是哪國人,在日常表達中都有一類(lèi)短語(yǔ)的固定用法,并且該固定用法通常與短語(yǔ)的字面語(yǔ)義不同,我們會(huì )將這些短語(yǔ)稱(chēng)為“慣用語(yǔ)”。想要理解包含慣用語(yǔ)的句子,首先需要判斷句子中的多字短語(yǔ)是否為慣用語(yǔ),比如“說(shuō)曹操,曹操到。”句中的曹操是否真實(shí)存在。
      該任務(wù)的形式便是給定一個(gè)目標語(yǔ)句,包括其上下文和多字短語(yǔ),繼而判斷該語(yǔ)句中的多字短語(yǔ)用法究竟是慣用語(yǔ)還是字面意思。該任務(wù)為多語(yǔ)言任務(wù),包含英語(yǔ)、葡萄牙語(yǔ)、加利西亞語(yǔ)三種語(yǔ)言。其中加利西亞語(yǔ)沒(méi)有在訓練集中出現過(guò),因此科大訊飛代表隊需要在不同語(yǔ)言之間進(jìn)行遷移學(xué)習。
      還是不懂?別擔心,讓我們來(lái)看一則示例。
      如例所示,Literal表示字面意思,第一句話(huà)可翻譯為:當你從網(wǎng)中抓一條大魚(yú)時(shí),最好撐住它的腰。Idiomatic表示慣用語(yǔ),所以第二句話(huà)中再次出現了大魚(yú)一詞,但卻不是簡(jiǎn)單的字面意思,而是“大人物”。
      所以該任務(wù)要求參賽隊伍區分不同句子中同一個(gè)詞的不同語(yǔ)義,這需要強大的分析及跨語(yǔ)言理解能力。有了該項技術(shù),在日常寫(xiě)作和翻譯工作中,即可有效鑒別慣用語(yǔ)的表達用意,極大提高內容準確率。
      科大訊飛不負眾望,再摘桂冠。
      復雜命名實(shí)體識別:披荊斬棘
      這第三冠有多難?光聽(tīng)名字就覺(jué)得復雜:多語(yǔ)種復雜命名實(shí)體識別任務(wù)(MutiCoNER)。科大訊飛聯(lián)合中國科學(xué)技術(shù)大學(xué)語(yǔ)音及語(yǔ)言信息處理國家工程研究中心迎難而上,在該項任務(wù)中一舉拿下三個(gè)子賽道冠軍。
      我們先拆解一下MuticoNER這個(gè)詞,Muti是multilingual(多語(yǔ)言)的簡(jiǎn)稱(chēng),Co即是complex(復雜),而NER則是Named Entity Recognition,又稱(chēng)作“命名實(shí)體識別”,是指識別文本中具有特定意義的實(shí)體,主要包括人名、地名、機構名、專(zhuān)有名詞等。
      該任務(wù)是一個(gè)多語(yǔ)言賽道數據集,包含11項單獨語(yǔ)言命名實(shí)體評測任務(wù),以及2項多語(yǔ)言統一建模的評測任務(wù)。該榜單數據來(lái)源于Wikidata(維基數據),數據量龐大且極具應用價(jià)值。參賽團隊需要在單個(gè)語(yǔ)言以及多個(gè)語(yǔ)言混合的文本數據中,精準預測不同語(yǔ)言實(shí)體的類(lèi)別標簽。該任務(wù)采用國際通用的槽位F1評價(jià)指標,我們在多語(yǔ)言混合、中文、孟加拉語(yǔ)賽道上,分別以92.9%、81.6%、84.2%的F1成績(jì)登頂。
      這項任務(wù)究竟有多難?舉個(gè)例子:NER是指從用戶(hù)文本中按照業(yè)務(wù)需求識別出實(shí)體的類(lèi)別,之前任務(wù)基本上一句話(huà)中僅會(huì )出現一到兩個(gè)實(shí)體,本次任務(wù)需要抽出多實(shí)體增加實(shí)體抽取難度,同時(shí)需要具備多語(yǔ)種能力,例如【(皇馬)[organization]除了首輪負于[克星拉科](organization)以外,現在已是四連勝。(Rafael van der Vaart)[PER]、(Gonzalo Higuaín)[PER]和(Arjen Robben)[PER]的表現出色。】既要識別出多個(gè)相關(guān)實(shí)體,同時(shí)是各語(yǔ)種夾雜的文本。
      此前針對中文和英文需要單獨進(jìn)行模型建模,此次有關(guān)賽道的挑戰是僅使用一個(gè)模型來(lái)可以完成不同語(yǔ)種任務(wù),能夠快速識別復雜、專(zhuān)有詞匯,提高準確率。

    (多語(yǔ)言混合榜單)

    (中文榜單)
      拒絕紙上談兵,技術(shù)應用要落地
      當前,人類(lèi)已進(jìn)入“人、機、物”智能互聯(lián)時(shí)代,智能語(yǔ)音是這個(gè)時(shí)代最為關(guān)鍵的入口之一,有助于實(shí)現語(yǔ)言大互通,建設人類(lèi)命運共同體。科大訊飛始終保持初心、堅持源頭核心技術(shù)創(chuàng )新,在語(yǔ)音、語(yǔ)義等國際賽事中為國爭光。
      在去年11月舉辦的國際低資源多種語(yǔ)音識別競賽OpenASR中,科大訊飛參加了所有15個(gè)語(yǔ)種受限賽道和7個(gè)語(yǔ)種非受限賽道,并全部取得了第一名,而在SemEval2022多語(yǔ)種NLP領(lǐng)域中取得佳績(jì),也標志著(zhù)科大訊飛在多語(yǔ)言理解與跨語(yǔ)言遷移能力再上新臺階,從多語(yǔ)種語(yǔ)音到多語(yǔ)種語(yǔ)言都有著(zhù)頂尖技術(shù)實(shí)力。
      而在今年的北京冬奧會(huì )和冬殘奧會(huì )上,科大訊飛作為“官方自動(dòng)語(yǔ)音轉換與翻譯獨家供應商”,為所有觀(guān)眾展現了一場(chǎng)“無(wú)障礙溝通”的體育盛會(huì )。基于強大的多語(yǔ)種語(yǔ)音語(yǔ)言技術(shù),我們可以做到語(yǔ)種足夠全、翻譯足夠準、反應足夠快,支持包括冬奧體育在內的16大行業(yè)領(lǐng)域翻譯,在冬奧應用場(chǎng)景下,中文與英/俄/法/西/日等重點(diǎn)語(yǔ)種的翻譯準確率超過(guò)90%,平均每句語(yǔ)音翻譯響應時(shí)間不超過(guò)1.5秒,一方面幫助各國觀(guān)眾、游客快速掌握賽事信息,另一方面我們特別希望幫助聽(tīng)障人士運用科技的手段聽(tīng)得見(jiàn)奧運文字,看得見(jiàn)奧運聲音。
      值得一提的是,科大訊飛AI虛擬人“愛(ài)加(i+)”也成為了冬奧會(huì )的一名“虛擬志愿者”。在北京冬奧小屋中,愛(ài)加可以用多種語(yǔ)言與各國運動(dòng)員進(jìn)行面對面的交流,助力冬奧的無(wú)障礙溝通。科大訊飛運用語(yǔ)音識別、語(yǔ)音合成、口唇驅動(dòng)、面部驅動(dòng)、肢體動(dòng)作驅動(dòng)等多項核心技術(shù),打造出虛擬形象自動(dòng)化內容生產(chǎn)方案,讓虛擬人不僅會(huì )說(shuō)普通話(huà),同時(shí)支持31種語(yǔ)言及方言,是不折不扣的“語(yǔ)言通”,不僅能進(jìn)行面對面的冬奧賽事、賽程實(shí)時(shí)互動(dòng)交流,還能陪你玩一把冬奧知識游戲大PK,周邊交通、文化、旅游等咨詢(xún)問(wèn)答也不在話(huà)下。
      除此之外,在教育、醫療、司法等場(chǎng)景中的各類(lèi)行業(yè)人工智能應用中,多語(yǔ)種語(yǔ)音交互系統都將發(fā)揮重要作用。經(jīng)過(guò)多年的技術(shù)積累,除了中英以外,當前科大訊飛已經(jīng)具備其他69種語(yǔ)言的語(yǔ)音識別能力,其中已經(jīng)有35個(gè)語(yǔ)種準確率已經(jīng)超過(guò)90%,并已在新加坡、俄羅斯、印度、日本等國家部署了海外站點(diǎn),將持續為海內外開(kāi)發(fā)者提供語(yǔ)音識別、語(yǔ)音合成、機器翻譯、圖文識別等語(yǔ)音語(yǔ)言服務(wù)。
      如何更好地研發(fā)包括中文在內的多語(yǔ)種語(yǔ)音及語(yǔ)言技術(shù)的AI能力并實(shí)現大規模應用落地,如何更好地用人工智能技術(shù)服務(wù)社會(huì )、建設美好世界,是我們不斷奮斗努力的方向。
      未來(lái),科大訊飛將不斷開(kāi)展人工智能源頭技術(shù)創(chuàng )新,助力中國人工智能在全球贏(yíng)得話(huà)語(yǔ)權,實(shí)現更多人工智能創(chuàng )新應用,真正解決社會(huì )剛需,蓬勃向上,生生不息。
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 姚安县| 石首市| 岐山县| 天镇县| 舒兰市| 绿春县| 普陀区| 黔江区| 合水县| 葫芦岛市| 恩施市| 绥化市| 云梦县| 甘南县| 沂水县| 伊吾县| 阿拉尔市| 高淳县| 普兰店市| 抚远县| 嘉善县| 佳木斯市| 准格尔旗| 交城县| 襄汾县| 赤城县| 汽车| 乐业县| 海南省| 万安县| 佛坪县| 丰原市| 芦山县| 准格尔旗| 永福县| 乌拉特中旗| 全椒县| 防城港市| 敦煌市| 隆化县| 南京市| http://444 http://444 http://444 http://444 http://444 http://444