近期,思必馳知識服務(wù)團隊在中文文本相似度計算方向投入研究,并取得階段性成果:
1)在第十四屆全國知識圖譜與語(yǔ)義計算大會(huì )(CCKS: China Conference on Knowledge Graph and Semantic Computing)[1]上發(fā)表相關(guān)論文一篇《Neural Fusion Model for Chinese Semantic Matching》。
該會(huì )議是國內知識圖譜、語(yǔ)義技術(shù)、鏈接數據等領(lǐng)域的核心學(xué)術(shù)會(huì )議,聚集了知識表示、自然語(yǔ)言理解、知識獲取、智能問(wèn)答、鏈接數據、圖數據庫、圖計算、自動(dòng)推理等相關(guān)技術(shù)領(lǐng)域的和研究人員的學(xué)者和研究人員。

2)在“千言數據集:文本相似度”評測[2]中取得階段性進(jìn)展。該評測的文本相似度數據集包括公開(kāi)的三個(gè)文本相似度數據集,分別為哈工大(深圳)LCQMC、BQCorpus和谷歌的PAWS-X(中文)。目前,思必馳知識服務(wù)團隊在三個(gè)數據集上均暫列第一。

針對中文文本相似度計算的魯棒性和泛化性問(wèn)題,思必馳知識服務(wù)團隊在以下幾個(gè)方面開(kāi)展了技術(shù)研究:
1)針對中文特點(diǎn)的字、詞融合編碼器;
2)基于預訓練模型的領(lǐng)域自適應訓練;
3)目標應用領(lǐng)域導向的多階段模型微調。
相關(guān)技術(shù)實(shí)現在上述公開(kāi)評測中得到了應用和驗證。
語(yǔ)言智能常被稱(chēng)為人工智能皇冠上的一顆明珠。在未來(lái),思必馳知識服務(wù)團隊將繼續深耕認知智能領(lǐng)域,在面向通用領(lǐng)域的文本相似度計算基礎上,打造領(lǐng)域自適應的文本相似度計算系統,推動(dòng)文本相似度在垂直領(lǐng)域的應用和發(fā)展。
參考文獻:
[1]第十四屆全國知識圖譜與語(yǔ)義計算大會(huì )(CCKS: China Conference on Knowledge Graph and Semantic Computing)
http://sigkg.cn/ccks2020/
[2]千言數據集:閱讀理解公開(kāi)評測
https://aistudio.baidu.com/aistudio/competition/detail/45