電子科技大學(xué):AI賦能 格桑花藏地語(yǔ)料庫(kù)建設(shè)啟動(dòng)
http://www.bossanovawear.com  2025年4月26日  來(lái)源:電子科技大學(xué)

  4月22日,格桑花藏地語(yǔ)料庫(kù)建設(shè)在“2025天府融媒大講堂——主流媒體系統(tǒng)性變革之技術(shù)賦能”活動(dòng)上正式啟動(dòng)。該語(yǔ)料庫(kù)由天府融媒(四川)科技有限公司、四川省全媒信息傳播研究院共同發(fā)起,尼瑪扎西院士工作站(電子科技大學(xué))、藏地陽(yáng)光全媒體中心、甘孜州傳媒中心、四川日?qǐng)?bào)全媒體技術(shù)中心等多家機(jī)構(gòu)共同建設(shè)。

  黨的二十大提出,要實(shí)施國(guó)家文化數(shù)字化戰(zhàn)略,增強(qiáng)中華文明傳播力影響力。今年,教育部、國(guó)家語(yǔ)委、中央網(wǎng)信辦聯(lián)合印發(fā)的《關(guān)于加強(qiáng)數(shù)字中文建設(shè) 推進(jìn)語(yǔ)言文字信息化發(fā)展的意見(jiàn)》指出,“以加強(qiáng)數(shù)字中文建設(shè)為重點(diǎn),以集成化、智能化、國(guó)際化為導(dǎo)向”,“促進(jìn)中文數(shù)據(jù)的規(guī)模生產(chǎn)、優(yōu)質(zhì)集成、融合創(chuàng)新、規(guī)范治理和復(fù)用增效”,“加快推進(jìn)語(yǔ)言文字信息化發(fā)展”,明確要求推進(jìn)“古籍?dāng)?shù)字化整理關(guān)鍵技術(shù)研究”和“國(guó)家關(guān)鍵語(yǔ)料庫(kù)、高質(zhì)量民族語(yǔ)言文字語(yǔ)料庫(kù)”建設(shè)。

  格;ù碇腋:图,是藏族人民對(duì)美好生活的向往和期盼。以“格桑花”命名,寓意語(yǔ)料庫(kù)將像格桑花一樣傳承藏族文化,并為藏語(yǔ)在人工智能時(shí)代的應(yīng)用注入新的希望和活力。

  目前,格;ú氐卣Z(yǔ)料庫(kù)已初步搭建藏語(yǔ)語(yǔ)料訓(xùn)練系統(tǒng)。接下來(lái),將對(duì)已整理的超200億字符的藏文資料、30000多小時(shí)的音視頻資料進(jìn)行訓(xùn)練,形成千萬(wàn)條高質(zhì)量多模態(tài)藏語(yǔ)語(yǔ)料。同時(shí),基于已有的翻譯詞庫(kù)構(gòu)建500萬(wàn)級(jí)“藏漢英對(duì)照”平行語(yǔ)料庫(kù)。今后,將通過(guò)數(shù)據(jù)清洗、知識(shí)提取等智能處理,形成藏語(yǔ)核心語(yǔ)料及細(xì)分領(lǐng)域知識(shí)庫(kù),并借助格桑花藏地語(yǔ)料庫(kù)建設(shè)藏語(yǔ)智能體綜合平臺(tái),開(kāi)發(fā)藏語(yǔ)知識(shí)問(wèn)答、藏漢互譯等智能體,為藏語(yǔ)研究、內(nèi)容生產(chǎn)與傳播提供支撐。

  中國(guó)工程院院士尼瑪扎西談到,四川是我國(guó)重要的藏族聚居地,其涉藏地區(qū)涵蓋了藏語(yǔ)三大方言中的康巴和安多兩大方言。同時(shí),藏地陽(yáng)光全媒體中心、甘孜州傳媒中心等四川主流媒體機(jī)構(gòu)擁有的藏語(yǔ)數(shù)據(jù)具備素材多、質(zhì)量好的優(yōu)勢(shì)。由這些主流媒體參與建設(shè)的格桑花藏地語(yǔ)料庫(kù),可以為語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、民族學(xué)等多學(xué)科跨領(lǐng)域研究提供廣泛的數(shù)據(jù)支撐。格;ú氐卣Z(yǔ)料庫(kù)將在傳承和弘揚(yáng)中華傳統(tǒng)文化,促進(jìn)民族文化交流,增強(qiáng)國(guó)家文化軟實(shí)力方面發(fā)揮重要作用。
 關(guān)于電子科技大學(xué)更多的相關(guān)文章請(qǐng)點(diǎn)擊查看 

特別說(shuō)明:由于各方面情況的不斷調(diào)整與變化,華禹教育網(wǎng)(www.bossanovawear.com)所提供的信息為非商業(yè)性的教育和科研之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,僅供參考,相關(guān)信息敬請(qǐng)以權(quán)威部門公布的正式信息為準(zhǔn)。