看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于mRASP的藏汉双向神经机器翻译研究 收藏
基于mRASP的藏汉双向神经机器翻译研究

基于mRASP的藏汉双向神经机器翻译研究

作     者:杨丹 拥措 仁青卓玛 唐超超 YANG Dan;YONG Cuo;RENQING Zhuo-ma;TANG Chao-chao

作者机构:西藏大学信息科学技术学院西藏拉萨850000 西藏自治区藏文信息技术人工智能重点实验室西藏拉萨850000 藏文信息技术教育部工程研究中心西藏拉萨850000 

基  金:国家重点研发计划项目(2017YFB1402202) 西藏自治区科技创新基地自主研究项目(XZ2021HR002G) 西藏大学珠峰学科建设计划项目(zf22002001) 

出 版 物:《计算机技术与发展》 (Computer Technology and Development)

年 卷 期:2023年第33卷第12期

页      码:200-206页

摘      要:藏汉机器翻译技术的研究对于弘扬和传承优秀民族文化,推进藏族地区经济、教育和文化的发展有着十分重要的现实意义。该文立足于藏汉平行语料匮乏而导致的藏汉神经机器翻译效果欠佳的问题,对跨语言预训练模型进行了研究。使用第十八届全国机器翻译大会(CCMT 2022)的藏汉数据集构建藏汉双语的跨语言预训练模型(mRASP),采用谷歌的Transformer神经网络机器翻译架构作为基线模型,主要利用数据增强的方式对藏汉平行语料进行扩充、优化藏汉机器翻译所用到的词表,并探索跨语言预训练模型中的联合词表对翻译性能的影响,最终提出了一种融合跨语言预训练模型(mRASP)与改进后的绿色联合词表的藏汉双向神经机器翻译。经过上述策略,藏汉翻译任务上的BLEU值达到了55.69,汉藏翻译任务上的BLEU值达到了29.57。与传统的基于预训练模型的藏汉双向神经机器翻译相比,在稀缺资源条件下有效地提升了藏汉双向机器翻译的性能。

主 题 词:跨语言预训练模型 藏汉双向神经机器翻译 mRASP 数据增强 词表 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1673-629X.2023.12.028

馆 藏 号:203125206...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分