看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Transformer交叉注意力的文本生成图像技术 收藏
基于Transformer交叉注意力的文本生成图像技术

基于Transformer交叉注意力的文本生成图像技术

作     者:谈馨悦 何小海 王正勇 罗晓东 卿粼波 TAN Xin-yue;HE Xiao-hai;WANG Zheng-yong;LUO Xiao-dong;QING Lin-bo

作者机构:四川大学电子信息学院成都610065 

基  金:国家自然科学基金(61871278,U1836118) 成都市重大科技应用示范项目(2019-YF09-00120-SN) 四川省科技计划项目(2018HH0143) 

出 版 物:《计算机科学》 (Computer Science)

年 卷 期:2022年第49卷第2期

页      码:107-115页

摘      要:近年来,以生成对抗网络为基础的从文本生成图像方法的研究取得了一定的进展。文本生成图像技术的关键在于构建文本信息和视觉信息间的桥梁,促进网络模型生成与对应文本描述一致的逼真图像。目前,主流的方法是通过预训练文本编码器来完成对输入文本描述的编码,但这些方法在文本编码器中未考虑与对应图像的语义对齐问题,独立对输入文本进行编码,忽略了语言空间与图像空间之间的语义鸿沟问题。为解决这一问题,文中设计了一种基于交叉注意力编码器的对抗生成网络(CAE-GAN),该网络通过交叉注意力编码器,将文本信息与视觉信息进行翻译和对齐,以捕捉文本与图像信息之间的跨模态映射关系,从而提升生成图像的逼真度和与输入文本描述的匹配度。实验结果表明,在CUB和coco数据集上,与当前主流的方法DM-GAN模型相比,CAE-GAN模型的IS(Inception Score)分数分别提升了2.53%和1.54%,FID (Fréchet Inception Distance)分数分别降低了15.10%和5.54%,由此可知,CAE-GAN模型生成图像的细节更加完整、质量更高。

主 题 词:文本描述生成图像 生成对抗网络 交叉注意力编码 图像生成 计算机视觉 

学科分类:08[工学] 080203[080203] 0802[工学-机械学] 

D O I:10.11896/jsjkx.210600085

馆 藏 号:203107720...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分