看过本文的还看了

相关文献

该作者的其他文献

文献详情 >藏汉双语场景图像数据集合成及文本检测方法 收藏
藏汉双语场景图像数据集合成及文本检测方法

藏汉双语场景图像数据集合成及文本检测方法

作     者:郝玉胜 王维兰 李金成 林强 Hao Yusheng;Wang Weilan;Li Jincheng;Lin Qiang

作者机构:西北民族大学数学与计算机科学学院兰州730030 中国民族语言文字信息技术教育部重点实验室兰州730030 西北民族大学流数据计算与应用重点实验室兰州730030 

基  金:国家自然科学基金(62166036,618660332) 西北民族大学甘肃省一流学科引导专项资金(11080305) 国家民委创新团队计划资助(98号) 甘肃省高等学校创新基金(2021B-067,2020B-069) 中央高校基本科研业务费(31920210090,31920200067) 

出 版 物:《计算机辅助设计与图形学学报》 (Journal of Computer-Aided Design & Computer Graphics)

年 卷 期:2022年第34卷第4期

页      码:592-604页

摘      要:为满足大量藏汉双语场景图像中的文字检测和识别的需求,合成数据集并训练深度学习模型,提出场景图像藏汉双语文本检测方法.首先,针对缺乏藏汉双语场景图像数据集的问题,提出基于轮廓检测和泊松图像编辑的合成方法,采用人工标注和自动化合成方式生成了具有相当规模的藏汉双语场景图像数据集BiTCSD,其中包含合成图像87680幅、人工标注图像5550幅;其次,验证了使用合成数据集训练模型的有效性;最后,在不同数据集上训练了深度文本框连接网络CTPN,并在测试集上针对不同语种评价了模型的文本检测性能.实验结果表明:通过合成样本训练CTPN模型,能够使模型的文本检测指标大幅提升;训练后的CTPN能够以较高的准确率和召回率检测场景图像中的藏汉双语文本区域,针对藏语文本的检测准确率P、召回率R和F值分别为0.91,0.85和0.88;针对汉语文本的检测准确率P、召回率R和F值分别为0.89,0.83和0.86.

主 题 词:场景文本检测 藏汉双语 合成数据集 深度学习 

学科分类:08[工学] 080203[080203] 0802[工学-机械学] 

核心收录:

D O I:10.3724/SP.J.1089.2022.18954

馆 藏 号:203110527...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分