看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于视觉和文本的多模态文档图像目标检测 收藏
基于视觉和文本的多模态文档图像目标检测

基于视觉和文本的多模态文档图像目标检测

作     者:李玉腾 史操 许灿辉 程远志 Li Yuteng;Shi Cao;Xu Canhui;Cheng Yuanzhi

作者机构:青岛科技大学信息科学技术学院山东青岛266061 

基  金:国家自然科学基金资助项目(61806107 61702135) 

出 版 物:《计算机应用研究》 (Application Research of Computers)

年 卷 期:2023年第40卷第5期

页      码:1559-1564页

摘      要:由于文档图像的布局复杂、目标对象尺寸分布不均匀,现有的检测算法很少考虑多模态信息和全局依赖关系,提出了基于视觉和文本的多模态文档图像目标检测方法。首先探索多模态特征的融合策略,为利用文本特征,将图像中文本序列信息转换为二维表征,在文本特征和视觉特征初次融合之后,将其输入到骨干网络提取多尺度特征,并在提取过程中多次融入文本特征实现多模态特征的深度融合;为保证小物体和大物体的检测精度,设计了一个金字塔网络,该网络的横向连接将上采样的特征图与自下而上生成的特征图在通道上连接,实现高层语义信息和低层特征信息的传播。在大型公开数据集PubLayNet上的实验结果表明,该方法的检测精度为95.86%,与其他检测方法相比有更高的准确率。该方法不仅实现了多模态特征的深度融合,还丰富了融合的多模态特征信息,具有良好的检测性能。

主 题 词:多模态 文档图像 目标检测 深度学习 

学科分类:08[工学] 080203[080203] 0802[工学-机械学] 

D O I:10.19734/j.issn.1001-3695.2022.08.0425

馆 藏 号:203121402...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分