文献详情 >基于知识检索的多模态人物交互检测收藏

基于知识检索的多模态人物交互检测

作者：陈妍高永彬 CHEN Yan;GAO YongBin

作者机构：上海工程技术大学电子电气工程学院上海201620

基　　金：国家自然科学基金(61802253) 上海市地方能力建设项目(21010501500) 上海市“科技创新行动计划”社会发展科技攻关项目(21DZ1204900)

出版物：《北京化工大学学报(自然科学版)》 (Journal of Beijing University of Chemical Technology(Natural Science Edition))

年卷期：2025年第52卷第1期

页码：113-121页

摘要：人物交互(human-object interaction,HOI)检测在复杂场景理解中发挥着至关重要的作用。目前的大多数方法都以一阶段的方式将参数交互查询直接映射到一组HOI预测中,这导致丰富的交互结构没有被充分挖掘和利用。对此可以通过多模态数据获取更多维度的信息,从而更全面地理解人物之间的交互行为。为此设计了一种Transformer风格的HOI检测器,该检测器基于查询的方式检索对比语言图像预训练(CLIP)知识,然后执行交互建议生成,通过结构感知网络将非参数交互建议转换为HOI预测。本文创新性地将CLIP知识迁移到HOI检测中,并通过对整体语义结构和局部空间结构进行额外编码提高了预测结果的准确性。实验结果表明,所提模型在公共数据集V-COCO上的准确率达到了64.83%,在HICO-DET数据集上的准确率达到了28.78%,与现有的HOI检测算法相比展现出优越的性能,证明了该算法的有效性。

主题词：人-物体交互检测计算机视觉深度学习目标检测视觉关系

学科分类：08[工学] 080203[080203] 0802[工学-机械学]

D　O　I：10.13543/j.bhxbzr.2025.01.013

馆藏号：203157079...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于知识检索的多模态人物交互检测

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

基于知识检索的多模态人物交互检测

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：