摘要:提出一种循环视觉注意网络来同时进行目标搜索和识别。该网络能够从图像中自动选择一个局部观测序列,通过融合局部详细表观和粗略上下文视觉信息,实现视觉目标的高精度定位与识别,比传统的滑动窗口和全图卷积的方法具有更高的目标搜索效率。此外,提出了一种混合损失函数来对网络参数进行端到端的多任务学习,特别在视觉注视点序列损失函数中引入随机性和目标启发的组合策略,可以有效地挖掘更丰富的上下文信息,保证注意点快速接近视觉目标。建立了一个真实场景数据集来验证该模型在感兴趣目标和小目标搜索与识别的性能。试验结果表明,该方法通过几个注视点转移,就能够在一幅图像上预测一个视觉目标的准确边框,并在大图像上获得比较高的搜索速度。开放源代码用于该方法验证与比较分析。
关键词:注意力模型 强化学习 目标检测 注意策略
单位:西安交通大学电子与信息工程学院; 西安710049
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社