欢迎您访问365答案网,请分享给你的朋友!
生活常识 学习资料

UNICORN论文阅读

时间:2023-05-22
Crossing the Format Boundary of Text and Boxes: Towards Unified Vision-Language Modeling

本篇论文提出了一个通用的视觉语言模型(命名为UNICORN),该模型将文本生成和bbox预测统一在一个模型结构中。针对下述的4个任务,本模型在7个VL benchmarks上面都达到了和sota可比较的结果。
(1)visual grounding:给出一张图像和一个物体描述,生成该物体的bbox;
(2)grounded image captioning:对给定的图像自动生成一句话描述图像内容,同时预测出描述中名词对应的目标位置;
(3)visual question answering
(4)image captioning:图像描述生成

启发:

该模型主要受到了Pix2seq模型的启发。Pix2seq模型是一个简单而通用的目标检测框架,首先Pix2seq采用了一种离散化方案将目标的bbox位置转换成离散的token序列,然后采用了编码器-解码器的结构来预测该token序列,进而将预测结果在词汇表中寻找对照,转换成目标的检测框位置和类别。Pix2seq模型将目标检测转化为一个语言建模任务,能够很容易地将文本序列结合进去,因此本文作者受到启发,建立了UNICORN模型。

模型结构:

图像encoder:采用一个通用的卷积网络提取图像特征;文本encoder:采用一个通用的文本encoder模型提取文本特征;多模态encoder-decoder:将图像特征和文本特征结合起来作为输入,采用transformer encoder-decoder结构来预测目标序列;目标序列: 如果是针对grounded image captioning任务,不仅需要生成图像描述,还需要预测出目标位置。目标位置的预测需要对gt进行box位置序列化:将box的xyxy位置,划分到200个bins内,完成序列化;如上图所示,一个box的位置坐标为[600.5,331.6,1227.7,721.2],通过序列化之后,将位置坐标映射为了[90,84,184,180]。作者在将目标位置和图像描述结合起来时,还采用两个特殊的token来标记目标名称,分别是。下面我展示了一个目标序列的实例:

原始序列:A woman is manipulating dishes in a dishwasher with a man and another woman next to her .目标序列: A woman <35> <56> <101> <199> is manipulating dishes <79> <144> <99> <179> in a dishwasher <76><178> <113> <199> with a man <91> <13> <181> <199> and another woman <156> <37> <195> <199> next to her .

评价:

该模型不需要针对不同的问题设计不同的head,采用一个统一的结构就能够在不同的vl任务上取得和sota可比较的效果,具有启发意义。

Copyright © 2016-2020 www.365daan.com All Rights Reserved. 365答案网 版权所有 备案号:

部分内容来自互联网,版权归原作者所有,如有冒犯请联系我们,我们将在三个工作时内妥善处理。