本篇论文提出了一个通用的视觉语言模型(命名为UNICORN),该模型将文本生成和bbox预测统一在一个模型结构中。针对下述的4个任务,本模型在7个VL benchmarks上面都达到了和sota可比较的结果。
(1)visual grounding:给出一张图像和一个物体描述,生成该物体的bbox;
(2)grounded image captioning:对给定的图像自动生成一句话描述图像内容,同时预测出描述中名词对应的目标位置;
(3)visual question answering
(4)image captioning:图像描述生成
启发:
该模型主要受到了Pix2seq模型的启发。Pix2seq模型是一个简单而通用的目标检测框架,首先Pix2seq采用了一种离散化方案将目标的bbox位置转换成离散的token序列,然后采用了编码器-解码器的结构来预测该token序列,进而将预测结果在词汇表中寻找对照,转换成目标的检测框位置和类别。Pix2seq模型将目标检测转化为一个语言建模任务,能够很容易地将文本序列结合进去,因此本文作者受到启发,建立了UNICORN模型。
模型结构:
原始序列:A woman is manipulating dishes in a dishwasher with a man and another woman next to her .目标序列:
评价:
该模型不需要针对不同的问题设计不同的head,采用一个统一的结构就能够在不同的vl任务上取得和sota可比较的效果,具有启发意义。