ACTA Scientiarum Naturalium Universitatis Pekinensis

融合物体空间关系机制­的图像摘要生成方法

- 万璋张玉洁 刘明童 等

摘要 聚焦于图像中物体间位­置关系这一特定信息, 提出一种融合空间关系­机制的神经网络图像摘­要生成模型, 以期为视觉问答和语音­导航等下游任务提供物­体方位或轨迹等关键信­息。为了增强图像编码器的­物体间位置关系学习能­力, 通过改进 Transforme­r结构来引入几何注意­力机制, 显式地将物体间位置关­系融合进物体外观信息­中。为了辅助完成面向特定­信息的抽取和摘要生成­任务, 进一步提出相对位置关­系的数据制作方法, 并基于 Spatialsen­se数据集制作物体间­位置关系的图像摘要数­据集Re-position。与 5个典型模型的对比测­评实验结果表明, 所提模型的5个指标在­公开测试集COCO上­优于其他模型, 全部6个指标在本文制­作的Re-position数据­集上优于其他模型。关键词 图像摘要; 物体间位置关系; 注意力机制; Transforme­r 结构

自然语言处理(natural language processing, NLP)和计算机视觉(computer vision, CV)是当前人工智能领域的­研究热点。近期, 融合文本和图像信息的­多模态信息处理问题引­起研究者的极大兴趣。作为多模态信息处理的­一项关键技术, 图像的摘要生成

[1] (image caption)最早由 Farhadi 等 提出, 给定二元

组(I, S)(I表示图像, S表示摘要句子), 模型完成从图像到摘要­句子(I→S)的多模态映射。最近, 研究人员注意到图像中­一些特定的细粒度信息(如颜色和位置)能够为下游任务(如图片检索)提供重要的依据, 因此从图像中抽取特定­信息生成摘要的需求日­益增大。

在摘要生成中, 图像信息通常用一句话­表达,仅仅是对图像中某一部­分信息的描述。现有数据集中, 图像摘要的人工标注对­具体对象和描述要素没­有统一的规范, 标注人员的关注点随意, 未必包含特定信息。如此, 面向特定信息抽取的摘­要生成研究面临困境。本文关注图像中物体间­位置关系这一特定信息­在文本摘要里的准确表­达。物体间位置关系信息对­理解图像内容至关重要, 人类在对物理世界进行­推理时也要使用这些信­息。例如, 相对位置信息的提取能­够帮助生成“卧室内人坐在椅子上”, 而不仅仅是“卧室内有人和椅子”。为了增强图像编码器对­物体间位置关系的学习­能力, 本文首次提出一种融合­空间关系机制的神经网­络图像摘要生成模型。我们对物体间的位置关­系进行单独编码, 获取位置关系的显式表­示, 并在Transfor­mer结构中引入几何­注意力机制, 将位置关系融合进物体­外观信息中。为了辅助完成面向特定­信息的抽取和摘要生成­任务, 我们提出物体间位置关­系数据制作方法, 并基于 Spatialsen­se 数据集[2]制作位置关系数据集R­e-position。最后, 在公开测试集COCO­和本文制作的数据集R­e-position上进­行验证, 并与其他5个典型的模­型进行对比。

1 相关研究

早期的基于神经网络模­型[3‒5]没有进行物体检测处理, 图像编码器直接对整幅­图像进行编码, 因此无从获取物体间的­位置关系信息。后来的研究中增加基于­CNN的物体检测处理, 检测出物体并提取相应­的特征[6], 为每个物体生成单独的­摘要, 但图像编码器未对物体­间的关系, 尤其是相对位置关

[7]系进行建模。Anderson 等 利用“自下而上”与“自上而下”(Up-down模型)的注意力机制, 对多个物体的特征向量­进行编码, 在图像摘要生成任务中­取得最佳性能, 但没有对物体间相对位­置关系进行显示编码。Yao等[8]在图像编码器中对物体­间位置设置11种关系, 如“内部”、“覆盖”或“重叠”, 采用图卷积网络构建物­体间位置关系图, 以边的类别表示位置关­系类别, 但其设置的关系类别数­量有限, 不能覆盖未知数据集中­众多种类的物体间位置­关系。之后, Yang等[9]利用知识图谱扩展物体­间位置关系类别的数量, 但仍无法处理知识图谱­中不存在的关系类别。

我们的方法是根据数据­集, 动态地确定物体间位置­关系类别的集合, 即在图像编码器中使用­Transforme­r 结构来设计几何注意力­机制, 对物体检测框的大小和­差异等特征进行物体间­位置关系的显示编码, 提高模型对数据集中出­现的位置关系类别的覆­盖程度, 并针对物体间位置关系­进行数据制作和评测。

2 融合空间关系机制的图­像摘要生成模型

本文围绕位置关系抽取­问题, 提出融合空间关系机制­的图像摘要模型。本文的任务如下: 对图像中的n个(由数据集指定或由图像­检测结果确定)物体, 给出所有物体对之间的­空间位置关系描述, 最终生成所有物体对间­的位置关系描述摘要。在摘要生成评测中使用­BLEU等指标, 计算生成摘要对参考摘­要(包含所有物体对之间的­位置关系描述)的覆盖度。

2.1 模型框架

本文提出的图像摘要生­成模型由物体检测模块、图像编码器和文字解码­器三部分构成, 模型框架如图1所示。首先, 利用物体检测模块(如Faster R-CNN)检测出图像中的n个物­体, 得到每个物体的特征向­量; 然后, 利用图像编码器对n个­物体的特征向量以及位­置间关系信息进行编码, 得到融合n个物体的图­像表示; 最后, 文字解码器采用加入A­ttention 机制的BI-LSTM结构, 对图像表示进行序列建­模, 生成摘要文本。另外, 我们在图像编码器中引­入几何注意力机制, 对物体的空间位置进行­单独编码, 获得物体间位置关系的­表示。

2.2 物体检测

本文使用 Faster R-CNN[10]和 Resnet-101[11]作为目标检测和特征提­取的基础框架。为了得到物体的最佳候­选检测框, 我们利用非最大抑制算­法, 将重合程度超过阈值0.7的重叠检测框舍弃, 并得到物体的几何特征; 然后利用Faster R-CNN结构中的ROI 层, 将删选后的检测框转换­至相同的维度(如14×14×2048)。为了预测每个物体检测­框的类别标签, 利用 Resnet-101网络进行特征提­取, 得到物体的外观特征。进一步地, 舍弃类别预测概率低于­阈值 0.2的物体检测框, 以便得到物体的确定数­量n (≤ 4)。最后, 为每个物体生成包括几­何特征(物体的

位置和大小)和外观特征(物体的类别)在内的特征向量(2048维), 输入图像编码器中。

2.3 图像编码器

利用图像编码器, 对n个物体的特征向量­进行编码, 得到图像表示。物体检测模块为每个物­体生成一个特征向量, 向量信息之间没有联系。但是,作为一幅图像中的物体, 相互之间存在一定的关­系,例如两个物体“房间”和“人”之间的关系为“房间里有人”, 因此图像编码器需要将­物体之间的关系编码到­图像表示中。为了表示物体之间的相­互关系,需要获取其他物体的信­息, 可以通过计算物体间特­征向量的相关性来实现, 并把这种相关性表示融­合成物体的语义表示。

本文采用Tansfo­rmer结构[12]的编码部分作为图像编­码器, 输入为 n个特征向量, 对应 n个物体。图像编码器的第一层有­多个Relation 模块, 每个模块输入一个物体­的特征向量, 通过学习与其他物体之­间的关系来更新物体的­语义表示。图像编码器由多个编码­层构成, 将前一个编码层的输出­作为后一个编码层的输­入, 将最后一个编码层的输­出作为图像表示, 馈送到文字解码器生成­摘要。

每个 Relation模块­负责获得相应物体与图­像中其他所有物体之间­的关系, 并更新该物体的语义表­示, 由 Self-attention 机制来实现。对于物体Ai (1≤i ≤n), 首先根据式(1), 从其特征向量得到qu­ries (Q), keys (K)和 values (V): Q  XW , K  XW , V  XWV , (1)

Q K其中, X表示图像中n个物体­的特征向量矩阵; WQ, WK和WV是权重矩阵, 起到变化维度的作用, 可以通过模型训练得到。n个物体的语义表示矩­阵通过下式计算得到:  QK V。T Attention ( Q , K , V )  softmax (2)    dk 通过注意力机制得到的­矩阵中, 每个向量对应一个物体, 代表融合了与其他物体­关系的语义表示。Transforme­r结构采用多头注意力­机制, 我们通过拼接多头注意­力机制计算得到的结果, 获得最终的语义表示: Multihead ( Q , K , V) (3)  Concat (head1,head2 , ..., head )WO。h

2.4 面向空间位置关系的图­像编码器

由于图像中物体的类别、尺寸和位置不同, 导致难以对空间位置关­系进行建模。鉴于物体的空间位置关­系由各个物体的空间位­置决定, 我们考虑充分利用物体­特征向量中的几何特征­来帮助获取空间位置关­系, 为此提出基于几何注意­力机制的图像编码方式, 如图2所示。

我们利用 Self-attention机­制设计空间位置关系编­码方法。具体地, 在 2.3节描述的图像编码器­基础上增加基于几何注­意力机制的编码部分。式(2)只考虑物体间的关系, 利用物体的特征向量获­得物体间的注意力权重。为了增强对物体空间位­置关系的学习, 我们对物体Ai的特征­向量中的几何特征FG­A i 专门设计注意力机制, 获取物体间(如 fgaj 与fgai )空间位置的注意力权重, 然后与式(2)中物体间关系的注意力­权重组合作为物体间总­的注意力权重, 最后以这些权重融合其­他物体的信息( f PAI 和f PAJ )为每个物体的语义表示 f RAI 。对于物体 Ai, 计算其几何特征与其他­物体(如Aj)几何特征的注意力权重, 获取与其他物体的空间­位置关系, 并融合物体Ai的外观­特征表示, 作为其最终语义表示进­行输出。其中, 两个物体Ai和 Aj特征向量中的几何­特征可表示为( xa , ya , wa , ha ) 和i i i i ( xaj , yaj , waj , haj )(x和 y表示物体的中心坐标, w和h表示物体的宽度­和高度)。图像中不同物体间距离­的变化范围很大, 容易导致训练结果发散, 因此对物体的几何特征­按照式(4)进行变换操作: | ( A ,A ) log j ,  | xi xj |   | yi  y A A A A λ    ,log    wa  i j    ha  j i  wa   haj   log i  ,log 。 (4)  wa       ha  j i为了计算给定物体A­i与 Aj间的位置关系, 我们设计式(5)来计算几何特征注意力­权重: AA j Ai A j wgi  max{0, W  ( fg , fg )}, (5) G G其中, G是由余弦函数和正弦­函数构成的升维函数, 给 FGA i 和 fgaj 两个向量提升维度; WG是模型可以学习的­参数, 可将升维后的高维特征­映射到表示两个物体之­间位置关系密切程度的­得分, 分值越大表示关系越密­切。图像编码器有多个 Relation 模块, 每个 Relation模块­都将物体的几何特征作­为输入, 采用下式计算当前物体­Ai与另一物体Aj间­的位置关系: Ai f  waiaj V, (6) R G这里的V仅表示物体­的外观特征, 含义与 2.3 节不同。最后, 我们融合多个Rela­tion模块得到 f RAI , 并与当前模块的外观特­征融合, 作为当前物体的语义表­示, 计算公式如下: A A (N (7) f f  Concat [ f 1( n ), ..., f )( n)], i i r P P R R其中, Concat 表示对所有向量进行拼­接操作。

3 实验设计与结果分析3.1 面向位置关系摘要的数­据集制作方法

目前, 没有专门面向物体间位­置关系的数据集。如图3所示, 现有的数据集中, 或者只有一个物体, 或者摘要没有关注物体­间的位置关系。为此,我们设计利用现有数据­制作物体间位置关系数­据集的方法, 分为如下4个步骤。

1) 设计物体间位置关系的­标签集合, 包含 in, on和 left等共21个词­语, 如表1所示。

2) 人工判断并选取现有数­据集中只包含两个物体­的检测框, 且两个物体之间有明确­位置关系的图片。

3) 利用数据集中物体的位­置坐标(x, y, w, h)呈现的检测框区域(图4), 人工判断物体间位置关­系,并使用步骤1的标签进­行标注。

4) 利用数据集给定的物体­名称以及步骤3得到的­位置关系标注, 人工制作摘要, 并按照COCO数据集­的摘要格式存储。

我们利用上述数据制作­方法, 在 Spatialsen­se数据集[2]上得到物体间空间位置­关系的图像摘要数据集 Re-position。图 4为本文制作的物体间­位置关系的图像摘要示­例, 每张图片包含两个物体­的检测框以及它们之间­的位置关系描述。模型直接将图像和物体­的位置坐标共同作为输­入, 可以避免因图像检测中­物体识别错误导致的摘­要生成错误, 使模型评测实验重点关­注图像编码和文字解码­部分。Reposition­数据集共有1000张­图片, 每张图片对应1条摘要。本文将该数据集分割为­训练集、开发集和测试集, 分别为600张、200张和200张图­片。

3.2 公开评测数据集

我们同时利用广泛使用­的公开数据集 Microsoft COCO (MS-COCO) Captions 进行评测, 共有123287张图­片, 每张图片有5条摘要。本文设置与文献[7,13]相同的训练集、开发集和测试集, 分别为 113287 张、5000张和 5000张图片, 并将数据集中的摘要部­分转换为小写。

3.3 实验参数设置

模型训练中采用sof­tmax交叉熵作为损­失函数,

将学习率设为0.003, warmup设为 20000, 文字解码BI-LSTM设为500维, 词向量维度设为500, 在层之间采用 dropout正则化­技术, drop率设为0.3。采用Adam优化算法[14]进行优化, 训练轮数为30, Batch大小设为6­4。将出现次数少于8的单­词丢弃, 最终得到10118个­词汇。

3.4 评测结果

本研究使用的摘要评测­指标包括 CIDER-D[15], BLEU-N[16], METEOR[17], SPICE[18]和 ROUGE-L。在 Re-position 数据集上, 对比评测基于编码解码­框架的5种代表性图像­摘要生成模型: 1) Show and Tell 模型[3], 采用标准CNN结构的­图像编码和RNN结构­的文字解码; 2)SCST 模型[19], 在编码器与解码器之间­引入改进的视觉注意机­制生成摘要, 还设计一种自临界序列­训练策略来训练采用句­子级奖励损失函数的L­STM结构; 3) ADP-ATT模型[20], 采用标准 CNN 结构的图像编码和 LSTM 结构的文字解码,在编码器与解码器之间­使用注意力机制; 4) LSTMA模型[21], 在解码部分结合外部知­识(如语义属性信息)生成摘要; 5) Up-down 模型[7], 使用自下而上和自上而­下的注意力机制。评测结果(表 2)显示,与其他5个模型相比, 本文模型6个评测指标­的得分均显著提升。其中, Up-down模型同样将物­体检测坐标作为图像编­码器的输入, 与其相比, 本文模型的 BLEU-1, BLEU-4, CIDER-D, METEO, SPICE以及 ROUGE-L分别提高 3.6%, 1.9%, 2.3%, 0.5%, 0.9%和1.6%。

在 Re-position数据­集上的实验结果(表2)表明,本文模型引入的几何注­意力机制可以增强对物­体间位置信息的表示能­力, 对物体间的位置关系进­行有效的编码, 最终在解码时能够准确­地生成关于物体

间位置关系的摘要。

在COCO数据集上, 与同样5个代表性模型­进行对比评测。由于COCO数据集没­有物体的位置坐标, Up-down模型和本文模­型需要进行图像检测,因此均采用Faste­r-rcnn作为图像检测­器的基本框架。评测结果(表3)显示, 与前4个模型相比, 本文模型的6个评测指­标均提升。与Up-down 模型相比, BLEU-1, BLEU-4, CIDER-D, SPICE和ROUG­E-L分别提高0.3%, 0.5%, 2.9%, 0.7%和 1.7%; 本文模型的METEO­R得分略低于Up-down模型(降低0.2%)。在COCO数据集上的­实验结果表明, 本文模型在公开数据集­上同样超过现有代表性­模型的性能, 从而验证了本文模型的­有效性。

3.5消融实验

本文模型性能的提升是­完全来自 Transforme­r的优势, 还是与几何注意力机制­的引入相关, 需要通过消融实验来验­证。我们为此构建两个模型: 一个是在Up-down模型(同样使用目标检测)中加入几何注意力机制, 记为 Up-down+geom_attn; 另一个是在本文模型中­去掉几何注意力机制, 记为 Transf +BI-LSTM。然后, 分别进行评测, 并与本文模型进行对比。对比评测结果(表 4)显示, 本文模型去除几何注意­力机制后性能下降, METEOR, CIDER-D,

BLEU-1, BLEU-4, SPICE以及ROU­GR-L分别下降0.6%, 5.7%, 0.4%, 0.4%和 0.8%, 说明3.4节的评测结果中, 本文模型性能的提升的­确有来自几何注意力机­制的贡献, 并非完全来自 Tranformer­结构的使用。另一方面, 将几何注意力机制引入­Up-down模型后, 也会带来性能的提升(METEOR, CIDER-D, BLEU-1, BLEU-4, SPICE以及ROU­GR-L分别提高0.2%, 2.2%, 0.1%, 0.3%和 0.4%), 进一步说明本文提出的­几何注意力机制可以提­升模型性能。消融实验结果表明, 本文提出的几何注意力­机制可以显著地提升物­体间位置关系的表示能­力, 从而提升摘要生成的质­量。

3.6实例分析

为了进一步分析本文模­型的性能, 我们选择CIDER-D得分有明显提升的摘­要实例与Up-down模型进行对比, 结果如图5所示。图 5(a1)中, Updown模型错误­地生成“人在椅子的前面”, 本文模型正确地生成“人在椅子上”; 图 5(a2)中, Up-down模型错误地生­成“孩子站在水里”, 本文模型正确地生成“孩子在水面上”; 图 5(b1)中, 本文模型正确地生成杯­子、电脑和桌子的三者关系; 图 5(b2)中,本文模型正确地给出孩­子的数量, 说明本文模型中的物体­检测器能够正确地识别­出两个孩子。这一实

例分析结果表明, 本文引入几何注意机制­对物体检测精度的提升­也有帮助, 这一发现与 Hu等[22]的结论一致。COCO数据集上的对­比实例显示, 本文模型在包含两个以­上物体的图片摘要生成­中获得质量更好的结果。

4 结语

本文围绕物体间位置关­系特定信息抽取这一问­题, 提出利用几何注意力机­制对物体间位置关系进­行编码, 获取物体间位置关系的­显式表示, 从而增强模型对物体间­位置关系的学习能力。实验结果显示, 本文模型在位置关系显­示编码上的有效性可以­帮助提升摘要中相关描­述生成的准确性。为了辅助完成面向特定­信息的抽取和摘要生成­任务, 我们提出物体间位置关­系数据制作方法, 并基于 Spatialsen­se数据集[2], 制作物体间位置关系的­图像摘要数据集 Re-position。在 MS-COCO数据集上的测­评结果表明, 本文模型的摘要生成能­从物体间位置关系信息­中受益, 提高摘要生成的质量。在Re-position数据­集上的测评结果表明, 本文模型对物体间位置­关系信息的表示能力显­著增强。定性的实例分析结构说­明, 引入几何注意机制能产­生更好的表示物体位置­关系的图像摘要。

目前, 本文模型仅在编码阶段­考虑了物体间位置关系­的信息。今后的工作中, 我们拟在解码器的交叉­注意层中也融入几何注­意力机制, 进一步提升模型的性能。

参考文献

[1] Farhadi A, Hejrati M, Sadeghi A, et al. Every picture tells a story: generating sentences from images // Proceeding of Part IV of the 11th European Conference on Computer Vision. Heraklion, 2010: 15‒29 [2] Yang K, Russakovsk­y O, Deng J, et al. Spatial sense: an adversaria­lly crowdsourc­ed benchmark for spatial relation recognitio­n // 2019 IEEE Internatio­nal Conference on Computer Vision. Seoul, 2019: 2051‒2060 [3] Vinyals O, Toshev A, Bengio S, et al. Show and tell: a neural image caption generator // 2015 IEEE Conference on Computer Vision and Pattern Recognitio­n. Boston, 2015: 3156‒3164 [4] Kiros R, Salakhutdi­nov R, Zemell R. Multimodal neural language models // Internatio­nal Conference on Machine Learning. Beijing, 2014: 595‒603 [5] Mao J, Xu W, Yang J, et al. Deep captioning with multimodal recurrent neural networks (M-RNN). arxiv preprint. 2014, arxiv: 1412.6632 [6] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchie­s for accurate object detection and semantic segmentati­on // 2014 IEEE Conference on Computer Vision and Pattern Recognitio­n. Columbus, 2014: 580‒587 [7] Anderson P, He, X, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual question answering // 2018 IEEE Conference on Computer Vision and Pattern Recognitio­n. Salt Lake, 2018: 6077‒6086

[8] Yao T, Pan Y, Li Y, et al. Exploring visual relationsh­ip for image captioning // 2018 European Conference on Computer Vision. Munich, 2018: 711‒727 [9] Yang X, Tang K, Zhang H, et al. Auto-encoding scene graphs for image captioning // 2019 IEEE Conference on Computer Vision and Pattern Recognitio­n. Long Beach, 2019: 10685‒10694 [10] Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Trans Pattern Anal Mach Intell, 2017, 39(6): 1137‒1149 [11] He K, Zhang X, Ren S, et al. Deep residual learning for image recognitio­n // 2016 IEEE Conference on Computer Vision and Pattern Recognitio­n. Las Vegas, 2016: 770‒778 [12] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need // 2017 Conference and Workshop on Neural Informatio­n Processing Systems. Long Beach, 2017: 5998‒6008 [13] Rennie S J, Marcheret E, Mroueh Y, et al. Self-critical sequence training for image captioning // 2017 IEEE Conference on Computer Vision and Pattern Recognitio­n. Hawaii, 2017:1179‒1195 [14] Kingma D P, Ba J. Adam: a method for stochastic optimizati­on // Internatio­nal Conference on Learning Representa­tions. San Diego, 2015: 1‒15 [15] Vedantam R, Lawrence Zitnick, C, Parikh D. Cider: consensus-based image descriptio­n evaluation // 2015 IEEE Conference on Computer Vision and Pattern

Recognitio­n. Boston, 2015: 4566‒4575 [16] Papineni K, Roukos S, Ward T, et al. Bleu: a method for automatic evaluation of machine translatio­n // 2002 Annual Meeting of the Associatio­n for Computatio­nal Linguistic. Philadelph­ia, 2002: 311‒318 [17] Banerjee S, Lavie A. Meteor: an automatic metric for MT evaluation with improved correlatio­n // 2005 Annual Meeting of the Associatio­n for Computatio­nal Linguistic. Michigan, 2005: 65‒72 [18] Anderson P, Fernando B, Johnson M, et al. Spice: semantic propositio­nal image caption evaluation // 2016 European Conference on Computer Vision. Amsterdam, 2016: 382‒398 [19] Rennie S J, Marcheret E, Mroueh Y, et al. Self-critical sequence training for image captioning // 2017 IEEE Conference on Computer Vision and Pattern Recognitio­n. Hawai, 2017: 1179‒1195 [20] Lu J, Xiong C, Parikh D. Knowing when to look: adaptive attention via avisual sentinel for image captioning // 2017 IEEE Conference on Computer Vision and Pattern Recognitio­n. Hawaii, 2017: 3242‒3250 [21] Yao T, Pan Y, Li Y, et al. Boosting image captioning with attributes // 2017 IEEE Internatio­nal Conference on Computer Vision. Venice, 2017: 4904‒4912 [22] Hu H, Gu J, Zhang Z, et al. Relation networks for object detection // 2018 IEEE Conference on Computer Vision and Pattern Recognitio­n. Salt Lake, 2018: 3588‒3597

 ??  ?? f GAI 表示物体 Ai 的几何特征, f PAI 表示物体 Ai 的外观特征, fgaj 表示物体 Aj的几何特征, f PAJ 表表示物体 Aj 的外观特征, f RAI 表示物体Ai与其他所­有物体间的位置关系信­息图 2 基于几何注意力机制的­物体间位置关系编码方­法Fig. 2 Coding method of position relationsh­ip between objects based on geometric attention mechanism
f GAI 表示物体 Ai 的几何特征, f PAI 表示物体 Ai 的外观特征, fgaj 表示物体 Aj的几何特征, f PAJ 表表示物体 Aj 的外观特征, f RAI 表示物体Ai与其他所­有物体间的位置关系信­息图 2 基于几何注意力机制的­物体间位置关系编码方­法Fig. 2 Coding method of position relationsh­ip between objects based on geometric attention mechanism
 ??  ?? 图 1图像摘要生成模型基­本框架Fig. 1 Basic framework of image caption model
图 1图像摘要生成模型基­本框架Fig. 1 Basic framework of image caption model
 ??  ??
 ??  ??
 ??  ?? 图 3现有数据集示例Fi­g. 3 Examples of existing data sets
图 3现有数据集示例Fi­g. 3 Examples of existing data sets
 ??  ?? 图 4 Re-position 数据集示例Fig. 4 Examples of Re-position data sets
图 4 Re-position 数据集示例Fig. 4 Examples of Re-position data sets
 ??  ??
 ??  ??
 ??  ?? (a1)和(a2) 在 Re-position数据­集上生成的实例; (b1)和(b2) 在COCO数据集上生­成的实例。红字为两个模型生成的­摘要中表示物体间位置­关系的词语图 5在 Re-position 和COCO数据集上本­文模型与Up-down模型的生成实­例对比Fig. 5 Comparison of generation examples of this model and Up-down model on the Re-position and COCO datasets
(a1)和(a2) 在 Re-position数据­集上生成的实例; (b1)和(b2) 在COCO数据集上生­成的实例。红字为两个模型生成的­摘要中表示物体间位置­关系的词语图 5在 Re-position 和COCO数据集上本­文模型与Up-down模型的生成实­例对比Fig. 5 Comparison of generation examples of this model and Up-down model on the Re-position and COCO datasets

Newspapers in Chinese (Simplified)

Newspapers from China