图像和文本的融合表示学习——Text2Image和Image2Text

star2017 1年前 ⋅ 1293 阅读

图像和文本之间的相互转换涉及到图像的场景识别与理解、目标的检测和识别、图像融合等，它可以使得计算机具有“看图说话”、“看书作图”的能力，可以说是图像理解中最具挑战性的和最具趣味性的研究课题。本文参考IJCV2014年的经典文章，以最常用的典型相关分析（CCA）为例介绍图文融合的原理和方法，并在微软COCO数据集上进行了测试。

Tag2Image and Image2Tag — Joint representations for images and text

解析复杂场景并描述其内容对人类来说并不是一项复杂的任务。对于人类来说，确实可以用几句话迅速地总结出一个复杂的图像场景。但对电脑来说要复杂得多。为了生成可以实现这一目标的系统，我们需要结合计算机视觉和自然语言处理技术。

作为第一步，我们将看到如何为视觉图像和文本数据生成低维的表示向量。然后描述CCA算法，它将帮助我们在一个统一的空间中同时表示文本和图像。最后，我们在Microsoft COCO数据集【1】上演示双向表示（Text2Image和Image2Text）的结果。

迁移学习（Transfer Learning）

图像特征

卷积神经网络（CNN）可用于从图像中提取特征。在ImageNet上预先训练的16层VGGNet就是一个例子。它是2014年ImageNet Challenge比赛中成绩最好的模型。我们只需要移除最后一个全连接层，并将CNN的其余部分视为我们数据集的固定特征提取器。这将为每个图像计算一个4096维的向量。

图：VGG-16架构

文本特征

词向量（Word embeddings）是一组旨在将单词映射到高维几何空间的自然语言处理工具。换句话说，词嵌入函数将文本语料库作为输入并产生词向量作为输出，使得任何两个向量之间的距离将捕获两个关联单词之间的部分语义关系。

例如，“学生”和“飞机”是语义上不同的单词，因此一个合理的嵌入空间会将它们表示为彼此相距甚远的向量。但”早餐” 和”厨房”是相关的词，所以它们在语义空间上也会比较接近。

图：词嵌入空间示例

为了实现这种映射，我们可以使用成熟预先训练的模型：Word2Vec（在Google新闻数据集上预先训练的300维词向量）或GLOVE（在带有1.9M词汇的Common Crawl数据集上预训练的300维词向量）

CCA(典型相关分析，Canonical Correlation Analysis)

现在从比较宏观的角度介绍将视觉和文本特征映射到相同的潜在空间的比较流行和成功的方法。

图：双视角CCA使图像（三角形）与其相应标签（圆形）之间的距离最小化（相等地，最大化相关性)）

给定2组N个向量：X表示图像特征，Y表示文本特征。设他们的协方差分别为Σxx和Σyy，并令Σxy为交叉协方差。

线性典型相关分析（CCA）寻求使两个视图的相关性最大化的线性投影对：

CCA目标函数可以被改写为如下的优化问题：

x和y分别是指文本和视觉数据的点。为了比较x和y，我们可以使用余弦相似度：

结果演示

在微软的COCO数据集中，每个图像由5个标题描述。第一步是先去掉所有的停止词，然后将它们拼接起来，得到一个词袋(BoW)。然后，我们使用TF-IDF技术对所有嵌入词进行加权平均，该技术根据每个标题中出现的频率对单词进行加权。

图：图像及其相应标题的示例

Tag2Image

对于此任务, 我们的目标是检索给定查询文本所描述的图像。给定一个查询文本, 我们首先将其特征向量投射到CCA空间中，然后使用它从数据库中检索最相似的图像特征。

Query 1: “A man playing tennis”.

Query 2: “A man jumping in the air in a skateboard”.

我们可以清楚地指出检索到的图像与查询图像非常接近。

Image2Tag

在这里，我们的目标是找到一组正确描述查询图像的标签。给定查询图像，我们首先将其特征向量投射到CCA空间，然后用它来检索最相似的文本特征。

一般而言，检索到的关键词很好地描述了查询图像。但是，我们可以识别一些错误（红色）。例如，在最后一个例子中，“walking”一词被错误地检索出来。我们认为这可能是由于训练集中有很多图像同时包含“people”和“walking”。

总结

典型相关分析可用于构建多模态检索。给出一组图像及其标签的数据集，CCA将其对应的特征向量映射到相同的空间，其中可以使用相似性度量（similarity measure）来执行Image2Tag和Tag2Image搜索任务。

1.http://cocodataset.org/#home

Reference

参考文章是IJCV2014的经典文章。

http://slazebni.cs.illinois.edu/publications/yunchao_cca13.pdf

原文链接：

https://towardsdatascience.com/tag2image-and-image2tag-joint-representations-for-images-and-text-9ad4e5d0d99

更多内容请访问：IT源点

注意：本文归作者所有，未经作者允许，不得转载

#图像处理 #计算机视觉

相关文章推荐

10个预训练模型开始你的深度学习（计算机视觉部分） 0 点赞 ⋅ 0 回复 ⋅ 1年前
2021 年 11 月初，VIVO & 地平线视觉工程师面经 0 点赞 ⋅ 0 回复 ⋅ 1年前
2021 年 7 月底，“陌陌”推荐算法 5 道面试题分享！ 0 点赞 ⋅ 0 回复 ⋅ 1年前
2021 年 CV 岗位精选面试题（21-31） 0 点赞 ⋅ 0 回复 ⋅ 1年前
CV 岗位精选面试题（11-13） 0 点赞 ⋅ 0 回复 ⋅ 1年前
CV 精选知识点：DPM（Deformable Parts Model）算法流程详解 0 点赞 ⋅ 0 回复 ⋅ 1年前
DeepMind新作生成查询网络GQN：无监督渲染3D场景 0 点赞 ⋅ 0 回复 ⋅ 1年前
MIT开放源码CV模型，它在45分钟内自学目标检测（附Github代码） 0 点赞 ⋅ 0 回复 ⋅ 1年前
TensorFlow、Caffe等9大主流人工智能框架优劣势分析 0 点赞 ⋅ 0 回复 ⋅ 1年前
你的AI技能没你想的那么值钱，来自一位AI前辈的忠告！ 0 点赞 ⋅ 0 回复 ⋅ 1年前
使用CNN对历史文本和图像进行分类和解码 0 点赞 ⋅ 0 回复 ⋅ 1年前
十行代码搞定目标检测 0 点赞 ⋅ 0 回复 ⋅ 1年前
只用一张训练图像进行图像的恢复 0 点赞 ⋅ 0 回复 ⋅ 1年前
图像分割的主要算法 0 点赞 ⋅ 0 回复 ⋅ 1年前
图像处理库综述 0 点赞 ⋅ 0 回复 ⋅ 1年前
基于GAN实现图像锐化应用（附代码） 0 点赞 ⋅ 0 回复 ⋅ 1年前
如何在Tensorflow.js中处理MNIST图像数据 0 点赞 ⋅ 0 回复 ⋅ 1年前
如何解决计算机视觉中的深度域适应问题？ 0 点赞 ⋅ 0 回复 ⋅ 1年前
对比图像分类五大方法：KNN、SVM、BPNN、CNN和迁移学习 0 点赞 ⋅ 0 回复 ⋅ 1年前
张枫：计算机视觉技术在虎牙直播中的实践 0 点赞 ⋅ 0 回复 ⋅ 1年前

1
2

全部评论: 0 条

我有话说:

star2017
- 1298发布
- 0评论
收藏 0