添加微信：julyedufu77，回复 “ 7 ”，领取最新升级版《名企 AI 面试 100 题》电子书！！

11、当参数量 >> 样本量时候，神经网络是如何预防过拟合？

正则化 2. Early Stopping 3. Dropout 4. 数据增强

过拟合即在训练误差很小，而泛化误差很大，神经网络时避免过拟合的方法：

正则化

正则化的思想十分简单明了。由于模型过拟合极有可能是因为我们的模型过于复杂。因此，我们需要让我们的模型在训练的时候，在对损失函数进行最小化的同时，也需要让对参数添加限制，这个限制也就是正则化惩罚项。

假设我们模型的损失函数为：

加入正则项 L 后，损失函数为：

常用的正则化有两种：L1 正则和 L2 正则

L1 正则表达式：

其中 w 代表模型的参数，k 代表模型参数的个数。

L2 正则表达式：

其中 w 代表模型的参数，k 代表模型参数的个数。

L1 正则与 L2 正则的思想就是不能够一味的去减小损失函数，你还得考虑到模型的复杂性，通过限制参数的大小，来限制其产生较为简单的模型，这样就可以降低产生过拟合的风险。

它们的区别在于 L1 更容易得到稀疏解。为什么呢？我们先看看一个直观的例子：

假设我们模型只有 w1,w2 两个参数，上图中左图中黑色的正方形是 L1 正则项的等值线，而彩色的圆圈是模型损失的等值线；右图中黑色圆圈是 L2 正则项的等值线，彩色圆圈是同样模型损失的等值线。因为我们引入正则项之后，我们要在模型损失和正则化损失之间折中，因此我们去的点是正则项损失的等值线和模型损失的等值线相交处。通过上图我们可以观察到，使用 L1 正则项时，两者相交点常在坐标轴上，也就是 w1,w2 中常会出现 0；而 L2 正则项与等值线常相交于象限内，也即为 w1,w2 非 0。因此 L1 正则项时更容易得到稀疏解的。

而使用 L1 正则项的另一个好处是：由于 L1 正则项求解参数时更容易得到稀疏解，也就意味着求出的参数中含有 0 较多。因此它自动帮你选择了模型所需要的特征。L1 正则化的学习方式是一种嵌入式特征学习方式，它选取特征和模型训练时一起进行的。

12、什么是感受野？

某一层特征图中的一个 cell,对应到原始输入的响应的大小区域。

本文地址：CV 岗位精选面试题（11-13）
本文版权归作者和AIQ共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出

什么是感受野

感受野(Receptive Field)，指的是神经网络中神经元“看到的”输入区域，在卷积神经网络中，feature map 上某个元素的计算受输入图像上某个区域的影响，这个区域即该元素的感受野。

卷积神经网络中，越深层的神经元看到的输入区域越大，如下图所示，kernel size 均为 3×3，stride 均为 1，绿色标记的是 Layer2 每个神经元看到的区域，黄色标记的是 Layer3 看到的区域，具体地，Layer2 每个神经元可看到 Layer1 上 3×3 大小的区域，Layer3 每个神经元看到 Layer2 上 3×3 大小的区域，该区域可以又看到 Layer1 上 5×5 大小的区域。

所以，感受野是个相对概念，某层 feature map 上的元素看到前面不同层上的区域范围是不同的，通常在不特殊指定的情况下，感受野指的是看到输入图像上的区域。

13、简述你对 CBIR(Content-based Image Retrieval 基于内容的图像检索)的理解

通过对比特征点\特征值的相似度，判断两个图片是否相近

基于内容的图像检索

基于内容的图像检索(CBIR, Content Based Image Retrieval)是相对成熟的技术领域，在工业界也有广泛的应用场景，如搜索引擎（Google、百度）的以图搜图功能，各电商网站（淘宝、Amazon、ebay）的相似商品搜索，社交平台（Pinterest）的相似内容推荐等。

基于内容的图像检索流程

图像内容检索流程与文本检索流程类似，但二者信息表征方法不同。文本通过词频计算 BoW 来表征一段文本内容，而图像则使用视觉特征来表示。Google 团队 2003 年[1]提出的视频内容检索方法借鉴文本检索流程，使用局部特征构建视觉词袋向量(Bag-of-Visual-Words，BoVW), 也称 BoF(Bag-of-Features), 来表示图像。这里的视觉单词是指量化后的视觉特征。Video-Google[1]中检索系统也分为构建词库、构建索引和检索三部分。下图是视觉词库构建流程：

对图像提取若干个局部特征描述子，如 SIFT，对这些描述子进行量化。量化器通常通过聚类得到：对特征描述子集合进行 k-means 聚类，聚类后得到的 k 个质心即为视觉单词。描述子 desc 的量化结果 q(desc)为与 desc 最相近的质心的索引。所有质心构成了视觉词表。图像中的特征单词的词频构成了该图像的向量描述 BoVW。假设视觉词表中的单词个数为 N，那么 BoVW 向量的长度为 N，向量中的元素为对应单词出现在该图像中的频次或者采用采用 td-idf 权重更新向量中每个元素值。

基于得到的视觉词库，计算所有图像(或视频中帧)数据的 BoVW 向量。检索进程启动时，将目标数据库中所有图像的 BoVW 向量构建索引。输入一副检索图像，提取该图像的 BoVW 特征，然后与目标库向量进行距离比对，查找近邻向量。最直观的查找方法是蛮力查找即将查询向量 q 与所有的 BoVW 向量进行距离计算。这种穷举方式对大数据集或高维向量的查找效率非常低。为改进这个问题，Video-Google[1]提出采用倒排文件 IVF 结构进行索引构建，IVF 索引结构如下图所示。图中 i 表示每个视觉单词。

由于词向量通常是很稀疏的，我们无需遍历目标库中的所有文件，因而可以通过建立倒排文件，对每个单词构建一个列表，列表中是所有包含当前单词的图像 meta 信息。检索时，只需要计算那些与当前查询图像包含相同单词的图像的 BoVW 向量间的距离即可，即通过减小搜索范围来降低搜索复杂度。

Video-Google 提供了经典的基于内容的图像检索流程，核心技术可以总结为两点：特征提取和近邻查找。后续图像检索基于大多基于此思想，针对不同业务场景下的数据特点，对涉及的特征提取和近邻查找技术进行优化，最终目标是提取能够高效表征图像的特征向量，进行快速视觉内容查找。

更多内容可以查看：赵丽丽：基于内容的图像检索技术：从特征到检索

【TPAMI 重磅综述】 SIFT 与 CNN 的碰撞：万字长文回顾图像检索任务十年探索历程（上）： ZL LI：【TPAMI 重磅综述】 SIFT 与 CNN 的碰撞：万字长文回顾图像检索任务十年探索历程（上）

论文 SIFT Meets CNN: A Decade Survey of Instance Retrieval：
https://arxiv.org/pdf/1608.01807.pdf

添加微信：julyedufu77，回复 “ 7 ”，领取最新升级版《名企 AI 面试 100 题》电子书！！

本文地址：https://www.6aiq.com/article/1622139022021
本文版权归作者和AIQ共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出

更多内容请访问：IT源点

注意：本文归作者所有，未经作者允许，不得转载

CV 岗位精选面试题（11-13）

添加微信：julyedufu77，回复 “ 7 ”，领取最新升级版《名企 AI 面试 100 题》电子书！！

11、当参数量 >> 样本量时候，神经网络是如何预防过拟合？

12、什么是感受野？

13、简述你对 CBIR(Content-based Image Retrieval 基于内容的图像检索)的理解

添加微信：julyedufu77，回复 “ 7 ”，领取最新升级版《名企 AI 面试 100 题》电子书！！

全部评论: 0 条

本文目录

热门标签

程序员导航

热门文章

阿里云新老用户最新优惠

最新发布

最新评论

CV 岗位精选面试题（11-13）

添加微信：julyedufu77，回复 “ 7 ”，领取最新升级版《名企 AI 面试 100 题》电子书！！

11、当参数量 >> 样本量时候， 神经网络是如何预防过拟合？

12、什么是感受野？

13、简述你对 CBIR(Content-based Image Retrieval 基于内容的图像检索)的理解

添加微信：julyedufu77，回复 “ 7 ”，领取最新升级版《名企 AI 面试 100 题》电子书！！

全部评论: 0 条

本文目录

热门标签

程序员导航

热门文章

阿里云新老用户最新优惠

最新发布

最新评论

11、当参数量 >> 样本量时候，神经网络是如何预防过拟合？