“世界权威评测冠军：百度人脸检测算法PyramidBox的背后”-爱美食网

本篇文章3181字，读完约8分钟

最近，百度利用新的人脸检测深度学习算法pyramidbox，在全球权威人脸检测公开评测集wider face的“easy”、“medium”、“hard”三个评测子集中排名第一，业界表现良好论文简要介绍该算法背后的技术。

1引言

人脸检测是各种人脸APP测试中的基本任务。 viola - jones [1]的独创性研究利用具有类哈尔特征的adaboost算法来训练级联脸部和非人脸部的分类器。之后，不断有人深入研究[ 2，3，4，5，6，7 ]以改进级联检测器。然后，[8、9、10]通过对可变形的面部关系进行建模，将可变形部件模型( dpm )导入到面部检测任务中。这些方法主要基于设计的特点，这些特点表现性差，经过分离的步骤训练。

近年来，卷积神经互联网( cnn )取得了很大的突破，基于cnn的现代目标检测技术在人脸检测方面取得了很大的进展。例如，多亏了r-CNN(11、12、13、14 )、SSD )、Yolo(16 )、focalloss ) 17 )及其扩展产物强大的深度学习方法和端到端的优化，cnn

现有的基于anchor的检测框架，如wider face[ 18 ]所示，是以检测不受控制的环境的非常规脸部为目的的。 ssh [ 19 ]和s3fd [ 20 ]为了在单一的神经互联网中检测来自不同层的尺度不同的面孔，开发了尺度不变的互联网。面部r - fcn [ 21 ]利用位置敏感的平均池，对嵌入在得分图中的响应进行重新加权，消除面部各部位不均匀分布的影响。 fan [ 22 ]提出了anchor级的观察机制，通过强调脸部区域的特征来检测被遮挡的脸部。

这些事业为设计anchor和相关互联网检测不同尺度的人脸提供了比较有效的方法，但利用上下文新闻进行人脸检测还没有得到足够的重视，该问题在非常规人脸检测中应发挥重要的意义。很明显，人脸不会单独出现在现实世界中，肩膀和身体一般也一起出现，特别是在分辨率低、模糊、由于外部遮挡而无法区别人脸纹理的情况下，提供了丰富的上下文相关资源。与这个问题相比，我们提出了一种新的上下文辅助互联网框架，完全利用上下文信号，具体步骤如下

首先，互联网不仅要学习人的脸部特征，还必须学习头和身体等上下文部分的特征。为了实现这一点，需要添加标签，并设计与之匹配的anchor。在本任务中，我们利用半监督处理方案生成脸部相关上下文部分的近似标签，同时发明了一系列名为pyramidanchors的anchor，添加到基于anchor的常规架构中。

其次，高层次语境特征必须与低层次语境特征充分结合。通常的脸和非常规则的脸的外观可能有很大的不同。这意味着并非所有的语义特征都有助于识别小脸。我们将研究featurepyramidnetworks图1:pyramid盒体系结构。这包括可缩放主层、低级特征金字塔层( lfpn )、对上下文敏感的预测层和pyramidbox损耗层。的性能，将其水平改为低级别的feature pyramid network( lfpn )，结合相互有用的特征。

第三，预计分支互联网应完全利用合作的特点。为了将对象脸部周围的语境新闻与更广阔更深入的互联网结合起来，我们引入了语境敏感预测模块( cpm )。另外，为了进一步提高分类互联网的性能，提出了可以预测模块的大输入输出层。

此外，提出了名为“数据-anchor-采样”的培训战略，调整了培训数据集的分布。为了学习更具代表性的特征，非定型的面孔样本的多样化很重要，可以通过样本间的数据扩展来获得。

为了明确表达，本研究可以归纳为以下五点。

1 .本文提出一种基于anchor的语境支持方法pyramidanchors，从而引入有监控的新闻，学习小、模糊、部分隐藏的人面部的语境特征。

2、我们设计了低级特征金字塔互联网( lfpn )，更好地融合了语境特征和面部特征。另外，这种做法在一次拍摄中可以很好地解决不同尺度的人的脸部。

3 .我们提出了一种由混合互联网结构和大输入输出层组成的、对根据融合特征学习准确定位和分类的语境敏感的预测模型

4 .我们提出可以感知尺度的数据-anchor-采样战略，改变训练样本的分布，关注小脸。

5 .在通用人脸检测标准fddb和wider face上，我们达到了目前的好水平。

3行星盒

3.1互联网体系结构

基于anchor许多复杂anchor设计的目标检测框架表明，当在不同级别的特征图上执行预测时，可以相对有效地解决可变尺度的面部。另外，fpn结构表明融合上层的特征和下层的特征会带来很大的特征。 pyramidbox (图1 )的架构采用与s3FD )相同的扩展vgg16主干网架构和anchor尺度设计，可以生成与不同层次的特征图等比的anchor。低级的fpn被添加到这个骨干架构中，同时采用对上下文敏感的预测模块作为各个pyramid检测层的分支互联网来获得最终的输出。这个方法的关键是我们设计了新的pyramid anchor方法。这可以为每个面部在不同的级别上生成一系列锚点。架构中每个组件的详细信息如下:

可缩放的骨干互联网层。我们采用s3fd基层和附加卷积层作为骨干互联网层，其中保存从vgg16的conv 1_1层到pool 5层，然后将fc 6层和fc 7层转换为conv fc层，增加越来越多的卷积层加深。

低级特征金字塔层。为了提高人脸检测器解决不同尺度人脸的能力，高分辨率的低级特征起着重要的作用。因此，目前很多优秀的研究[ 25，20，22，19 ]都是在同一帧内构建不同的结构来检测可变尺寸的面部。其中，高级别的特征用于检测尺寸大的脸部，低级的特征用于检测尺寸小的脸部。为了将高级特征整合为高分辨率的低级特征，fpn[23]提出了自上而下的框架，以利用所有尺度的高级语义特征图。最新的研究表明，fpn型框架在目标检测和人脸检测上都取得了相当好的性能。

通过自上而下的中间层结构，我们构建了低级别的特征金字塔互联网( lfpn )。其感受野不是顶级的一半，而是接近输入大小。另外，各lfpn块的结构与fpn [23]相同，越来越多的新闻参见图2(a )。

[23]

图2(a )具有特色的金字塔互联网。 ) b )对上下文敏感的预测模块。 ( c )支付箱损失。

4实验

表1 )从不同层开始的lfpn的表现。

表2:pyramidanchors的参数。

表3 :对上下文敏感的预测模块。

表4:pyramidbox的wider face验证子集的结果。

论文: pyramid box:a上下文辅助设计器

面部检测研究从多年前就开始了，在不受控制的环境中检测小、模糊和部分隐藏的面部仍然是一个需要处理的课题。与棘手的人脸检测问题相比，本文提出了一种上下文辅助的单一人脸检测新方法pyramidbox。考虑到语境的重要性，我们将从以下三个方面改进语境新闻的利用。首先，我们设计了全新的语境anchor，用半监督的方式监督高级语境特征学习。我们称之为粒子加速器。其次，我们提出了一种低层二级特征金字塔互联网，将足够高级别的上下文语义特征和低级的人脸特征结合起来，使得pyramidbox能够一次预测所有大小的人脸，而不会重复。再次，我们引入了对语境敏感的结构，扩大了预测互联网的容量，提高了最终的输出精度。此外，还使用“数据-anchor-采样”的方法扩展了不同大小的训练样本，增加了小面孔训练数据的多样化。 pyramidbox完全利用语境的价值，在两个常用的人脸检测标准fddb和wider face上脱颖而出，取得了目前的优势水平。

标题：“世界权威评测冠军：百度人脸检测算法PyramidBox的背后”

地址：http://www.exzhan.com/spzx/18518.html

“世界权威评测冠军：百度人脸检测算法PyramidBox的背后”

爱美食网阅读榜

24小时推荐文章

““瞬间传输”：潘建伟团队实现地星间量子隐形传态”

跨境电商发展现状分析

腾讯云国际站账号助力您实现全球化业务布局,开启全球业务新征程

“可口可乐中粮传分手”

京士顿旅游：探索加拿大安大略省的优雅之都

精彩图文推送

新闻浏览榜

爱美食网介绍