人脸图像识别（人脸识别技术全面总结）

小仓 • 2023年12月4日上午5:57 • 网络快讯

人脸图像识别（人脸识别技术全面总结）英国赫特福德大学与GBGPlc的研究者近日发布了一篇综述论文，对人脸识别方法进行了全面的梳理和总结，其中涵盖各种传统方法和如今风头正盛的深度学习方法。本文将介绍其中有关深度学习的技术。其他内容可以参阅原论文。链接在下方文献参考中。…

人脸图像识别（人脸识别技术全面总结）

英国赫特福德大学与 GBG Plc 的研究者近日发布了一篇综述论文，对人脸识别方法进行了全面的梳理和总结，其中涵盖各种传统方法和如今风头正盛的深度学习方法。本文将介绍其中有关深度学习的技术。
其他内容可以参阅原论文。链接在下方文献参考中。

自七十年代以来，人脸识别已经成为了计算机视觉和生物识别领域最热的方向之一。而基于大型数据集训练的深度神经网络，基本取代了基于人工设置的特征和传统机器学习技术的传统方法。在这篇论文中，对主流的人脸识别方法进行了全面且最新的文献总结，其中包括传统方法（基于几何的方法、整体方法、基于特征的方法和混合方法），以及深度学习方法。

引言

人脸识别是指能够识别或验证图像与视频中的主体的身份的技术。首个人脸识别算法诞生于七十年代初。现在，相比于指纹或虹膜识别等传统上被认为更加稳健的生物识别方法，人们往往更偏爱人脸识别。其中一个重要原因是，人脸识别是非侵入性的。比如，指纹识别需要用户将手指按在传感器上，虹膜识别需要用户与相机靠得很近，语音识别则需要用户大声说话。相对而言，现代人脸识别系统仅需要用户处于相机的视野内（假设他们与相机的距离也合理）。这使得人脸识别成为了对用户最友好的生物识别方法。同时，人脸识别的潜在应用范围更广，因为它能够让人脸信息被被动收集，比如在监控系统中的应用。人脸识别的其它常见应用还包括访问控制、欺诈检测、身份认证和社交媒体。

当被部署在无约束条件的环境中时，由于人脸图像在现实世界中的呈现具有高度的可变性（这类人脸图像通常被称为自然人脸（faces in-the-wild）），所以人脸识别也是技术难度最高的生物识别方法之一。人脸图像可变的地方包括头部姿势、年龄、光照条件、表情和遮挡。图 1 给出了这些情况的示例。

图 1：在自然人脸图像中找到的典型变化。（a）头部姿势，（b）年龄，（c）光照，（d）面部表情，（e）遮挡。

人脸识别技术在这些年已经发生了重大的变化。传统方法依赖于人工设计的特征（比如边和纹理描述）与机器学习技术（比如主成分分析、线性判别分析或支持向量机）的组合。人工设计在无约束环境中对不同变化情况的特征识别是很困难的，这使得过去的研究者侧重研究针对每种变化类型的专用方法，比如能应对不同年龄的方法、能应对不同姿势的方法、能应对不同光照条件的方法等。近段时间，传统的人脸识别方法已经被基于卷积神经网络（CNN）的深度学习方法代替。深度学习方法的主要优势是，它们可以用大型的数据集进行训练，从而学习到表征这些数据的最佳特征。网络上可用的大量自然人脸图像就是最容易收集的人脸数据集，这些图像包含了真实世界中的各种变化情况。使用这些数据集训练的基于 CNN 的人脸识别方法已经达到了非常高的准确度。此外，深度学习方法在计算机视觉方面的不断普及也在加速人脸识别研究的发展，比如 CNN 也正被用于解决许多其它计算机视觉任务，比如目标检测和识别、分割、光学字符识别、面部表情分析、年龄估计等。

人脸识别系统通常由以下构建模块组成：

人脸检测
。人脸检测器用于寻找图像中人脸的位置，如果有人脸，就返回包含每张人脸的边界框的坐标。如图 3（a）所示。
人脸对齐
。人脸对齐的目标是使用一组位于图像中固定位置的参考点来缩放和裁剪人脸图像。这个过程通常需要使用一个特征点检测器来寻找一组人脸特征点，然后通过仿射变换进行人脸 2D 对齐。图 3（b）和 3（c）展示了两张使用了同一组参考点对齐后的人脸图像。更复杂的 3D 对齐算法还能实现人脸正面化，即将人脸的姿势调整到正面向前。
人脸表征
。在人脸表征阶段，人脸图像的像素值会被转换成紧凑且可判别的特征向量，这也被称为模板（template）。理想情况下，同一个主体的所有人脸都应该映射到相似的特征向量。
人脸匹配
。在人脸匹配构建模块中，两个模板会进行比较，从而得到一个相似度分数，即判断两者属于同一个主体的可能性。

图 2：人脸识别的构建模块。

很多人认为人脸表征是人脸识别系统中最重要的部分，这也是本论文第二节所关注的重点。

图 3：（a）人脸检测器找到的边界框。（b）和（c）：对齐后的人脸和参考点。

深度学习方法

卷积神经网络（CNN）是人脸识别方面最常用的一类深度学习模型。深度学习的主要优势是可用大量数据来训练，从而学习数据的特征。但最大的困难也是需要收集大量的数据，并且这些数据中需要包含足够的差异，从而模型可以泛化到未曾见过的样本上。现在，一些包含自然人脸图像的大规模人脸数据集已被公开，供研究人员使用。除了学习判别特征，神经网络还可以降维，并可被训练成分类器或使用度量学习方法。CNN 被认为是端到端可训练的系统，无需与任何其它特定方法结合。

CNN 有不同的训练方式。其中之一是将人脸识别问题当作一个分类问题，训练集中的每个主体都对应一个类别。训练完之后，可以通过去除分类层，并将之前层的特征用作人脸表征，然后将该模型用于识别不存在于训练集中的主体。在文献中，这些特征通常被称为瓶颈特征（bottleneck features）。在这第一个训练阶段之后，该模型可以使用其它技术来进一步训练，以为目标应用优化瓶颈特征（比如使用联合贝叶斯或使用一个不同的损失函数来微调该 CNN 模型）。另一种学习人脸表征的常用方法是通过人脸对，或人脸三元组之间的距离度量来直接学习瓶颈特征。

使用神经网络来做人脸识别并不是什么新方法。1997 年就有研究者为人脸检测、眼部定位和人脸识别提出了「基于概率决策的神经网络（PBDNN）」方法。这种人脸识别 PDBNN 能够降低隐藏单元的数量同时避免过拟合。研究者使用密度和边特征分别训练了两个 PBDNN，然后将它们的输出组合起来得到最终分类结果。另一种早期方法则组合使用了自组织映射（SOM）和卷积神经网络。自组织映射是一类以无监督方式训练的神经网络，可将输入数据映射到更低维的空间，同时也能保留输入空间的拓扑性质（即在原始空间中相近的输入在输出空间中也相近）。注意，这两种早期方法都不是以端到端的方式训练的，而且提出的神经网络架构也都很浅。有论文提出了一种端到端的人脸识别 CNN。这种方法使用了一种孪生式架构，并利用一个对比损失函数来进行训练。这个对比损失使用了一种度量学习流程，其目标是最小化对应同一主体的特征向量对之间的距离，同时最大化对应不同主体的特征向量对之间的距离。该方法中使用的 CNN 架构也很浅，且训练数据集也较小。

上面提到的方法都未能取得突破性的成果，主要原因是网络的设计有所欠缺，且训练时能用的数据集也相对较小。直到这些深度学习模型得到发展并使用大量数据训练后，用于人脸识别的首个深度学习方法才达到了可用且优秀的水平。尤其值得一提的是 Facebook 的 DeepFace，这是最早的基于 CNN 的人脸识别模型。该模型在 LFW 基准上实现了 97.35% 的准确度，相比之前最好的错误率降低了 27%。研究者使用 softmax 和一个包含 440 万张人脸（来自 4030 个主体）的数据集训练了一个 CNN模型。该项目有两个突破性的贡献：（1）一个基于明确的 3D 人脸建模的高效人脸对齐系统；（2）一个包含局部连接层的 CNN 架构，这些层不同于常规的卷积层，可以从图像中的每个区域学到不同的特征。

对于基于 CNN 的人脸识别方法，影响准确度的因素主要有三个：训练数据、CNN 网络结构和损失函数。一般而言，为分类任务训练的 CNN 的准确度会随每类的样本数量的增长而提升。这是因为当类内差异更多时，CNN 模型能够学习到更多的特征，从而泛化到训练集中未曾出现过的主体。有论文研究了数据集中主体的数量对人脸识别准确度的影响。究竟是更宽的数据集更好，还是更深的数据集更好（如果一个数据集包含更多主体，则认为它更宽；类似地，如果每个主体包含的图像更多，则认为它更深）？这项研究总结到：如果图像数量相等，则更宽的数据集能得到更好的准确度。研究者认为这是因为更宽的数据集包含更多类间差异，因而能更好地泛化到未曾见过的主体上。表 1 展示了一些最常用于训练人脸识别的公开数据集。

表 1：公开的大规模人脸数据集。

用于人脸识别的 CNN 架构从那些在 ImageNet 大规模视觉识别挑战赛（ILSVRC）上表现优异的架构上取得了很多灵感。举个例子，[11] 中使用了一个带有 16 层的 VGG 网络 [112] 版本，[10] 中则使用了一个相似但更小的网络。[102] 中探索了两种不同类型的 CNN 架构：VGG 风格的网络 [112] 和 GoogleNet 风格的网络 [113]。即使这两种网络实现了相当的准确度，但 GoogleNet 风格的网络的参数数量少 20 倍。更近段时间，残差网络（ResNet）[114] 已经成为了很多目标识别任务的最受偏爱的选择，其中包括人脸识别 [115-121]。ResNet 的主要创新点是引入了一种使用捷径连接的构建模块来学习残差映射，如图 7 所示。捷径连接的使用能让研究者训练更深度的架构，因为它们有助于跨层的信息流动。在准确度、速度和模型大小之间的最佳权衡是使用带有一个残差模块的 100 层 ResNet 得到的。

图 7：[114] 中提出的原始的残差模块。

选择用于训练 CNN 方法的损失函数已经成为近来人脸识别最活跃的研究领域。即使使用 softmax 损失训练的 CNN 已经非常成功，但也有研究者认为使用这种损失函数无法很好地泛化到训练集中未出现过的主体上。这是因为 softmax 损失有助于学习能增大类间差异的特征（以便在训练集中区别不同的类），但不一定会降低类内差异。研究者已经提出了一些能缓解这一问题的方法。优化瓶颈特征的一种简单方法是使用判别式子空间方法，比如联合贝叶斯。另一种方法是使用度量学习。比如，[100,101] 中使用了配对的对比损失来作为唯一的监督信号，[124-126] 中还结合使用了分类损失。人脸识别方面最常用的度量学习方法是三元组损失函数。三元组损失的目标是以一定余量分开正例对之间的距离和负例对之间的距离。从数学形式上讲，对于每个三元组，需要满足以下条件：

其中 x_a 是锚图像，x_p 是同一主体的图像，x_n 是另一个不同主体的图像，f 是模型学习到的映射关系，α 施加在正例对和负例对距离之间的余量。在实践中，使用三元组损失训练的 CNN 的收敛速度比使用 softmax 的慢，这是因为需要大量三元组（或对比损失中的配对）才能覆盖整个训练集。尽管这个问题可以通过在训练阶段选择困难的三元组（即违反余量条件的三元组）来缓解 [102]，但常见的做法是在第一个训练阶段使用 softmax 损失训练，在第二个训练阶段使用三元组损失来对瓶颈特征进行调整 [11,129,130]。研究者们已经提出了三元组损失的一些变体。比如 [129] 中使用了点积作为相似度度量，而不是欧几里德距离；[130] 中提出了一种概率式三元组损失；[131,132] 中提出了一种修改版的三元组损失，它也能最小化正例和负例分数分布的标准差。用于学习判别特征的另一种损失函数是 [133] 中提出的中心损失（centre loss）。中心损失的目标是最小化瓶颈特征与它们对应类别的中心之间的距离。通过使用 softmax 损失和中心损失进行联合训练，结果表明 CNN 学习到的特征能够有效增大类间差异（softmax 损失）和降低类内个体差异（中心损失）。相比于对比损失和三元组损失，中心损失的优点是更高效和更容易实现，因为它不需要在训练过程中构建配对或三元组。另一种相关的度量学习方法是 [134] 中提出的范围损失（range loss），这是为改善使用不平衡数据集的训练而提出的。范围损失有两个组件。类内的损失组件是最小化同一类样本之间的 k-最大距离，而类间的损失组件是最大化每个训练批中最近的两个类中心之间的距离。通过使用这些极端案例，范围损失为每个类都使用同样的信息，而不管每个类别中有多少样本可用。类似于中心损失，范围损失需要与 softmax 损失结合起来以避免损失降至零 [133]。

当结合不同的损失函数时，会出现一个困难，即寻找每一项之间的正确平衡。最近一段时间，已有研究者提出了几种修改 softmax 损失的方法，这样它无需与其它损失结合也能学习判别特征。一种已被证明可以增加瓶颈特征的判别能力的方法是特征归一化 [115,118]。比如，[115] 提出归一化特征以具有单位 L2 范数，[118] 提出归一化特征以具有零均值和单位方差。一个成功的方法已经在 softmax 损失中每类之间的决策边界中引入了一个余量 [135]。为了简单，我们介绍一下使用 softmax 损失进行二元分类的情况。在这种情况下，每类之间的决策边界（如果偏置为零）可由下式给定：

其中 x 是特征向量，W_1 和 W_2 是对应每类的权重，θ_1 和 θ_2 是 x 分别与 W_1 和 W_2 之间的角度。通过在上式中引入一个乘法余量，这两个决策边界可以变得更加严格：

如图 8 所示，这个余量可以有效地增大类别之间的区分程度以及各自类别之内的紧凑性。根据将该余量整合进损失的方式，研究者们已经提出了多种可用方法 [116,119-121]。比如 [116] 中对权重向量进行了归一化以具有单位范数，这样使得决策边界仅取决于角度 θ_1 和 θ_2。[119,120] 中则提出了一种加性余弦余量。相比于乘法余量 [135,116]，加性余量更容易实现和优化。在这项工作中，除了归一化权重向量，特征向量也如 [115] 中一样进行了归一化和比例调整。[121] 中提出了另一种加性余量，它既有 [119,120] 那样的优点，还有更好的几何解释方式，因为这个余量是加在角度上的，而不是余弦上。表 2 总结了有余量的 softmax 损失的不同变体的决策边界。这些方法是人脸识别领域的当前最佳。

图 8：在两个类别之间的决策边界中引入一个余量 m 的效果。（a）softmax 损失，（b）有余量的 softmax 损失。

表 2：有余量的 softmax 损失的不同变体的决策边界。注意这些决策边界针对的是二元分类案例中的类别 1。

小仓

0 0

科普｜可可脂和代可可脂有什么区别？

金币巧克力，石头巧克力，5毛钱巧克力，星球杯，脆脆鲨，麦丽素，俄罗斯紫皮糖……这些「巧克力」，我小时候老喜欢吃了，很多到现在也爱买。不过很多年之后才注意到，它们的包装上大多都有注明是“代可可脂”。代可可脂，顾名思义不是真的可可脂。它和可可脂究竟有什么区别？相差大吗？1、什么…

小仓
网络快讯 2023年11月16日
00
网络快讯

微博热搜榜排名今日11.2 微博热搜榜今日事件11月2日

微博热搜榜排名今日11.2有什么内容？微博热搜榜会事实显示热门新鲜事，那么今天都有哪些事情上了热搜榜呢？感兴趣的玩家们一起来看看今天微博热搜榜11月2日一览吧。微博热搜榜排名今日11.218岁弟弟被姐姐带去打九价近日，广东广州。王同学晒姐姐带着自己去打九价的照片引网友羡慕。8岁女…

小仓
2023年11月5日
00
汪苏泷十大金曲排行榜，网友：歌红人不红，心疼

说起汪苏泷，也是小编高中时候最喜欢的一个网络歌手了，唱了很多大家耳熟能详的歌曲，无奈歌红人不红，后台无背景。TOP10、小星星你就是我的小星星，挂在天空放光明…一首简单轻快的小情歌，唱给心爱的女孩，配上汪苏泷沙哑的嗓音十分动听。TOP9、专属味道这是一首合唱…

小仓
网络快讯 2023年11月16日
00
埃菲尔铁塔有多高？

埃菲尔铁塔自1889年3月31日开放以来，一直是巴黎人身份的有力象征。它由著名的法国工程师古斯塔夫·埃菲尔设计，代表了现代性的顶峰，以其独特的格子设计超越了灯火之城。这是第一座这样的塔，并在接下来的一个世纪里激发了一系列未来的城市塔楼。如今，这座塔已成为巴黎的标志，象征着浪漫、美丽、巴黎历史上的…

小仓
网络快讯 2023年11月16日
00
教你学会被爱的前提是什么?

01、自信，你值得拥有爱情。被爱需要前提吗？我认为，每一个生命都值得被爱。当然，一个优秀的人，可能会吸引更多的异性，但是普通的人，一样也有机会遇见那个正确的人。并且，哪一方几率更大，这个并不好说，因为人是一种极其善于伪装的动物，有时候，选择多也未必是一件好事，选择越多，就意味着选错…

小仓
网络快讯 2023年11月13日
00
拍照镜头常识，定焦和变焦的区别，以及它们的优点

定焦镜头和变焦镜头摄影镜头从镜头可否变换焦距来说，可以将镜头分成定焦镜头和变焦镜头两种。定焦镜头指的是焦距固定不能变焦的镜头。定焦镜头没有变焦功能，所以在设计上要简单得多，因此可以达到很高的成像质量。另外，这种镜头的拍摄范围是固定的，想要变换拍摄范围，就必须改变与被摄主体之间的距离，就是所谓…

小仓
网络快讯 2023年11月14日
00
就业好的211大学排名（顶尖211大学非985前十名）

中国政法大学在整个中国法学界的影响力深远、认可度也非常的高。不过这所名校一直以来就因为未被教育部评为985大学，仅仅只是211大学而备受争议，每年高考生报考的时候都非常纠结！接下来，就跟随笔者一起来看看中国政法大学在211大学中到底排名如何，是否值得大家报考呢！笔者根据四川省教育考试院分享的20…

小仓
网络快讯 2023年12月13日
00
苹果手机共享位置未找到对方位置苹果手机共享位置未找到

【引言】苹果手机的共享位置功能可以让用户实时分享自己的地理位置信息，方便与亲友进行定位和交流。然而，有时候我们可能会遇到共享位置未能找到对方位置的问题，下面将详细解析可能的原因，并提供解决方法。【原因一：网络连接不稳定】共享位置功能需要依赖网络连接进行数据传输，如果你或对方的网络连接不…

小仓
网络快讯 2023年12月18日
00
20万元水晶洞价格图片！好的紫晶洞都是什么形状！【띲띪띺띧】

目前来说紫水晶洞的价格参差不齐，几乎各种价位都有。每公斤从几十到几百的不等。其中最好的要数乌拉圭紫水晶洞，那种颜色比较深，紫色中透出酒红色的火光，看上去也是非常的迷人！其实每个人的审美不同，对于选择紫晶洞上也有所不同！那么对于高品质的紫水晶洞你有什么样的了解呢？20万元水晶洞价格图片！好的紫晶洞都是…

小仓
网络快讯 2023年11月8日
00
熬夜导致月经推迟怎么调理熬夜会导致月经推迟吗

熬夜内分泌失调会导致月经推迟女性长期熬夜或者失眠、昼伏夜出会改变身体原有的生物钟，从而引发机体生命节律发生紊乱。这种紊乱将导致一系列内分泌功能的失调，激素分泌合成不平衡，处在一个不平衡的状态，进而影响女性的排卵周期。一旦排卵周期被打乱，就可能出现月经不规律，随之会使孕激素分泌紊乱。女性经…

小仓
网络快讯 2023年12月15日
00

发表回复

登录后才能评论

人脸图像识别（人脸识别技术全面总结）

相关推荐

发表回复