人脸识别的发展历史是怎样的?
第一阶段(1964 ~1990)
现阶段,人脸识别通常只是作为一般的模式识别问题来研究,采用的主要技术方案是基于人脸几何特征的方法。这主要体现在人们对侧面轮廓的研究上,人们对面部轮廓曲线的结构特征的提取和分析做了大量的研究。人工神经网络曾被研究人员用于人脸识别。除了布莱索之外,还有其他较早从事AFR研究的研究者,如果尔德施坦因、哈蒙和金德武夫。金武夫于1973在京都大学完成了他的第一篇关于AFR的博士论文。直到现在,作为卡耐基梅隆大学(CMU)机器人研究所的教授,他仍然是人脸识别领域的活跃人物之一。他的研究组也是人脸识别领域的重要力量。总的来说,这个阶段是人脸识别研究的初级阶段,没有太多非常重要的成果,也基本没有在实践中得到应用。
第二阶段(1991年~1997)
这个阶段虽然比较短,但却是人脸识别研究的高潮,可谓硕果累累:不仅诞生了一些有代表性的人脸识别算法,而且美国军方还组织了著名的FERET人脸识别算法测试,出现了几个商业化运营的人脸识别系统,比如最著名的Visionics(现Identix) FaceIt系统。
麻省理工学院(MIT)媒体实验室的Turk和Pentland提出的“特征脸”方法无疑是这一时期最著名的人脸识别方法。很多后续的人脸识别技术都或多或少与特征脸有关,现在特征脸已经和归一化相关方法一起成为人脸识别性能测试的基准算法。
这一时期的另一项重要工作是麻省理工学院人工智能实验室的Brunelli和Poggio在1992左右进行的对比实验。他们比较了基于结构特征的方法和基于模板匹配的方法的识别性能,并给出了明确的结论:基于模板匹配的方法优于基于特征的方法。这一指导性结论与特征人脸一起,基本停止了基于结构特征的人脸识别方法的研究,在很大程度上促进了基于外观和统计模式识别技术的基于线性子空间建模的人脸识别方法的发展,使其逐渐成为主流的人脸识别技术。
Belhumeur提出的Fisherface人脸识别方法是这一时期的又一重要成果。首先,利用主成分分析对图像表观特征进行降维。在此基础上,利用线性判别分析(LDA)方法对降维后的主成分进行变换,以获得“尽可能大的类间散度和尽可能小的类内散度”。目前,这种方法仍然是主流的人脸识别方法之一,产生了许多不同的变体,如零空间方法、子空间判别模型、增强判别模型、直接LDA判别方法以及最近一些基于核学习的改进策略。
另一方面,麻省理工学院的Moghaddam提出了一种在对偶空间中基于贝叶斯概率估计的人脸识别方法。该方法通过“差分法”将两幅人脸图像对的相似度计算转化为一个两类(类内差和类间差)分类问题。类内差异和类间差异数据都必须通过主成分分析技术进行降维,并计算两类数据的条件概率密度。最后通过贝叶斯决策(最大似然或最大后验概率)进行人脸识别。
人脸识别中的另一个重要方法——弹性图匹配(EGM)也是在这一阶段提出的。基本思想是用属性图描述人脸:属性图的顶点代表人脸的关键特征点,其属性是对应特征点处的多分辨率多方向局部特征——Gabor变换[12]特征,称为Jet边缘的属性是不同特征点之间的几何关系。对于任意输入人脸图像,弹性图匹配使用优化的搜索策略来定位一些预定义的关键人脸特征点,同时提取它们的Jet特征,得到输入图像的属性图。最后通过计算其与已知人脸属性图的相似度来完成识别过程。这种方法的优点是既保留了人脸的全局结构特征,又对人脸的关键局部特征进行了建模。最近,这种方法有了一些扩展。
局部特征分析技术是由洛克菲勒大学的Atick等人提出的。本质上,LFA是一种基于统计的低维对象描述方法。与只能提取全局特征而不能保持局部拓扑结构的PCA相比,LFA可以基于全局PCA描述提取局部特征,同时保持全局拓扑信息,因此具有更好的描述和判别能力。LFA技术作为著名的FaceIt系统已经商业化,所以后期没有新的学术进展发表。
美国国防部反毒品技术发展计划办公室资助的FERET项目无疑是这一阶段的一个至关重要的事件。FERET项目的目标是开发安全、情报和执法部门可以使用的AFR技术。该项目包括三个部分:资助多项人脸识别研究,创建FERET人脸图像数据库,组织FERET人脸识别性能评估。项目分别在1994、1995、1996组织了三次人脸识别评测,几个最著名的人脸识别算法都参与了测试,极大地促进了这些算法的完善和实用化。本次测试的另一个重要贡献是给出了人脸识别的进一步发展方向:光照、姿态等非理想采集条件下的人脸识别逐渐成为热门研究方向。
包括主动形状模型(ASM)和主动外观模型(AAM)在内的柔性模型是这一时期人脸建模的重要贡献。ASM/AAM将人脸描述为两个独立的部分,2D形状和纹理,分别用统计方法(PCA)建模,然后进一步用PCA将它们整合起来,对人脸进行统计建模。柔性模型具有良好的人脸合成能力,基于合成的图像分析技术可用于人脸图像的特征提取和建模。柔性模型在人脸对齐和识别中得到了广泛的应用,并出现了许多改进的模型。
总的来说,现阶段人脸识别技术发展非常迅速,提出的算法在理想的图像采集条件、物体协调和中小型正面人脸库方面都取得了非常好的表现,因此出现了几家知名的人脸识别商业公司。从技术方案上看,2D人脸图像的线性子空间判别分析、统计表观模型和统计模式识别方法是现阶段的主流技术。
第三阶段(1998 ~现在)
对FERET’96人脸识别算法的评测表明,主流人脸识别技术对非理想采集条件或不协调物体引起的光照和姿态变化不具有鲁棒性。因此,光照和姿态问题逐渐成为研究热点。同时,人脸识别的商业化系统也得到了进一步的发展。因此,在FERET测试的基础上,美军于2000年和2002年组织了两次商用系统评估。
Georghiades等人提出的基于光照锥模型的多姿态多光照人脸识别方法就是这一时期的重要成果之一。他们证明了一个重要结论:同一张人脸在同一视角、不同光照条件下的所有图像,在图像空间形成一个凸锥,即光照锥。为了从少量光照条件未知的人脸图像中计算光照锥,他们还扩展了传统的光度立体视觉方法,该方法可以在Lambert模型的假设下,根据七幅光照条件相同的未知图像,恢复物体的三维形状和表面点的表面反射系数, 凸面和远光源(传统的光度立体视觉可以根据已知光照条件的三幅给定图像恢复物体表面的法向量方向),从而可以方便地合成该视角下任意光照条件的图像,完成光照锥的计算。 通过计算从输入图像到每个照明锥体的距离来完成识别。
在此期间,以支持向量机为代表的统计学习理论也被应用于人脸识别和确认。支持向量机是两类分类器,而人脸识别是多类问题。解决这个问题通常有三种策略,即:类内差/类间差法、一对多法和一对一法。
Brands和Vetter提出的基于三维形变模型的人脸图像分析和识别方法是这一阶段的开创性工作。这种方法本质上属于基于综合的分析技术。其主要贡献在于基于三维形状和纹理的统计形变模型(类似于2D的AAM),同时利用图形仿真的方法对图像采集过程中的透视投影和光照模型参数进行建模,使人脸的内部属性如人脸形状和纹理与外部参数如摄像头配置和光照完全分离,更有利于人脸图像的分析和识别。Blanz实验表明,该方法在CMU-派(多姿态、光照和表情)人脸库和FERET多姿态人脸库上取得了较高的识别率,证明了该方法的有效性。
在2001国际计算机视觉大会(ICCV)上,Compaq研究院的Viola和Jones研究员展示了他们基于简单矩形特征和AdaBoost的实时人脸检测系统,检测CIF格式的准正脸速度达到每秒15帧以上。该方法的主要贡献包括:1)使用简单的可以快速计算的矩形特征作为人脸图像特征;2)将大量基于AdaBoost的弱分类器进行组合,形成强分类器的学习方法;3)采用级联技术提高检测速度。目前,基于这种人脸/非人脸学习的策略已经能够实现准实时的多姿态人脸检测和跟踪。这为后端人脸识别提供了良好的基础。
Shashua在2001中提出了一种基于商图[13]的人脸图像识别与渲染技术。该技术是一种基于特定物体图像集学习的渲染技术,可以根据训练集中少量光照不同的图像,合成任意输入人脸图像在各种光照条件下的合成图像。基于此,Shasuha等人也给出了光照恒定的人脸签名图像的定义,可用于光照恒定的人脸识别。实验证明了其有效性。
Basri和Jacobs用球谐函数来表示光照,用卷积过程来描述Lambert反射,解析地证明了一个重要结论:任意远光源得到的所有Lambert反射函数的集合构成一个线性子空间。这意味着凸朗伯曲面物体在各种光照条件下的像集可以用低维线性子空间来近似。这不仅与以往光照统计建模方法的实证实验结果一致,而且在理论上进一步推动了线性子空间目标识别方法的发展。而且使得用凸优化方法强制光照函数非负成为可能,为解决光照问题提供了重要的思路。
在FERET项目之后,出现了几个人脸识别商业系统。美国国防部相关部门针对人脸识别的商用系统进一步组织了FRVT的评测,至今已经举办了两次:FRVT2000和FRVT2002。一方面,这两个测试比较了知名人脸识别系统的性能。比如FRVT2002测试显示Cognitec、Identix、Eyematic遥遥领先于其他系统,但彼此差别不大。另一方面,全面总结了人脸识别技术的发展现状:在理想条件下(正面签证照片),人脸识别的最高优选识别率为73%,人脸验证的等错误率(EER[14])为37437人,1589张图像。FRVT测试的另一个重要贡献是,它进一步指出了当前人脸识别算法中亟待解决的一些问题。例如,FRVT2002的测试表明,目前商用人脸识别系统的性能对室内外光照变化、姿态、时间跨度等变化条件仍然非常敏感,在大规模人脸数据库上的有效识别问题也非常严重。这些问题仍需进一步努力。
总的来说,在非理想成像条件下(特别是光照和姿态),物体不协调的情况下,大规模人脸库上的人脸识别问题逐渐成为一个热点问题。非线性建模方法、统计学习理论、基于Boosting的学习技术[15]、基于3D模型的人脸建模与识别方法等。已经逐渐成为技术的发展趋势。
总之,人脸识别是一个既有科研价值又有广阔应用前景的研究课题。国际上大量的研究人员在几十年的时间里取得了丰硕的研究成果,自动人脸识别技术在一定的限制条件下得到了成功的应用。这些成果加深了我们对自动人脸识别问题,尤其是其挑战性的认识。虽然现有的自动人脸识别系统在海量人脸数据的比对速度甚至准确率上可能已经超越了人类,但是对于复杂变化条件下的一般人脸识别问题,自动人脸识别系统的鲁棒性和准确率远不如人类。这种差距的本质原因还不得而知,毕竟我们对人类视觉系统的了解还很肤浅。然而,从模式识别和计算机视觉的角度来看,这可能不仅意味着我们没有找到有效的传感器来合理地采样面部信息(考虑到单目摄像头和人类双目系统的差异),还意味着我们采用了不恰当的人脸建模方法(人脸的内部表征),还可能意味着我们没有意识到自动人脸识别技术所能达到的极致精度。但无论如何,赋予计算设备类似于人的人脸识别能力,是该领域众多研究者的梦想。我相信,随着研究的深入,我们的理解应该能够更加准确地接近这些问题的正确答案。