博物馆导览系统展品识别技术实现

展品识别是移动增强现实博物馆导览系统的核心部分，因为只有在准确识别展品的情况下，才能给用户提供正确的增强信息。本章将对展品识别技术的实现做详细介绍。

一、物体识别概述

物体识别在计算机视觉领域里指的是在一张图像或一组视频序列中找到给定的物体，并对其进行标记的技术。本文的移动增强现实博物馆导览系统展品识别部分采用的正是这项技术。采用物体识别技术对展品进行识别有如下几点优势：

（1）人机交互方式更为直观、便捷。数码按键导览机需要自己仔细输入展品编号，才能播放正确的语音解说。而采用物体识别的方式，用户仅需拿着手机对准展品拍摄照片即可识别展品，免除了繁琐的展品编号输入过程。

（2）不需要在展品上贴任何标签，不会影响展品美观。由于物体识别技术直接对拍摄的图像进行识别，因此不需要在展品上粘贴任何标签。而二维码、RFID导览方式都需要在展品上粘贴标签，影响了展品的美观。

（3）降低了系统安装和维护成本，适用范围更广。由于采用视觉的方式对展品进行识别，不需要在展品上粘贴任何标签，降低了安装、维护成本。人类能够非常轻松地对物体进行识别，而对计算机来说却是一件非常困难的事情。主要原因有：一是计算机可以很方便地处理图像像素信息，却无法进行高层抽象内容；二是物体本身是一个高维信息的载体，通过二维信息来解释物体显然缺失了其他的信息；三是同一物体在不同时间、不同视角、不同光照下在图像中的表现
可能是完全不同，而且会受到外物遮挡的影响，使得对物体模型的定义变得困难。

尽管非常困难，但随着科技理论的发展，还是给解决这一难题带来许多机遇。目前的物体识别技术，主要可以分为两类：一类是特征匹配的方法，以物体间的特征的匹配程度来进行的物体识别；另一类是模式识别的方法，通过对数据集进行训练生成一个数学模型，利用这个数学模型进行分类。特征匹配的方法适用于物体数目少的情况，误识别率低，而且能很好处理遮挡问题，但物体数目太多时识别速度和精度都得不到保证。模式识别的方法，适用于大规模物体识别，识别速度相对较快，但误识别率难以控制。在本文的系统中将这两种方法结合，以提高展品识别的准确度。物体识别步骤目前绝大多数物体识别算法都包含预处理、特征检测、特征提取、分类判别几个步骤：

A. 预处理

物体识别的第一个步骤是预处理。从数码摄像头获取的图像基本上都是彩色的，而目前绝大多数物体识别算法都针对的是灰度图像，色彩只在某些条件下对物体识别有作用，因此在这个步骤主要完成将彩色图像转换成灰度图的工作。还有些其他处理工作（如去噪、滤波、平滑、复原、提取边缘、图像分割等等）也可在这步完成。

B. 特征检测

特征检测步骤主要完成的工作是在图像中检测“兴趣”点。这些点可以是角点、边缘等。可重复性和不变性是检测“兴趣”点的重要标准，这就意味着算法应该尽量能够在同一个物体的多张图像中检测出相同的点。

C. 特征描述

兴趣点检测出来后，下一步就是对它们进行编码。编码就是将这些兴趣点转换成特征向量。SIFT和SURF是在该领域里非常重要的算法。SURF算法的运行速度要比SIFT快。特征向量的维数主要由所用算法决定，例如，SIFT生成128维向量，
SURF生成64维向量。

D. 分类判别

分类这一步能给出物体分类的最终答案。也就是说，我们能知道该物体是什么。其具体实现方法有多种。图像匹配方式的物体识别首先用预先拍摄好物体的参考图像构建数据库，将待识别图像的特征和数据库中参考图像的特征进行匹配，匹配数最多的图像即为识别结果。模式识别方式的物体识别同样需要预拍摄物体的图像集，将这个图像集训练生成一个数学模型，识别时利用已构建的模型模型完成分类判别。

特征提取算法

A. SIFT 特征

1999年British Columbia大学的Lowe教授总结了现有的基于不变量技术的特征检测方法，提出了一种尺度不变的特征(Scale-Invariant Feature)，并于2004年加以完善。SIFT算子作为一种图像局部特征的描述子，具有尺度、旋转、平移的不变性，同时对于光照的变化、仿射变换和三维投影变换均具有一定程度上的适应性，广泛的应用于物体识别、图像拼接以及三维重建上。SIFT特征提取算法相比以往的特征鲁棒的原因，在于该算法做了如下处理：

（1）在保证尺度不变性方面

为了得到适应尺度变化的特征点，需要在多尺度图像中提取特征点。多尺度图像可以由高斯金字塔生成。可以对原图像进行高斯模糊后降采样生成高斯金字塔，而且在SIFT算法中采用的是差分高斯（Difference of Gaussian）来近似拉普拉斯。
（3）在保证特征点独特性方面

为了让提取到的特征点都具备独特性，需要对特征点建立描述。首先旋转坐标轴至关键点的主方向，然后计算关键点周围像素的梯度方向和模值，并对模值进行高斯加权，使离特征点更近的像素更为重要。最后，将再将描述符进行归一化处理，可以抵抗光照变化及视角变化。经过上述步骤，从原始图像上提取到的特征已经具备了旋转、缩放、平移不变性，同时对光照的影响和视角的改变也具备一定鲁棒性。

B. SURF 特征

SURF(Speeded Up Robust Features)是由Herbert Bay在2006年提出的一种特征提取算法，该算法借鉴了SIFT的思想。该算法提取的特征也具有平移、旋转、缩放不变性，对光照变化和视角变换也具有一定鲁棒性，但是运行速度是SIFT的3
倍左右。与SIFT相比，SURF主做了如下改进：

（1）在保证尺度不变性方面。SURF和SIFT特征提取算法基本上相同，都需要建立一个图像金字塔，在图像金字塔中检测兴趣点。与SIFT不同的是，SURF的图像金字塔不需要对原图像进行下采样，直接用不同尺寸的滤波器对原图像进行处理，而且将原始滤波器近似框式滤波器，为了进一步加快框式滤波器的速度，采用了积分图思想。

（2）在保证旋转不变性方面。在这方面，SURF和SIFT思想是一样的，需要确定一个关键点的主方向。不同的是SURF
计算的是兴趣点圆形领域内的Harr小波响应，将小波响应最强烈的方向定为主方向。

特征匹配算法

采用最近邻的方法对特征点进行匹配。可以采用对两特征描述符的欧式距离设定一个全局阈值，特征描述符距离小于或等于该阈值的两特征点为匹配点，实验表明这种方法会产生大量误匹配。一种更好的方法是计算最近邻比与次最近邻的比值来确定两个特征点是否匹配，如果这个比值小于某个阈值，则表示两特征点匹配，实验证明该方法非常有效。还需要解决的是最近邻查找问题。最简单的方法是穷举法，但是需要耗费大量的时间，可以采用KD-Tree的数据结构加快搜索速度。

二、服务器端海量展品识别实现

系统模式一通过手机拍摄感兴趣展品的照片上传到服务器端进行识别，因此在模式一中，手机端仅需完成图像采集、照片上传和增强信息显示功能，展品的精确识别由服务器端则完成。因为在模式二中，需要通过模式一的识别结果对用户所在区域进行定位，因此在模式一中，必须保证展品识别的精确性，才能正确下载模式二中的识别配置文件。

为了保证服务器端识别的精度，在服务器端采用了3.1.2节介绍的SIFT特征提取算法，SIFT特征鲁棒性、独特性好，而且信息量丰富，适合在海量特征数据库中进行准确的匹配。利用SIFT特征实现像检索，最简单的做法是将数据库中的每幅图片表示为一个SIFT特征集合。进行图像检索时，将查询图片与库中每张图片的特征集合进行匹配，特征匹配数目最多的那张图片作为结果返回。该方法只适用于库中的图片数量不多的情况，当库中的图片成倍增加时，特征匹配消耗的时间也会急剧增加，无法满足实际应用要求。为了实现对海量展品进行快速识别，本文采用了Nister等人提出的基于词汇树（Vocabulary Tree，VT）的海量物体识别方法，该方法通过建立一棵词汇树以快速量化特征，采用树形数据结构，上下节点具有继承关系，检索时不用遍历所有视觉词汇，可大幅缩短匹配时间，达到提高检索速度的目的。虽然词汇树的识别精度已基本能够满足要求，但为了提高识别精度，尽量消除误识别，需要对识别结果进一步求精。SIFT特征提取、
VT图像识别、识别结果求精等大运算量任务都在服务器端完成，显然该模式对手机的性能要求非常低，适用面最广。

三、手机端少量展品实时识别实现

目前，手机的计算和存储能力还远不能和主流的PC机相比，因此在手机端实现物体实时物体识别是一项非常具有挑战性的任务。在模式二中，采用3.1.2节介绍的速度更快的SURF（Speed Up Robust Feature）算法提取图像特征；采用
Bag-of-Words（Bo W）模型将图像特征集转化为一维描述向量；采用支持向量机（Support VectorMachine，SVM）
分类器进行判别加快识别速度；采用空间位置约束的方法来减少待识别物体个数。模式二的启用需要经历两个阶段：首先，通过模式一的识别结果，检索展品信息数据库，获取展品所在区域信息，进而定位用户当前所在区域；然后，下载该区域对应的识别配置文件到手机端，用户切换到实时识别模式便能对该区域内展品进行实时识别。模式一在模式二中起到对用户进行定位的作用，即基于视觉的定位技术。由于采用了这种视觉定位技术，因此无需在博物馆内安装任何辅助定位设备（如蓝牙，红外发射器等），极大地方便了系统的部署和维护空间位置约束减少待识别展品个数为了提高手机端识别算法的实时性，减少待识别物体数目是个简单可行的方法。本文采用了对所有展品进行空间位置约束的方法，将每一件展品都分配到一个区域内，每次只识别区域内的展品。空间位置约束的具体做法是：

（1）离线训练阶段。按照空间范围对博物馆展厅进行网格式区域划分，每个区域包含一定数量的展品，并在数据库中存储展品所属区域信息，最后为每个区域构建用于物体识别的SVM分类器。

（2）在线识别阶段。通过系统模式一识别结果，定位用户当前所处区域，下载该区域对应的SVM分类器（识别配置文件）到手机上，对该区域内物品进行实时识别。区域的划分要依据展品的数目，如果每个展厅的展品数目不多，可以将每个展厅划分为一个区域。如果展厅内展品数目较多的话，则需要将展厅划分为几个区域。假设有三个展厅，每个展厅被划分为一个区域，并每一个区域进行编号。

四、小结

展品识别，即物体识别，在本文提出的移动增强现实博物馆导览系统中占有非常重要的地方，因为只有在正确识别展品后，才能给用户提供增强信息。本章重点阐述系统展品识别的实现方法。首先介绍了有关物体识别的一些基础知识，之后介绍了两个重要的特征提取算法以及相关的特征匹配、剔除误匹配的算法，最后详细介绍了在服务器端海量展品识别以及在手机端少量展品实时识别的的实现方法。在服务器端采用了词汇树结合图像匹配的方法实现海量展品的精确识别。在手机端采用Bo W结合SVM的方法实现少量展品实时识别，提出采用了空间位置约束的方法来减少待识别展品的个数。通过采用视觉定位的技术，将孤立的服务器端识别和手机端识别连接起来，同时也方便了系统的部署和维护，不再需要安装辅助定位硬件设备，如蓝牙、红外发射器等。