基于移动增强现实的智慧城市导览

增强现实技术是计算机视觉研究的热点问题，它通过将计算机生成的虚拟信息精准地叠加在真实环境中，达到虚实融合的效果。在智慧城市的概念下，移动增强现实研究用户位置精确定位技术、智能移动终端姿态跟踪技术以及位置相关内容推送等关键技术，实现城市真实环境的时空导览以及信息多尺度展示。智慧城市导览融合移动互联网、物联网以及计算机视觉等多项技术，通过智能手机实现城市环境真实与虚拟的结合。

Ｌａｙａｒ，Ｗｉｋｉｔｕｄｅ，ＣｉｔｙＬｅｎｓ等流行应用丰富了用户通过增强的视角实现城市周边环境导览以及实景导航。然而单纯依赖ＧＰＳ，电子罗盘等纯硬件的位置定位技术并不能满足智慧导览的精度需求。基于视觉的增强现实技术精度能够达到“亚像素”级别，众多研究人员展开了相关技术研究。希腊研究人员开发了基于增强现实的文化古迹导游系统“Ａｒｃｈｅｏｇｕｉｄｅ”，用于雅典古神庙的漫游导览。北京理工大学开发了基于增强现实的圆明园数字重建系统以及博物馆移动智能导览系统。由于户外环境复杂，智能移动终端性能有限，相关系统仅限于某一特定工作范围。

实现城市级智慧城市导览，需要解决海量场景识别定位以及实时鲁棒跟踪注册问题。移动终端计算性能以及资源存储能力有限，需要借助服务器实现海量图像检索以及增强数据处理。采用客户端服务器架构的智慧城市导览系统，选择合理的图像识别算法和控制网络传输的文件大小对系统流畅度以及精度影响较大。主流图像识别算法包含基于线性搜索的特征匹配式识别算法以及基于机器学习的特征分类识别算法，其中特征分类算法采用机器学习的方法通过有监督学习将图像识别算法转换为图像特征分类问题，适合海量场景识别，例如ＳＶＭ和ＲａｎｄｏｍＦｅｒｎｓ。线性搜索策略计算代价较大，不适合海量识别系统。

Ｎｉｓｔｅｒ等人提出的词汇树算法（ｖｏｃａｂｕｌａｒｙｔｒｅｅ，ＶＴ）也是一种基于特征分类的场景识别算法，借助文本检索的思想将提取的图像尺度不变特征（ｓｃａｌｅｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｔｒａｎｓｆｏｒｍ，ＳＩＦＴ）局部特征进行层级式聚类完成特征分类，具有较高的识别速度和识别精度。本文采用的ＣＳ架构对于网络传输提出比较高的要求。传统方法直接发送ＪＰＧ格式视频帧进行服务器识别，特征提取在服务器端进行。ＪＰＧ图像一般较大，连续发送ＪＰＧ图像的方式比较耗时，同时也浪费用户的流量。文献在移动端提取加速鲁棒特征（ｓｐｅｅｄｕｐｒｏｂｕｓｔｆｅａｔｕｒｅｓ，ＳＵＲＦ），将经编码的描述符传输至服务器端进行量化识别。实时ＳＵＲＦ特征提取对于移动终端性能要求较高，实时性较差。

近年来提出的二进制局部特征提取方法相比ＳＵＲＦ特征具有较高的实时性，然而二进制局部特征并不适合采用层级式聚类的词汇树等海量图像检索系统。文献已经证明二进制向量在低维汉明空间存在边缘密集效应，另一方面二进制向量聚类也无法求出理想的聚类中心。移动终端的实时跟踪注册一直是计算机视觉的研究热点问题。由于网络传输时延，无法通过服务器实时计算移动终端当前姿态。文献提出的基于即时定位与地图构建（ｓｉｍｕｌｔａｎｅｏｕｓｌｏｃａｌｉｚａｔｉｏｎａｎｄｍａｐｐｉｎｇ，ＳＬＡＭ）的即时地图构建与定位算法ＰＴＡＭ以及文献提出的多目标跟踪方法能够适用于环境可控的室内，在户外环境变化较大的情况下容易失去鲁棒性。

与我们工作最为接近的是文献提出的ＳＩＦＴ与光流结合的方法，该方法通过ＳＩＦＴ特征提取初始化，后续帧连续进行光流计算估计摄像机姿态，直至光流算法失效才重新开始初始化。虽然采用并行执行的策略，由于ＳＩＦＴ特征速度较慢以及光流算法控制初始化的方法本身存在较大的累积误差，上述系统容易发生抖动．在复杂的室外环境下进行实时跟踪注册需要更加鲁棒的跟踪注册算法．针对上述算法存在的问题，本文选择较高维的二进制鲁棒尺度不变特征（ｂｉｎａｒｙｒｏｂｕｓｔｉｎｖａｒｉａｎｔｓｃａｌａｂｌｅｋｅｙｐｏｉｎｔｓ，ＢＲＩＳＫ）特征在服务器端进行层级式聚类，以汉明空间概率中心向量作为聚类中心，采用扩展的汉明距离衡量特征差异。

移动终端采用ＢＲＩＳＫ特征提取与光流相结合的并行执行方法进行混合跟踪注册，系统整体执行流程如图２所示，主要工作如下：

１）设计了一种对二进制特征进行层级式聚类（Ｂ－ＨＫＭ）的方法，并对词汇树（ＶＴ）检索结果进行快速几何变化相似度打分（ＧＶ）重排，提高了海量识别系统的实时性。

２）采用ＢＲＩＳＫ特征提取与光流算法并行执行的方法进行实时鲁棒跟踪注册，利用ＢＲＩＳＫ特征提取定期重新初始化以及点集映射消除跟踪漂移误差，利用前后帧信息与关健帧信息减少跟踪过程中的抖动。

３）我们在重庆、南京、北京等地采集了大量ＧＰＳ标注的建筑数据（ＰＯＩ）供研究，采用动态分区的方法缩小图像检索范围。另外采集了部分校园建筑图像以及ＧＰＳ数据，在真实环境下进行场景识别以及跟踪注册算法测试。

动态区域划分进行城市级智能导览，单个城市待识别场景图像数量可达百万级以上。Ｎｏｋｉａ采用无区域划分的城市导览策略，在词汇树检索结果重排阶段剔除ＧＰＳ距离较远的识别结果。然而国内建筑较国外相似度极高，无区域划分的方式需要返回大量的Ｔｏｐ－Ｋ检索结果．同时随着检索结果的增多，检索结果重排阶段的资源占用以及时间代价增大。部分研究人员提出动态加载当前ＧＰＳ位置周边区域建筑特征的策略，当前帧图像与加载图像特征进行实时特征匹配。该方法相对于词汇树检索算法能够大量减少单用户图像检索范围。然而随用户数目增多，服务器内存占用急剧上升，不适合高并发访问系统。本文提出一种区域划分的策略，分区训练词汇树能够缩小检索范围并对用户并发访问具有较好的效果。

热点信息（ＰＯＩ）在分区结构中存储形式如图３所示。区域划分策略需要考虑热点信息（ＰＯＩ）分布不均、分区边缘设置等问题。ＰＯＩ分布不均，单纯通过地理位置网格式均匀划分的方法导致部分分区的ＰＯＩ数量偏少，对于整体词汇树相关阈值的确定以及资源分配效果不好。本文提出一种动态分区策略，设定分区分配表，在均匀地理位置区域划分的基础上分区边界向ＰＯＩ密度较低的区域偏移，直至分区密度大致趋近于整体均值。由于ＧＰＳ精度有限以及观察者位置与建筑实际位置的差异，导致分区边缘容易发生分区错误问题。基于用户手机ＧＰＳ位置测定应属于分区２，而此时位于分区１的热点２很容易被误认为属于分区２。本系统采用的解决策略是将边缘区域的特征分别加入两边的词汇树进行查询。当用户位置处在分区边缘时，在线查询比较两分区的词汇树打分结果，将两边结果加入Ｔｏｐ－Ｋ重排。如果分区错误，则通过词汇树打分阈值以及重排几何约束剔除。

我们在校园环境下结合３Ｇ网络实现混合特征跟踪注册，跟踪算法主要测试在未开启初始化条件下光流跟踪算法估计摄像机姿态的稳定性。我们选择一段序列帧，直接在线计算光流跟踪算法估计的旋转矩阵以及平移矩阵，同时以离线计算相同帧相对于关键帧的姿态作为参考基准，比较旋转矩阵变化，以及平移矩阵变化。通过实验结果可知，光流跟踪算法在一定帧序列内能够保持较好的姿态计算正确率，超过一定帧率会发生姿态漂移。移动增强现实通过智能手机以虚实融合的形式实现智慧城市导览。采用动态区域划分以及Ｂ－ＨＫＭ聚类的海量场景识别算法能够实现用户位置精确定位。ＢＲＩＳＫ与光流结合的混合特征跟踪注册方法提供给用户实时动态交互的全新体验，位置相关信息以虚实融合的方式推送给用户，满足用户多尺度、多时空的信息需求。现阶段在城市环境开展大规模的智慧导览还面临许多问题，高精度的数据采集以及图像后处理是亟待解决的问题。另外现实环境的诸多变化，类似场景遮挡、光照等也对移动增强现实系统提出了很大的挑战。