地球信息科学学报  2017 , 19 (6): 744-753 https://doi.org/10.3724/SP.J.1047.2017.00744



刘涛12, 张星1* , 李清泉13, 方志祥3, 李秋萍4

1. 深圳大学土木工程学院 深圳市空间信息智能感知与服务重点实验室,深圳 518060
2. 河南财经政法大学资环与环境学院,郑州 450046
3. 武汉大学 测绘遥感信息工程国家重点实验室,武汉 430079
4. 中山大学地理科学与规划学院 综合地理信息研究中心,广州 510275

An Indoor Pedestrian Positioning Approach Based on the Integration of SFM and PDR

LIU Tao12, ZHANG Xing1* , LI Qingquan13, FANG Zhixiang3, LI Qiuping4

1. Shenzhen Key Laboratory of Spatial Information Smart Sensing and Services, Shenzhen University, Shenzhen 518060, China
2. College of Resources and Environment, Henan University of Economics and Law, Zhengzhou 450046, China
3. State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China
4. School of Geography and Planning, Sun Yat-Sen University, Guangzhou 510275, China



商业和工业领域中,室内行人、车辆、机器人的位置信息正逐渐成为人们关注的热点,并随之产生了大量的室内定位技术和方法,如使用无线信号、地磁、超宽带和超声波等方式进行室内定位。然而,目前的这些室内定位方法大多需要额外辅助设备的支撑,增加了定位成本和硬件开销。视觉定位作为一种目前较为流行的定位方式,具有实施成本低、不依赖任何外界辅助设备等优势。其中,构建带有位置标签的图像数据库是视觉定位方法的关键环节,而传统的构建图像数据库方法人力开销大、时耗长。因此,本文提出一种运动恢复结构(SFM)和航位推算结合的视觉定位方法,能够快速构建图像位置数据库、大大降低人力开销。该方法主要包括2个阶段:离线阶段和在线阶段。离线阶段主要实现图像序列位置的自动标注,通过采集行走路线上的手机内置传感器信息和视频信息,提出一种多约束图像匹配方法用于视频图像的连续匹配,将匹配结果用于SFM方法,可以得到相邻图像间的运动角度,使用行人航位推算(PDR)方法标注图像序列的轨迹坐标。在线阶段使用提出的图像匹配方法计算查询图像与数据库影像间的匹配点数量,将匹配点最多的K个数据库影像位置坐标加权平均作为查询图像的定位结果。最后,分别在2种典型的室内环境下进行实验,结果表明本文方法在离线阶段位置标注的平均误差为0.58 m,在线阶段图像匹配定位的误差范围在0.2~1.4 m。

关键词: 室内定位 ; 手机传感器 ; 图像匹配 ; 运动恢复结构 ; 航位推算


Currently, the localization of users, such as people, vehicles or robots, in indoor spaces is a common issue in many commercial and industrial applications. A number of technologies have been proposed for indoor localization based on different principles such as RF (Radio Frequency), magnetic fields, ultra wide band (UWB) and ultrasound. Among these up-to-date indoor positioning technologies, most of them depend on special infrastructures or devices, which limit the commercial application of indoor localization. As one of the state-of-art indoor localization method, visual-based positioning scheme do not rely on any external auxiliary equipment and consequently has the advantage of low cost. However, the construction of geo-tagged image database, one of the most important parts for visual-based localization, is quite labor-intensive and time consuming. The automatic collection of geo-tagged indoor image data is an essential bottleneck for application of visual-based indoor localization systems. This paper proposed a visual-based indoor positioning approach which can automatically collect geo-tagged images based on the integration of structure from motion (SFM) and pedestrian dead rocking (PDR). The main idea of this method is to collect video frames as well as inertial data (by using smartphones) when people are walking in indoor environments. A method is designed to estimate the location (i.e., geo-tags) of images for the construction of geo-tagged image database. There are two phases for this approach: offline phase and online phase. During offline phase, the proposed method is used to estimate the location of the images extracted from video frames. A multi-constrain image matching algorithm was also developed to improve the performance of location estimation. There are three constraints in this multi-constrain image matching algorithm: ratio constraint, symmetry constraint and RANSAC constraint. Based on this image matching algorithm, a SFM process can be conducted to estimate the heading angle of a walking trajectory. After that, the coordinate of sampling points from the walking trajectory can be estimated by using the PDR method and the geo-tagged image database can be constructed. During the online phase, an indoor localization method is proposed to estimate the location of a pedestrian by finding the best matching images of a query image (taken by the pedestrian) from the image database. The multi-constraint image matching algorithm can be used to compute the number of matched key-points between query images and database images. The images with the most matched key-points are selected as the candidates. A weighted average function is used to estimate the location of the query image based on the selected images. In order to evaluate the performance of the visual-based indoor localization approach, two types of indoor environment are selected as the study area: an office building and a hospital. The experimental result showed that the average location estimation error of the geo-tagged images was 0.58 m. Based on the constructed image database, the error of the proposed localization approach ranged from 0.2 to 1.4 m. The performance of this approach indicated that visual information contribute to the construction of geo-tagged image database. This approach can be used in various indoor environments without any infrastructures or extra devices, which can reduce the difficulty in applying this approach to practical use.

Keywords: indoor positioning ; smartphone sensors ; image matching ; structure from motion ; pedestrian dead rocking.


1 引言

随着智能移动终端的广泛普及,基于位置的服务(Location Based Service,LBS)[ 1]与室内外一体化行人导航技术受到越来越多的关注。目前,利用GPS的定位导航已经能够满足室外行人的服务需求;而室内环境下由于接收到的GPS卫星信号差、多路径等影响,导致传统的定位方法无法直接使用,对于室内行人的定位及导航方法尚缺乏统一的标准。通常使用的室内定位方法可以分为2类:基于几何(Geometry)的定位和基于场景分析(Scene Analysis)的定位,使用的技术主要包括:无线传感网(Wireless Sensor Network, WSN)[ 2]、无线局域网络(Wireless Local Area Networks, WLAN)[ 3]、蓝牙[ 4]、红外[ 5]、射频识别(Radio Frequency Identification, RFID)[ 6]等。其中,基于几何的定位方式很大程度上依赖于硬件设备,信号在传播过程中容易出现衰减等现象,导致定位结果存在系统偏差。因此,大多数室内定位的研究集中在基于场景位置的指纹匹配以及多传感器集成等方面。视觉定位[ 7]是一种流行的定位技术,它具有成本低、无需外接设备、便捷性强、容易让人理解等优点。目前已开展关于视觉定位的研究[ 8- 11],但是利用视觉进行室内定位仍然面临着建立(更新)位置指纹库费时费力、图像匹配结果不准确等困难。

行人航位推算(PDR)方法[ 12]利用手机内置的 陀螺仪、加速度计等传感器信息,可以实时计算行人的位置坐标,为室内多源信号位置指纹的自动 标注提供了解决方案。但是,由于手机内置传感器的精度不高,航位角度计算容易产生累积误差,导致航位推算结果与真值偏差较大、不能直接用于位置指纹自动标注。为进一步提高航位推算位置精度,文献[ 13]提出了基于行为感知的行人室内定位方法,通过行人感知技术[ 14]提取时间序列内的多个行为,结合室内路网拓扑结构[ 15],匹配行为点到相应的特殊位置,从而消除了行人航位推算的累积误差。文献[16]采用UKF(Unscented Kalman Filter)融合Wi-Fi指纹匹配定位和PDR定位,得到了很好的室内定位结果。文献[17]针对多种环境下无线信号可以充分利用的特点,提出了一种泛在无线信号辅助的无缝定位方法,并对无缝定位技术的特点和发展趋势进行了讨论。文献[18]使用粒子滤波结合室内平面地图信息,对行人航位推算(PDR)结果进行修正,使室内行人的定位精度有所提高。上述这些室内定位系统或方法都在一定程度上提高了行人航位推算(PDR)的定位结果,但是往往需要添加额外的硬件设施或需要已知室内平面地图信息,降低了室内多源信号位置指纹自动标注的实际可操作性。文献[19]借助多个室内基站的实时数据,提出一种面向无线局域网的位置指纹动态自适应模型,该模型可以自适应更新室内位置指纹数据库,但是带来了更多的计算负荷。

本文基于智能手机平台实现了一种室内行人视觉定位方法,主要包括离线阶段的影像位置数据库自动标注和在线阶段的图像匹配定位,整个系统流程如 图1所示。本文提出一种多约束图像匹配方法,该方法的匹配结果既用于查询影像与数据库影像间的匹配定位,也用于自动标注影像位置时的方位角计算。

图1   系统流程示意图

2 多约束图像匹配及视觉定位

广义上图像匹配是指建立影像间最小空间分辨率单元一一对应关系的过程,是摄影测量、计算机视觉等领域的基础研究。图像匹配的结果可用于计算影像间的相对位姿[ 20],也可直接反映图像间的相似程度[ 8- 11]。一般情况下,2张影像的匹配点个数越多,其相似程度越高。本文提出一种多约束图像匹配算法,该算法在SIFT特征匹配的基础上增加了3种约束条件,可以剔除传统图像匹配中存在的大部分错误匹配结果,有助于恢复图像位姿和提高视觉定位的准确率。在定位阶段,使用本文方法计算查询影像与数据库影像间的匹配点数量,最多匹配点的K张影像位置坐标加权平均作为查询影像的定位结果。

目前,常用的图像匹配特征包括:Harris特 征[ 21]、SIFT特征[ 22]、SURF特征[ 23]等。其中,SIFT特征点具有尺度、旋转不变的特性,被广泛的用于图像拼接、影像跟踪等领域。利用特征点的高维特征描述子(特征向量)来衡量图像间的相似性是目前常用的方法,通常使用欧式距离、曼哈顿距离、夹角余弦等方式进行计算,然而仅仅使用距离最小作为相似性度量方式往往会发生错误的匹配结果( 图2(a))。因此,本文以SIFT特征为例,相继使用了3种约束条件用于剔除图像匹配过程中产生错误的匹配点对,但是这3种约束并不局限于SIFT特征,所有基于向量的特征描述都可使用。具体约束条件如下:

图2   图像匹配结果示意图

式中:v表示特征点的描述向量;j表示特征向量的维度。当最近匹配点与次近匹配点的距离比值小于阈值,即 d1d2<r,则认为特征点P0找到了一个最佳匹配点。使用比例约束能够消除那些特征距离较近的错误匹配。


(3)RANSAC约束。RANSAC是指随机采样一致性[ 23],其原理是从观测数据中随机挑选部分数据得出模型参数,使用模型参数验证其他数据是否符合,通过不断的选取观测数据得到最优模型参数的方法。在本方法中,首先选择4对匹配点计算得到单应矩阵H,其中:


使用H可以描述平移、旋转、仿射等坐标变换。如果一对匹配点的图像坐标为 A(x1,y1), B(x2,y2),则通过单应矩阵二者的转换关系为:



多约束匹配算法的伪代码描述如算法1,相继使用上述3种约束得到的图像匹配结果如 图2(b)所示。相比于传统的匹配方法,本文提出的多约束图像匹配方法可以消除大部分的错误匹配,利用匹配点个数衡量图像间的相似性,可用于视觉定位。一般情况下,与查询影像最相似的数据库影像位置即查询影像的定位结果。为了增强视觉定位的鲁棒性,本文使用PDR结合KNN算法计算查询影像的室内位置坐标。首先使用PDR方法估计出行人的大致位置,再利用本文的多约束图像匹配方法计算查询影像 Q与数据库影像 Pi的匹配点个数 Ni,降序排列 Ni所对应的数据库影像,最后选取匹配点个数最多的前K个数据库影像,用加权平均的方法计算查询影像的位置坐标。


式中: Cq是查询影像的位置坐标; Ci是数据库影像的位置坐标; wi是权重因子,如式(5)所示。


算法1 多约束匹配算法
input: image1, image2
input: r //比例约束参数
input: K //KNN参数
output: matches //匹配矩阵
detector->detect(image1,keypoints1); //SIFT算子计算特征点
extractor->compute(image1,keypoints1,descriptors1); //计算特征点的描述子
matcher->knnMatch(descriptors1,descriptors2,matches1, 2); //KNN方法计算特征匹配
matcher->knnMatch(descriptors2,descriptors1,matches2, 2);
removed=0; //删除匹配的点个数
vector<DMatch> symMatches; //对称约束
for matchIterator1= matches1.begin(); matchIterator1!=
matches1.end(); ++matchIterator1
for matchIterator2= matches2.begin(); matchIterator2!=
matches2.end(); ++matchIterator2
if ((*matchIterator1)[0].queryIdx == (*matchIterator2)
[0].trainIdx &&
(*matchIterator2)[0].queryIdx ==(*matchItera tor1)[0].
end if
end for
end for
vector<DMatch> matches;
ransacTest(symMatches,keypoints1, keypoints2, matches); //RANSAC约束

3 影像位置自动标注


3.1 图像序列方位角计算

本文计算图像序列运动的方位角主要使用了从运动恢复结构(Structure From Motion, SFM)方 法[ 24],其基本原理是:利用双视几何中的极线约束,使用基础矩阵表达影像同名点间的对应关系,在已知相机内参的情况下,分解本质矩阵得到图像间的相对位置姿态。

如 图3所示,C、C′为相机中心,X为三维空间中的一点,C、C′之间的连线被称为基线,x、x′分别为X在像平面I、I′中所成的像。则有图像点x、x′、空间点X和相机中心C、C′在同一个平面π内,平面与像平面的交线为I和I’被称为极线。可以看出,寻找图像上一点x在另一副图像上的同名点x′时,无需在整个图像上搜索,只需在极线l′上搜索即可,这种几何约束把同名点的搜索空间从二维降到了一维。

图3   图像双视几何关系

根据立体投影变换,空间一点 X(X1,Y1,Z1)T投影到图像平面上的点 x(x1,y1)T,二者的坐标转换关系为:


式中:K为相机内参矩阵,通常情况下 K=f0cx0fcy001;f为相机焦距;cxcy为相机光心在图像上的坐标;R为3×3旋转矩阵;T为3×1平移向量;P为投影矩阵。



式中: θ是相邻2张图像的方向角; φ是俯仰角。手机载体的三轴坐标方向如 图4所示,绕Z轴旋转的角度为方向角,绕X轴旋转的角度为俯仰角,绕Y轴旋转的角度为横滚角。本文忽略横滚角的影响,主要利用相邻2张图像之间的方向角估计运动轨迹中的方向变化。假设第一张图像的坐标方位角为 θi,则第k张图像的坐标方位角为 Ak=i=1kθi,如 图5所示。

显示原图| 下载原图ZIP| 生成PPT

图4   手机内置三轴方向

Fig. 4   The three-axis direction of smartphone

图5   连续图像方位角计算原理

3.2 图像序列位置标注

由于手机内置惯性传感器的精度不高,导致行人航位推算(PDR)方法得到的标注位置与真实值存在偏差,并且随着时间的推移累积误差会越来越大,其主要误差源是方向角度值的漂移。本文利用图像序列计算得到的角度作为方向角,使用加速度波峰检测算法[ 25]探测行走步数、步态检测算法[ 26]估计行走步长。在已知起始坐标的情况下,利用PDR方法可以标注行走轨迹上的图像序列坐标(式(8))。


式中:( xk,yk)是第k张图像的平面坐标; θk是利用图像序列计算得到的方向角,S是估计距离。本文采用文献[28]所述的步态检测方法,检测波峰计算每一步的起止时刻,使用线性模型来确定行走过程中的步长。本文基于图像序列的位置标注流程如 图6所示,对采集得到的视频按照等时间间隔输出图像序列 pi,分别计算图像序列的运动方向角 θi和陀螺仪积分方向角 αj;由于传感器采样频率不同,陀螺仪的采样频率高于图像采样频率。当检测到相邻两张图像间的匹配点个数过少无法计算 θi时,使用相同时刻下的陀螺仪瞬时积分角度作为补偿。


式中: Ti1表示第i张采样图像所对应的时刻, Ti2表示第i+1张采样图像所对应的时刻。步子检测和步长约束代入到式(8)得到图像序列的位置坐标。

显示原图| 下载原图ZIP| 生成PPT

Fig. 6   The workflow of calibration fingerprint of the image series

4 实验分析

4.1 实验场景

为了验证本文提出的方法,分别选取了4个实验区域进行了验证。 图7(a)为深圳大学科技楼 第14层,该层主要由走廊区域构成,区域面积为52.5 m×52.5 m; 图7(b)为深圳大学科技楼第 1层,该层存在较多开阔区域,行人行走自由度高,楼层面积为106.3 m×61.5 m; 图7(c)为深圳大学教学楼,主要由走廊区域构成; 图7(d)为深圳南山医院第2层,区域面积为62 m × 60 m。实验流程如 图8所示,首先在每个实验区域分别采集运动轨迹数据,使用本文方法估计航向角度和轨迹位置,构建室内影像数据库;利用在已知坐标点位置拍摄的查询影像计算在线图像匹配定位误差;最后对实验结果进行分析。本文以三星GALAXY Note III(Android 4.3平台)型号智能手机为平台开发了实验原型系统,建立影像数据库过程中,实验者持手机沿着指定采集路线行走并保持手机与身体不发生相对移动;在线匹配定位阶段使用客户端-服务器模式,首先由用户上传采集到的查询影像到服务器,服务器进行匹配定位后再将位置结果发送给用户。

图7   实验区域概况

显示原图| 下载原图ZIP| 生成PPT

Fig. 8   The workflow of experiments

4.2 图像运动角度估计试验

图像运动角度估计是影像序列位置标注的核心问题,高精度的图像运动角度估计是构建室内位置影像数据库的基础。本文提出的多约束图像匹配方法可以剔除大部分的错误匹配,匹配结果用于估计图像运动角度可得到准确的图像运动方位角。为验证本文方法的准确性,选择上述实验区域内的固定位置,使用带刻度的360°旋转云台固定 手机拍摄图像序列。保证手机沿着一个方向旋转拍摄影像,分别在固定间隔5°、10°、15°、20°下记录摄序列影像和陀螺仪数据,使用本文方法计算旋 转角度和陀螺仪角度,分别统计角度误差及误差 的方差。从误差分布的实验结果( 图9)可看出,本文利用图像计算角度的方法得到的角度误差均值约为0.5°,最大误差不超过1°。本文算法得到运动方位角相比陀螺仪计算出的角度具有更高的精度和稳定性。

图9   角度误差分布

4.3 运动轨迹标注试验

实验者沿着上述4条路径行走并采集手机惯导数据和视频数据,利用本文方法处理可得到图像序列的位置坐标,在构建室内影像位置数据库的同时,每张采样影像还包含了其他定位信号强度信息如Wi-Fi、地磁、气压等,即构建了多源信号的位置指纹数据库。在数据处理过程中,本文使用0.5 s的时间采样间隔从运动视频输出图像序列,计算相同采样频率下的陀螺仪积分角度,分别使用图像序列角度和陀螺仪积分角度恢复行走轨迹、计算位置标注误差,得到标注位置的累积误差分布(Cumulative Distribution Function, CDF),如 图10所示。

显示原图| 下载原图ZIP| 生成PPT

Fig. 10   The cumulative distribution function of calibrated fingerprints

可以看出,使用本文方法得到的标注点累积误差明显限小于使用陀螺仪的方法。使用图像序列计算得到的角度代入PDR方法得到的标注误差80%小于1.3 m,平均标注误差为0.58 m。使用本文方法得到的影像位置标注最大误差不超过2.5 m,最小误差小于0.2 m,标注误差最大点一般发生在有较大转弯运动的位置。位置标注后的影像序列可以作为影像位置数据库,用于视觉定位。

4.4 视觉定位试验

本文提出的多约束图像匹配方法可以剔除大部分的错误匹配结果,相比文献[21]-[23]在像素级别上提高了匹配精度。目前的图像匹配研究很少从像素匹配拓展到位置匹配,文献[8]、[11]利用图像匹配技术进行室内定位的研究。为了验证本文方法的正确性,在标注后的影像轨迹中选择了106个已知位置拍摄查询图像,使用本文提出的图像匹配定位方法计算查询影像的位置坐标,量化的视觉定位结果如 表1所示。

表1   视觉匹配定位结果

Tab. 1   The results of image matching positioning

本文方法940.6 m3
文献[11]方法941 m10-12


从 表1可看出,使用本文方法进行视觉匹配定位的平均定位误差为0.6 m,匹配正确率为94%。其中,本文方法的最大定位误差为1.4 m,发生匹配错误的原因在于影像数据库中存在图像内容上相似的不同位置,利用运动跟踪的方法可进一步提高匹配正确率。与其他室内视觉定位方法相比,文献[8]的方法定位精度只能识别出不同的房间,对于开阔区域无法给出量化的定位结果,原因是该方法在图像匹配阶段没有剔除错误的图像匹配点。文献[11]具有较高的匹配正确率,但是需要额外的激光扫描设施构建室内三维模型,计算复杂度高。

算法的时间开销与机器性能、图像分辨率、初始搜索位置等因素有关。文献[8]在客户端-服务器模式下,传输大小为128 k低分辨率图像,在历史轨迹约束情况下匹配10张最近的数据库影像的时间开销为4.2 s。文献[11]在笔记本电脑上解算一张约100万像素的查询图像平均需要10~12 s,时间开销较大的原因在于该方法不仅计算了图像的平面位置,还计算出图像的三维姿态信息。本文方法的原型系统在台式机上实施,匹配一张约600万像素的查询影像平均时间为3 s,使用GPU加速的方法可进一步降低匹配时间开销至1 s以内。利用历史轨迹约束的方法匹配10张最近邻影像,计算得到查询影像位置的时间少于10 s。如何加速图像匹配、提高系统实时性能也是本文将要继续研究的问题之一。

5 结论

在室内环境下,本文通过采集手机惯导数据和视频数据,进行了自动构建影像位置数据库和视觉定位的试验。利用一种多约束图像匹配方法剔除大部分的错误匹配点,匹配结果用于SFM方法可以得到图像序列的运动方位角,利用PDR方法计算图像序列位置坐标、构建图像位置数据库;图像匹配结果可直接用于室内定位。通过真实场景试验,本文方法对室内采样点的位置标注误差不超过2.5 m,图像匹配定位精度能够满足导航需求。该方法可以减少影像匹配室内定位时建库、更新劳力开销,还可用于多源定位信号的室内指纹自动标注。

