一种面向窄带物联网的无人机基站增强网络优化方法与流程

文档序号：19951654发布日期：2020-02-18 10:39阅读：405来源：国知局

导航： X技术> 最新专利> 电子通信装置的制造及其应用技术

本发明属于物联网技术领域，具体涉及一种面向窄带物联网的无人机基站增强网络优化方法。

背景技术：

当前无人机发展主要应用在街景拍摄、监控巡查、电力巡检、交通监视、灾后救援以及军事等方面，随着第五代移动通信技术的普及，无人机技术越来越多地应用于通信领域，目前较成熟的代替人工对基站、通信线路进行检测保障，极大降低了成本，提高了维护优化工作的效率，但是第五代移动通信技术也带来新的挑战，未来互联网终端设备数量将不断增长，窄带物联网技术的突破，会进一步加剧终端设备的数量，在一些突发性的应急救灾场景下，会导致地面的通信基础设施极易处于拥塞状态，甚至通信瘫痪，这会进一步影响救援行动的部署。因此在局部的网络拥塞和网络瘫痪场景中，应用无人机空中基站辅助或代替地面基站已经成为一种高效的方案。在网络拥塞场景中，无人机空中基站与地面基站共同建立空地一体化网络，为小区基站提供分流服务，有效地提高了通信服务质量；在网络瘫痪场景中，无人机空中基站取代地面基站，建立空域通信网络，快速恢复通信，提高了通信服务质量。

无人机由于体积小、灵活性强、价格低廉等特点在通信中快速发展，但也面临着巨大的挑战。虽然无人机辅助地面基站的研究取得了一定的进展，但是无人机的控制方面还没有深入的研究。无人机的功率受限，如何部署无人机以最大化用户覆盖范围也存在很大挑战。人工智能经过几十年来的发展，近年来取得了重大的突破，并进入了新一代的人工智能时代。新一代人工智能在互联网、大数据、神经网络和深度学习等技术的推动下,智能水平越来越接近人类,在某些领域甚至超越了人类的智能。深度学习和强化学习作为人工智能的两大领域，深度学习具有较强的感知能力，但是缺乏一定的决策能力；而强化学习具有决策能力，对感知问题束手无策。因此，深度强化学习将深度学习的感知能力和强化学习的决策能力相结合，优势互补，可以直接从高维原始数据学习控制策略，是一种更接近人类思维方式的人工智能方法。目前深度强化学习在游戏、机器人、推荐系统等领域已经取得了突破性进展。当前无人机技术大多需要人为的精确控制，将无人机技术与深度强化学习结合，可以实现无人机的智能化，甚至代替人类完成一些复杂的工作，减少了人力资源。在网络拥塞甚至瘫痪的时候，先应用深度强化学习网络对无人机进行模拟仿真，训练无人机快速有效地到达目标地，再对无人机进行部署，对于拥塞网络实现对网络的分流服务，减少地面网络的负载；对于瘫痪网络实现无人机作为空中基站取代地面负载基站，建立空域通信网络，快速恢复地面通信。

当前对无人机基站的研究有对无人机基站应急通信的覆盖能力展开研究，在应急场景下的无人机基站资源分配方法展开研究，对无人机基站选址以及路径优化方法的研究等等，但是对无人机基站网络优化方法比较少。

技术实现要素：

发明目的：本发明提供一种面向窄带物联网的无人机基站增强网络优化方法，通过深度强化学习提高了无人机的智能性，优化了拥塞网络，解决了网络瘫痪，提高了网络的通信服务质量，达到了优化网络的目的。

发明内容：本发明所述的一种面向窄带物联网的无人机基站增强网络优化方法，包括以下步骤：

(1)通过负载基站的半径对无人机基站的高度进行优化，并将无人机部署在基站正上方，给出无人机当前的实时位置坐标作为无人机的当前状态st；

(2)根据无人机的状态st，通过当前值神经网络得到无人机不同飞行方式下的不同飞行方案，从而仿真环境遵从ε-greedy策略在这些飞行方案中选择一个飞行方案at；

(3)根据无人机的状态st以及仿真环境所选的飞行方案at，仿真环境给出飞行方案at下的奖励rt以及无人机采取方案at后到达的新状态st+1；

(4)根据深度强化学习的深度q学习网络，基于经验回放和固定目标q值两个策略来训练神经网络，更新网络参数，更新ε-greedy策略下的q值。

进一步地，步骤(1)所述无人机基站的高度优化可通过以下公式：

其中，h是无人机的最佳高度，r是基站覆盖小区的半径，c是光速，plmax是可支持的最大路径损耗，f为载波频率；令即可计算出无人机基站的最佳高度。

进一步地，步骤(2)所述的不同飞行方式包括无人机向上、向下、向左、向右、向前、向后六种飞行方式。

进一步地，步骤(2)所述的仿真环境遵从的ε-greedy策略为：

其中，表示当前值神经网络估计q值最大的飞行方案，arandom表示在所有可能的飞行方案中随机选择一种飞行方案。

进一步地，所述步骤(4)包括以下步骤：

(41)将步骤(1)得到的无人机状态st，步骤(2)得到的无人机飞行方案at以及步骤(3)得到的奖励rt和下一个状态st+1构成一个数据组(st,at,rt,st+1)存入记忆库中，在数据组的数量达到记忆库的容量后，每产生一个新的数据组，将最早产生的数据组删除；

(42)在记忆库中数据达到其容量后，随机选择一定批量的数据组用来训练神经网络，每次训练计算实际的q值：

同时计算每次训练的误差函数：l(θ)＝(yi-q(si,ai；θ))²；而后损失函数使用梯度下降反向传播来更新网络参数θ，其中，表示l(θ)对θ的偏导数，α表示学习速率；

(43)设置一个固定的步数c，当前值神经网络q(s,a；θ)每隔c步将网络参数传递给目标值神经网络即θ^-＝θ；

(44)神经网络参数θ发生变化，重复操作(41)(42)，直到误差函数收敛，即当前值神经网络q(s,a；θ)的预测q值接近于实际的q值。

有益效果：与现有技术相比，本发明的有益效果：1、本发明仅需根据不同基站的覆盖范围计算无人机基站的悬停位置，同时根据无人机到基站的环境改变模拟环境即可，算法的其他部分完全一致，适用性很强；2、在窄带物联网的网络拥塞场景与网络瘫痪下，本发明的无人机基站能快速到达目标地点，对网络提供分流服务或者建立空域通信网络，提高了通信服务质量。

附图说明

图1为无人机基站增强网络场景图；

图2为深度q学习网络的结构图；

图3为深度q学习算法执行流程图；

图4为损失函数与训练次数在不同学习速率α下的关系。

具体实施方式

下面结合附图对本发明做进一步详细描述。本发明所述的面向窄带物联网的无人机基站增强网络优化方法包括两部分，一部分是通过基站的覆盖范围情况确定需要部署的无人机基站的最优高度。另一部分是通过深度强化学习模拟无人机到目标地点的路径规划，选择最优的路径。

(一)如图1所示，基站覆盖范围内的网络存在网络拥塞和网络瘫痪，此时通过无人机基站对基站覆盖内的网络进行优化。通过无人机基站高度与基站覆盖小区半径关系确定无人机基站的最优高度。在城市环境中，由于无人机基站发射的无线电信号在自由空间中传播，然后到达城市环境，因而在自由空间存在路径损耗，在城市环境下无人机基站又有视距(los)和非视距(nlos)两种环境，本发明两种环境下的路径损耗分别为：

其中，f表示载波频率，c表示光速，h表示无人机的高度，r为基站覆盖小区的半径。

针对城市环境，视距出现的概率可用简单修正的s形函数表示：

其中，a,b称为s曲线参数，在城市环境下a,b分别为0.3和500，θ表示无人机到基站覆盖边界与水平面的夹角，并在图1中标注了θ的位置。

非视距出现的概率为p(nlos,θ)＝1-p(los,θ)。由于讨论无人机基站是属于低空平台的高度，基站覆盖的小区半径可以写成其中pl为路径损耗，最大的路径损耗公式为

plmax＝p(los,θ)×pllos+p(nlos,θ)×plnlos(3)

对某一具体的基站，已知其覆盖面积范围，且该基站内部网络拥塞，则根据基站覆盖半径的大小可以计算出无人机基站的最佳高度，并将无人机部署在基站正上方。根据无人机到该基站的实际环境搭建一个三维的无人机模拟环境，并且选择一个合适的坐标系。环境获取无人机的实时位置作为当前的状态st。无人机的初始位置坐标为(a0,b0,c0)，已知基站覆盖小区的半径为r，则可得到与无人机基站高度之间的关系：

对于一个给定的最大路径损耗值plmax，由可求出最佳的无人机高度。

将无人机部署在基站正上方，即以(a1,b1,c1)作为目的地坐标，c1即为无人机基站的最佳高度，并将具体的无人机环境中的障碍在模拟环境中以坐标的形式表示出来，以无人机当前所处的实时位置作为当前的状态st，即通过s(xt,yt,zt)表示当前时刻无人机在模拟环境三维坐标系下的坐标。

将无人机部署在基站正上方时因为当基站覆盖范围内出现网络拥塞和网络瘫痪时将无人机空中应急基站部署在基站正上方最为合理，此时应急基站能够对基站覆盖任一区域的网络拥塞和网络瘫痪进行优化，提高整个基站覆盖范围网络的通信质量。

(二)根据深度强化学习的deepq-learningnetwork方法(深度q学习网络)，确定无人机到目标地点的最佳路径，深度q学习网络算法使用记忆库记录每个状态下的动作，奖励和下一个状态的结果，并且记忆库的大小是有限的。根据深度强化学习的深度q学习网络算法，基于经验回放和固定目标q值两个策略来训练神经网络，更新网络参数，更新ε-greedy策略下的q值。经验回放策略是指深度q学习网络使用一个具有一定容量的记忆库用于存储每个时刻模拟环境产生的数据组(st,at,rt,st+1)，当前值神经网络与目标值神经网络的训练数据都是从记忆库中随机选取的，这能使历史数据得到有效利用，也避免了数据间的时序关联性。固定目标q值策略是指深度q学习网络算法使用两个神经网络：当前值神经网络q(s,a；θ)和目标值神经网络两个神经网络使用相同的结构，当前值神经网络q(s,a；θ)用来预测q值，而目标值神经网络是用来提供实际的q值，固定目标值神经网络的目标q值，当前值神经网络q(s,a；θ)每隔一段时间将网络参数传给目标值神经网络当前值神经网络用来预测，目标值神经网络结构与当前值神经网络结构一致，因而参数定期将当前值网络的参数复制过来，区别在于目标值神经网络的权重更新的要慢一些，每次更新参数的时候从记忆库中抽取一部分数据用来更新，目的是为了打破数据间的关联性。在图2中深度q学习网络结构基础上，其算法执行流程图3所示，提出以下具体的操作步骤：

步骤1：根据具体的无人机到基站的环境构建虚拟的模拟环境，并在模拟环境中建立三维坐标系，无人机的起始位置为(a0,b0,c0)，目标位置为(a1,b1,c1)，c1即为上述得出的无人机最佳高度。模拟环境能够提供无人机每个时刻的状态，以当前时刻无人机所处的位置的坐标来表示当前状态，即st＝s(xt,yt,zt)。模拟环境中已知无人机的起始位置和无人机目标位置；也能提供模拟环境根据ε-greedy策略做出动作at后获得的奖励rt和下一时刻的无人机状态st+1。

步骤2：算法参数的初始化：初始化记忆库，其容量为d，用于存储训练过程的数据集；初始化当前值神经网络q(s,a；θ)，初始化目标值神经网络并令两神经网络的参数同步θ^-＝θ，设置折扣系数γ，学习速率α，贪心策略ε概率值，批处理容量n，目标值神经网络参数更新间隔c。

步骤3：根据无人机的状态st，通过当前值神经网络得到一组估计的飞行方案，从而模拟环境遵从ε-greedy策略在这组估计的飞行方案中选择一个飞行方案at。本发明中无人机的飞行方式，分别是向上、向下、向左、向右、向前、向后，共六种飞行方案。模拟环境遵从的ε-greedy策略是指：模拟环境以概率1-ε随机选择一个飞行方案a，或者以概率ε选择其中a表示所有可能的飞行方案，a∈a表示其中任意一种飞行方案，q(st,a；θ)表示由当前值神经网络得到的无人机状态st下飞行方案a的q值，θ表示当前值神经网络的参数。无人机当前所处状态st，遵从ε-greedy策略选择飞行方案at，选择策略如下：

其中，表示当前值神经网络估计q值最大的飞行方案，arandom表示在所有可能的飞行方案中随机选择一种飞行方案。

步骤4：无人机执行飞行方案at后，模拟环境给出这种飞行方案下的奖励rt以及无人机采取方案at后到达的下一个时刻的状态st+1，并将(st,at,rt,st+1)作为一组数据集存入记忆库。模拟环境中设有无人机飞行的障碍以及无人机飞行的目的地，在模拟环境中若无人机采取某种飞行方案后撞到障碍，模拟环境则给无人机一个比较大的负奖励，代表无人机飞行失败；若无人机采取某种飞行方案后到达目的地，则模拟环境给无人机一个比较大的正奖励，代表无人机飞行成功；若无人机采取某种飞行方案后既没有撞到障碍也没有到达目的地，则模拟环境给无人机比较小的负奖励，代表无人机的功率消耗。

步骤5：若记忆库的容量d未填满，令st＝st+1，返回步骤3；若填满，则进行步骤6。

步骤6：从记忆库中，以随机采样方式，采样n组数据集(si,ai,ri,si+1)对两个神经网络进行训练，对于每组数据，当前值神经网络训练得到估计的q值，即q(si,ai；θ)，目标值神经网络通过计算得到实际的q值，其计算公式如下，：

其中，计算yi时使用的是目标值神经网络而不是当前值神经网络q。

步骤7：计算误差函数l(θ)＝(yi-q(si,ai；θ))²，并根据梯度下降更新当前值神经网络的参数θ。损失函数使用梯度下降θ←θ-α▽θl(θ)反向传播来更新网络参数θ，其中▽θl(θ)表示l(θ)对θ的偏导数，而α表示学习速率，若α设置的较小，则网络收敛所需要迭代的次数会非常高；若α设置的较大，则网络每次迭代可能不会减少误差函数，甚至会超过局部最小值导致无法收敛，因此学习速率α的设置非常重要。

步骤8：每c步将目标值神经网络与当前值神经网络q的网络参数同步一下，即θ^-＝θ。

步骤9：返回步骤3，直至当前值函数神经网络q收敛，结束。

步骤10：根据值函数q(s,a)，得到最优的飞行策略c,再将该策略应用于无人机的模拟环境，便可得到无人机的最优路径。

当前值神经网络q(st,a；θ)和目标值神经网络均采用两个隐层(64个神经元)的全连接神经网络，优化方法采用rms-prop优化器，网络主要参数的设置如表1所示。

表1主要参数设置

图4是在上述网络参数下训练得到的损失函数与训练次数在不同学习速率α下的关系示意图，由关系图可以看到学习速率α取0.001时收敛最快，效果最佳，可以明显看到，当学习速率α取0.1时，可以明显看到随着训练次数的增加，损失函数出现了震荡效果，效果最差，当学习率α取0.01时，虽然损失函数随着训练次数的增加而减少，但在达到收敛所需要的训练次数方面，学习率α取0.01时要远远少于学习率α取0.001时所需要的训练次数。综上，本发明学习速率α选取0.001，仅需要训练350步左右就能网络达到收敛，得到最佳的路径，在应对网络拥塞和网络瘫痪问题上，实现了短时高效，在不影响通信质量的情况下实现了快速优化网络，有效解决了窄带物联网中设备数量爆炸增长的问题，提高了拥塞网络的通信服务质量，也恢复了网络瘫痪带来的通信中断问题。

完整全部详细技术资料下载

当前第1页 1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李凡;徐友云;威力
技术所有人：南京邮电大学
我是此专利的发明人

上一篇：一种叶轮用耐磨材料及其制备方法与流程
上一篇：抗冲击聚碳酸酯复合材料及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。