一种深度Q神经网络抗干扰模型及智能抗干扰算法的制作方法

文档序号：15878842发布日期：2018-11-09 17:30阅读：562来源：国知局

导航： X技术> 最新专利> 电子通信装置的制造及其应用技术

本发明属于无线通信技术领域，特别是一种深度q神经网络抗干扰模型及智能抗干扰算法。

背景技术

由于无线通信环境的开放性，无线通信系统极易遭受恶意干扰的攻击。此外，由于人工智能技术的飞速发展，使得干扰智能化水平不断提高，未来的通信干扰将呈现“波形灵巧”、“决策智能”等典型特点，使得传统抗干扰技术(如跳频和扩频)的抗干扰能力明显下降，甚至完全丧失，给无线通信系统或网络的稳定和安全带来极大的挑战。因而，迫切需要研究更加高效的抗干扰方法。针对新型的干扰环境特性，引入人工智能技术将是一种可选的方案。用户采用各种智能学习的方法，对干扰波形样式、信号构成和决策规律等进行有效的分析，并以此为基础智能地选取对抗决策，将有效地提升其抗干扰能力。

考虑到干扰环境的动态特性，强化学习成为研究智能抗干扰问题最优决策的一种热门工具(参考文献：c.j.c.h.watkins,etal.,“q-learning,”mach.learn.,,vol.8,pp.279-292,1992)。然而，它无法拓展到状态决策空间庞大的应用环境。

技术实现要素：

本发明的目的在于提供一种深度q神经网络抗干扰模型及智能抗干扰算法，很好地刻画基于深度强化学习算法的抗干扰场景。

实现本发明目的的技术解决方案为：一种深度q神经网络抗干扰模型，对该模型做如下刻画：一组发射端和接收端对为一个用户，一个用户进行通信，一个或多个干扰机对用户通信实施干扰；在动态未知环境中，将接收端的频谱瀑布图作为学习的输入状态，计算干扰的频域和时域特征，最终获取干扰的策略，并采用深度q神经网络对q函数进行拟合，作为该模型的决策依据。

进一步地，用户接收端的信干噪比sinr表示为：

公式中(1)中，ft表示用户在代理指导下所选频率，t表示当前时刻；表示用户的功率，u(f)和bu分别表示用户的功率谱密度和基带信号带宽，gu表示用户发送端到接收端的信道增益，gj表示干扰到用户接收端的信道增益，ft^j表示干扰选择的干扰频率，表示干扰的功率谱密度函数，n(f)表示噪声的功率谱密度函数；

此外，用βth表示成功传输所需要的sinr门限，定义归一化门限如公式(2)所示：

在接收终端部署了一个代理，该接收终端的功率谱密度函数如式(3)所示：

其中，j＝1,…,j表示干扰；

模型中的离散频谱采样值定义为：

其中，δf表示频谱分辨率；i表示采样数，s(f+fl)为式(3)所述功率谱密度函数、f表示采样频率、fl为所选频率的下界；

代理通过频谱向量st＝{st,1,st,2,...,st,n}决定传输频率，并通过可靠链路通知发送端；st,n为t时刻所决定的第n段传输频率。

进一步地，所述的在动态未知环境中，将接收端的频谱瀑布图作为学习的输入状态，计算干扰的频域和时域特征，最终获取干扰的策略，具体如下：

在动态未知的通信环境中，模型中的抗干扰问题建模为马尔科夫决策过程，该环境存在的复杂干扰模式与历史信息有关，因此环境状态定义为st＝{st,st-1,...,st-t+1}，其中，t表示回溯的历史状态数目，st表示一个t×n的二维矩阵，由st矩阵构建出频谱瀑布图。

进一步地，所述的环境状态中，s∈{s1,s2,...}表示当前的传播环境状态，a∈{f1,f2,...,fk}是用户的频率选择策略，p(s′|s,a)表示用户的频率选择策略a由状态s变为状态s′的转移概率；

对于立即回报r定义为：

其中，λ表示因状态改变带来的代价，at表示t时刻的信道选择动作。

一种基于深度q神经网络抗干扰模型的智能抗干扰算法，包括以下步骤：

步骤1，初始化：给定ε＝1，随机权重θ，感知初始环境s1，通过深度q神经网络得到拟合对应的q值表；

步骤2，用户依概率ε随机选择一个策略，或者，用户依概率1-ε选择q值最大的策略，即at＝argamaxq(st,a；θ)；

步骤3，计算选择该策略的回报值，观察选择该策略后下一时刻的状态变化；

步骤4，根据该策略的回报值和下一时刻环境状态进行样本训练，并将训练经验(st,a,r,st+1)储存到d中，判断样本训练次数是否大于门限如果否，继续进行样本训练；如果是，对转移状态矩阵进行随机抽样，获取某个状态和相应行动策略，并计算目标值，接着计算梯度并更新权值，然后进入步骤5；

步骤5，更新下一次选择策略的概率ε＝max(0.1,ε-δε)，其中δε为更新步长，并返回步骤2；

循环步骤2～5，直至达到最大迭代次数，算法结束。

进一步地，步骤1中所述的通过深度q神经网络得到拟合对应的q值表，具体如下：

首先对使用的深度卷积神经网络进行预处理，预处理过程为：

其中，nth表示噪声门限；si,t表示t时刻第i次训练接收到的信号大小，为预处理后信号大小；

经过预处理后，状态中包含零向量；然后使用深度卷积神经网络cnn对q函数进行拟合；对于当前的传播环境状态s和用户的频率选择策略a而言，拟合q函数表示如下：

其中，s′表示在状态s采用策略a所产生的下一个状态，γ表示折扣因子。

进一步地，步骤4所述的根据该策略的回报值和下一时刻环境状态进行样本训练，并将训练经验(st,a,r,st+1)储存到d中，判断样本训练次数是否大于门限如果否，继续进行样本训练；如果是，对转移状态矩阵进行随机抽样，获取某个状态和相应行动策略，并计算目标值，具体如下：

采用经验回放机制，用et＝(st,at,rt,st+1)表示t时刻的代理经验，并将其存贮在矩阵dt＝(e1,...,et)中；当经验池足够大时，从均匀分布e～u(d)中随机选取参量构建目标值其中r表示即时回报，γ表示折扣因子。

进一步地，步骤4中所述的计算梯度并更新权值，具体如下：

q学习在第i次迭代使用如式(8)所示损失函数：

li(θi)＝ee～u(d)[(yi-q(s,a；θi))²](8)

其中，θi表示q学习在i次迭代的参数，表示在参数θi-1下依贪婪策略计算的目标值；

依据梯度下降法，对损失函数求微分，求得损失函数的梯度，如式(9)所示：

其中，li(θi)表示损失函数，表示求梯度运算。

本发明与现有技术相比，其显著优点在于：(1)对传统卷积神经网络进行预处理，在不影响性能的情况下，降低计算复杂度；(2)模型完备，物理意义清晰，提出的基于深度强化学习的智能抗干扰算法，实现对提出模型的有效求解，求出用户的抗干扰功率控制策略；(3)能够有效地应对动态及智能干扰，并很好地刻画基于深度强化学习算法的抗干扰场景。

附图说明

图1是本发明深度q神经网络抗干扰模型的系统模型图。

图2是本发明中抗干扰q神经网络模型的结构示意图。

图3是本发明中q神经网络抗干扰更新过程图。

图4是本发明实施例1中对抗固定干扰模式的频谱瀑布图。

图5是本发明中实施1中对抗固定模式干扰的输出信息量的图。

图6是本发明实施例2中对抗动态及智能干扰模式的频谱瀑布图。

具体实施方式

本发明所提出的深度q神经网络抗干扰模型及智能抗干扰算法，旨在提供方案以解决智能抗干扰问题。本发明基于深度学习算法，将接收端的频谱瀑布图作为学习的输入状态，采用深度q神经网络对状态的q值函数进行拟合，并将其作为决策依据；接着，通过相应的决策算法，更新用户的频率选择策略。

图1是抗干扰系统模型图。该模型中，一组发射端和接收端对为一个用户，一个用户进行通信，控制系统可以帮助用户进行选频，系统中存在一个或多个干扰机对用户通信实施干扰。

图2是抗干扰q神经网络模型。抗干扰q神经网络采用卷积神经网络框架，输入为频谱瀑布图，经过两层卷积加两层全连接操作得到了当前状态对应的q值表，然后通过相应的决策算法即可得出当前状态下最优的抗干扰决策。而深度神经网络参数的更新，则通过实时记录当前输入状态、所选决策说明经过抗干扰学习、立即回报和下一步环境状态进行训练予以实现。

对该模型做如下刻画：一组发射端和接收端对为一个用户，一个用户进行通信，一个或多个干扰机对用户通信实施干扰；在动态未知环境中，将接收端的频谱瀑布图作为学习的输入状态，计算干扰的频域和时域特征，最终获取干扰的策略，并采用深度q神经网络对q函数进行拟合，作为该模型的决策依据。

图3是抗干扰q神经网络更新过程，该更新过程采用经验回放的思想，当代理的训练经验足够大时，从经验矩阵中随机抽取目标值；并通过梯度下降法对系统参量进行更新。

本发明基于传统q学习，结合智能抗干扰问题，考虑干扰智能性强、干扰决策估计困难、学习决策空间庞大等因素，采用深度神经网络对q值函数进行拟合，并对神经网络状态更新，通过相应决策算法，得出最优抗干扰决策。

进一步地，所述深度q神经网抗干扰络模型，其用户接收端的信干噪比sinr表示为：

此外，用βth表示成功传输所需要的sinr门限，定义归一化门限如公式(2)所示：

在接收终端部署了一个代理，该接收终端的功率谱密度函数如式(3)所示：

其中，j＝1,…,j表示干扰；

模型中的离散频谱采样值定义为：

其中，δf表示频谱分辨率；i表示采样数，s(f+fl)为式(3)所述功率谱密度函数、f表示采样频率、fl为所选频率的下界；

代理通过频谱向量st＝{st,1,st,2,...,st,n}决定传输频率，并通过可靠链路通知发送端；st,n为t时刻所决定的第n段传输频率。

进一步地，所述的深度q神经网络抗干扰模型，其通信环境是动态未知的，该模型中的抗干扰问题可建模为马尔科夫决策过程(markovdecisionprocess)。该环境存在的复杂干扰模式与历史信息有关，因此环境状态定义为st＝{st,st-1,...,st-t+1}，其中，t表示回溯的历史状态数目，st表示一个t×n的二维矩阵，由st矩阵构建出频谱瀑布图。

进一步地，在所述的深度q神经网络抗干扰模型中，s∈{s1,s2,...}表示当前的传播环境状态，a∈{f1,f2,...,fk}是用户的频率选择策略，p(s′|s,a)表示用户的频率选择策略a，由状态s变为状态s′的转移概率。对于立即回报r的定义如下：

其中，λ表示因状态改变带来的代价，at表示t时刻的信道选择动作。

本发明基于深度q神经网络抗干扰模型的智能抗干扰算法，包括以下步骤：

步骤1，初始化：给定ε＝1，随机权重θ，感知初始环境s1，通过深度q神经网络得到拟合对应的q值表；

步骤2，用户依概率ε随机选择一个策略，或者，用户依概率1-ε选择q值最大的策略，即

步骤3，计算选择该策略的回报值，观察选择该策略后下一时刻的状态变化；

步骤5，更新下一次选择策略的概率ε＝max(0.1,ε-δε)，其中δε为更新步长，并返回步骤2；

循环步骤2～5，直至达到最大迭代次数，算法结束。

进一步地，步骤1中所述的通过深度q神经网络得到拟合对应的q值表，具体如下：

首先对使用的深度卷积神经网络进行预处理，预处理过程为：

其中，nth表示噪声门限；si,t表示t时刻第i次训练接收到的信号大小，为预处理后信号大小；

其中，s′表示在状态s采用策略a所产生的下一个状态，γ表示折扣因子。

进一步地，步骤4中所述的计算梯度并更新权值，具体如下：

q学习在第i次迭代使用如式(8)所示损失函数：

li(θi)＝ee～u(d)[(yi-q(s,a；θi))²](8)

其中，θi表示q学习在i次迭代的参数，表示在参数θi-1下依贪婪策略计算的目标值；

依据梯度下降法，对损失函数求微分，求得损失函数的梯度，如式(9)所示：

其中，li(θi)表示损失函数，表示求梯度运算。

由于计算目标值和更新网络权值在不同阶段，因此实现算法过程中只需要一层预处理卷积神经网络。

实施例1

本发明的第一个实施例具体描述如下，系统仿真采用python语言，基于caffe深度学习框架，参数设定不影响一般性。该实施例验证所提模型与方法的有效性，图4验证对抗固定干扰模式的有效性。参数设置为，干扰和用户的频带为20mhz,频谱感知的频率分辨率为100khz，用户每1ms进行一次全频段感知，并将感知到的频谱数据保持200ms，因此，st矩阵大小为200×200，用户信号带宽为4mhz，用户中心频率每10ms改变2mhz，所以k＝9。用户和干扰的信号波形均为升余弦波，滚降系数为α＝0.5。干扰功率为30dbm，用户的信号功率为0dbm。解调门限βth为10db,换频切换代价λ为0.2。在实施例1中，我们考虑2种固定干扰模式：1、扫频干扰，扫频速度为1ghz/s；2、梳状干扰，3个固定干扰频率，分别为2mhz,10mhz，18mhz。

图4是本发明实施例1中对抗固定干扰模式的频谱瀑布图，从图中可以看出，扫频干扰由于线性的频率变化呈现对角线，而梳状干扰表现为许多垂直的条纹，用户的信号为矩形的方块，用户信号和干扰信号没有重叠，说明经过抗干扰学习后，用户基本避开了固定模式的干扰。

图5是本发明中实施1中对抗固定模式干扰的输出信息量的图，其中输出的信息量已经进行归一化，从图中可以看出，随着迭代次数的增加，设备的学习情况变得更好，避开固定模式的干扰，最终达到稳定信息输出。

实施例2

本发明的第二个实施例具体描述如下，系统仿真采用python语言，基于caffe深度学习框架，参数设定不影响一般性。该实施例验证所提模型与方法的有效性，图4验证对抗固定干扰模式的有效性，图5验证对抗动态干扰和智能干扰的效性。参数设置为，干扰和用户的频带为20mhz,频谱感知的频率分辨率为100khz，用户每1ms进行一次全频段感知，并将感知到的频谱数据保持200ms，因此，st矩阵大小为200×200，用户信号带宽为4mhz，用户中心频率每10ms改变2mhz，所以k＝9。用户和干扰的信号波形均为升余弦波，滚降系数为α＝0.5。干扰功率为30dbm，用户的信号功率为0dbm。解调门限βth为10db,换频切换代价λ为0.2。在实施例2中，我们考虑动态干扰模式和智能干扰模式：1、动态干扰，每100ms在扫频干扰和梳状干扰间随机切换；2、智能梳状干扰，通过计算用户在过去100ms内的选频概率选择梳状干扰频率。

图6是本发明实施例2中对抗动态及智能干扰模式的频谱瀑布图，图中红色三角形表示干扰模式的变换时刻，黑色方块表示用户信号被干扰的位置(时间、频点)。从图中可以看出，在动态干扰和智能干扰条件下，虽未预先对干扰的动态性和智能性建模，抗干扰学习依旧能够保证用户有效地避开大部分干扰。

综上所述，本发明提出的深度q神经网络抗干扰模型，充分考虑了抗干扰问题中干扰智能性强、干扰决策估计困难、学习决策空间庞大的问题，比传统模型更有实际意义；提出的基于深度q神经网络抗干扰模型的智能抗干扰算法，能够实现对提出模型的有效求解，求出用户的抗干扰功率控制策略，有效地应对动态及智能干扰。

完整全部详细技术资料下载

当前第1页 1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王金龙;徐煜华;刘鑫;徐逸凡;李洋洋;赵磊;冯智斌
技术所有人：中国人民解放军陆军工程大学
我是此专利的发明人

上一篇：一种利用场激电化制备杀菌水的方法与流程
上一篇：一种用女贞子浸提液保鲜枇杷的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。