一种深度Q神经网络抗干扰模型及智能抗干扰算法的制作方法

文档序号:15878842发布日期:2018-11-09 17:30阅读:562来源:国知局
导航: X技术> 最新专利> 电子通信装置的制造及其应用技术
一种深度Q神经网络抗干扰模型及智能抗干扰算法的制作方法

本发明属于无线通信技术领域,特别是一种深度q神经网络抗干扰模型及智能抗干扰算法。

背景技术

由于无线通信环境的开放性,无线通信系统极易遭受恶意干扰的攻击。此外,由于人工智能技术的飞速发展,使得干扰智能化水平不断提高,未来的通信干扰将呈现“波形灵巧”、“决策智能”等典型特点,使得传统抗干扰技术(如跳频和扩频)的抗干扰能力明显下降,甚至完全丧失,给无线通信系统或网络的稳定和安全带来极大的挑战。因而,迫切需要研究更加高效的抗干扰方法。针对新型的干扰环境特性,引入人工智能技术将是一种可选的方案。用户采用各种智能学习的方法,对干扰波形样式、信号构成和决策规律等进行有效的分析,并以此为基础智能地选取对抗决策,将有效地提升其抗干扰能力。

考虑到干扰环境的动态特性,强化学习成为研究智能抗干扰问题最优决策的一种热门工具(参考文献:c.j.c.h.watkins,etal.,“q-learning,”mach.learn.,,vol.8,pp.279-292,1992)。然而,它无法拓展到状态决策空间庞大的应用环境。



技术实现要素:

本发明的目的在于提供一种深度q神经网络抗干扰模型及智能抗干扰算法,很好地刻画基于深度强化学习算法的抗干扰场景。

实现本发明目的的技术解决方案为:一种深度q神经网络抗干扰模型,对该模型做如下刻画:一组发射端和接收端对为一个用户,一个用户进行通信,一个或多个干扰机对用户通信实施干扰;在动态未知环境中,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征,最终获取干扰的策略,并采用深度q神经网络对q函数进行拟合,作为该模型的决策依据。

进一步地,用户接收端的信干噪比sinr表示为:

公式中(1)中,ft表示用户在代理指导下所选频率,t表示当前时刻;表示用户的功率,u(f)和bu分别表示用户的功率谱密度和基带信号带宽,gu表示用户发送端到接收端的信道增益,gj表示干扰到用户接收端的信道增益,ftj表示干扰选择的干扰频率,表示干扰的功率谱密度函数,n(f)表示噪声的功率谱密度函数;

此外,用βth表示成功传输所需要的sinr门限,定义归一化门限如公式(2)所示:

在接收终端部署了一个代理,该接收终端的功率谱密度函数如式(3)所示:

其中,j=1,…,j表示干扰;

模型中的离散频谱采样值定义为:

其中,δf表示频谱分辨率;i表示采样数,s(f+fl)为式(3)所述功率谱密度函数、f表示采样频率、fl为所选频率的下界;

代理通过频谱向量st={st,1,st,2,...,st,n}决定传输频率,并通过可靠链路通知发送端;st,n为t时刻所决定的第n段传输频率。

进一步地,所述的在动态未知环境中,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征,最终获取干扰的策略,具体如下:

在动态未知的通信环境中,模型中的抗干扰问题建模为马尔科夫决策过程,该环境存在的复杂干扰模式与历史信息有关,因此环境状态定义为st={st,st-1,...,st-t+1},其中,t表示回溯的历史状态数目,st表示一个t×n的二维矩阵,由st矩阵构建出频谱瀑布图。

进一步地,所述的环境状态中,s∈{s1,s2,...}表示当前的传播环境状态,a∈{f1,f2,...,fk}是用户的频率选择策略,p(s′|s,a)表示用户的频率选择策略a由状态s变为状态s′的转移概率;

对于立即回报r定义为:

其中,λ表示因状态改变带来的代价,at表示t时刻的信道选择动作。

一种基于深度q神经网络抗干扰模型的智能抗干扰算法,包括以下步骤:

步骤1,初始化:给定ε=1,随机权重θ,感知初始环境s1,通过深度q神经网络得到拟合对应的q值表;

步骤2,用户依概率ε随机选择一个策略,或者,用户依概率1-ε选择q值最大的策略,即at=argamaxq(st,a;θ);

步骤3,计算选择该策略的回报值,观察选择该策略后下一时刻的状态变化;

步骤4,根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(st,a,r,st+1)储存到d中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,接着计算梯度并更新权值,然后进入步骤5;

步骤5,更新下一次选择策略的概率ε=max(0.1,ε-δε),其中δε为更新步长,并返回步骤2;

循环步骤2~5,直至达到最大迭代次数,算法结束。

进一步地,步骤1中所述的通过深度q神经网络得到拟合对应的q值表,具体如下:

首先对使用的深度卷积神经网络进行预处理,预处理过程为:

其中,nth表示噪声门限;si,t表示t时刻第i次训练接收到的信号大小,为预处理后信号大小;

经过预处理后,状态中包含零向量;然后使用深度卷积神经网络cnn对q函数进行拟合;对于当前的传播环境状态s和用户的频率选择策略a而言,拟合q函数表示如下:

其中,s′表示在状态s采用策略a所产生的下一个状态,γ表示折扣因子。

进一步地,步骤4所述的根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(st,a,r,st+1)储存到d中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,具体如下:

采用经验回放机制,用et=(st,at,rt,st+1)表示t时刻的代理经验,并将其存贮在矩阵dt=(e1,...,et)中;当经验池足够大时,从均匀分布e~u(d)中随机选取参量构建目标值其中r表示即时回报,γ表示折扣因子。

进一步地,步骤4中所述的计算梯度并更新权值,具体如下:

q学习在第i次迭代使用如式(8)所示损失函数:

li(θi)=ee~u(d)[(yi-q(s,a;θi))2](8)

其中,θi表示q学习在i次迭代的参数,表示在参数θi-1下依贪婪策略计算的目标值;

依据梯度下降法,对损失函数求微分,求得损失函数的梯度,如式(9)所示:

其中,li(θi)表示损失函数,表示求梯度运算。

本发明与现有技术相比,其显著优点在于:(1)对传统卷积神经网络进行预处理,在不影响性能的情况下,降低计算复杂度;(2)模型完备,物理意义清晰,提出的基于深度强化学习的智能抗干扰算法,实现对提出模型的有效求解,求出用户的抗干扰功率控制策略;(3)能够有效地应对动态及智能干扰,并很好地刻画基于深度强化学习算法的抗干扰场景。

附图说明

图1是本发明深度q神经网络抗干扰模型的系统模型图。

图2是本发明中抗干扰q神经网络模型的结构示意图。

图3是本发明中q神经网络抗干扰更新过程图。

图4是本发明实施例1中对抗固定干扰模式的频谱瀑布图。

图5是本发明中实施1中对抗固定模式干扰的输出信息量的图。

图6是本发明实施例2中对抗动态及智能干扰模式的频谱瀑布图。

具体实施方式

本发明所提出的深度q神经网络抗干扰模型及智能抗干扰算法,旨在提供方案以解决智能抗干扰问题。本发明基于深度学习算法,将接收端的频谱瀑布图作为学习的输入状态,采用深度q神经网络对状态的q值函数进行拟合,并将其作为决策依据;接着,通过相应的决策算法,更新用户的频率选择策略。

图1是抗干扰系统模型图。该模型中,一组发射端和接收端对为一个用户,一个用户进行通信,控制系统可以帮助用户进行选频,系统中存在一个或多个干扰机对用户通信实施干扰。

图2是抗干扰q神经网络模型。抗干扰q神经网络采用卷积神经网络框架,输入为频谱瀑布图,经过两层卷积加两层全连接操作得到了当前状态对应的q值表,然后通过相应的决策算法即可得出当前状态下最优的抗干扰决策。而深度神经网络参数的更新,则通过实时记录当前输入状态、所选决策说明经过抗干扰学习、立即回报和下一步环境状态进行训练予以实现。

对该模型做如下刻画:一组发射端和接收端对为一个用户,一个用户进行通信,一个或多个干扰机对用户通信实施干扰;在动态未知环境中,将接收端的频谱瀑布图作为学习的输入状态,计算干扰的频域和时域特征,最终获取干扰的策略,并采用深度q神经网络对q函数进行拟合,作为该模型的决策依据。

图3是抗干扰q神经网络更新过程,该更新过程采用经验回放的思想,当代理的训练经验足够大时,从经验矩阵中随机抽取目标值;并通过梯度下降法对系统参量进行更新。

本发明基于传统q学习,结合智能抗干扰问题,考虑干扰智能性强、干扰决策估计困难、学习决策空间庞大等因素,采用深度神经网络对q值函数进行拟合,并对神经网络状态更新,通过相应决策算法,得出最优抗干扰决策。

进一步地,所述深度q神经网抗干扰络模型,其用户接收端的信干噪比sinr表示为:

公式中(1)中,ft表示用户在代理指导下所选频率,t表示当前时刻;表示用户的功率,u(f)和bu分别表示用户的功率谱密度和基带信号带宽,gu表示用户发送端到接收端的信道增益,gj表示干扰到用户接收端的信道增益,ftj表示干扰选择的干扰频率,表示干扰的功率谱密度函数,n(f)表示噪声的功率谱密度函数。

此外,用βth表示成功传输所需要的sinr门限,定义归一化门限如公式(2)所示:

在接收终端部署了一个代理,该接收终端的功率谱密度函数如式(3)所示:

其中,j=1,…,j表示干扰;

模型中的离散频谱采样值定义为:

其中,δf表示频谱分辨率;i表示采样数,s(f+fl)为式(3)所述功率谱密度函数、f表示采样频率、fl为所选频率的下界;

代理通过频谱向量st={st,1,st,2,...,st,n}决定传输频率,并通过可靠链路通知发送端;st,n为t时刻所决定的第n段传输频率。

进一步地,所述的深度q神经网络抗干扰模型,其通信环境是动态未知的,该模型中的抗干扰问题可建模为马尔科夫决策过程(markovdecisionprocess)。该环境存在的复杂干扰模式与历史信息有关,因此环境状态定义为st={st,st-1,...,st-t+1},其中,t表示回溯的历史状态数目,st表示一个t×n的二维矩阵,由st矩阵构建出频谱瀑布图。

进一步地,在所述的深度q神经网络抗干扰模型中,s∈{s1,s2,...}表示当前的传播环境状态,a∈{f1,f2,...,fk}是用户的频率选择策略,p(s′|s,a)表示用户的频率选择策略a,由状态s变为状态s′的转移概率。对于立即回报r的定义如下:

其中,λ表示因状态改变带来的代价,at表示t时刻的信道选择动作。

本发明基于深度q神经网络抗干扰模型的智能抗干扰算法,包括以下步骤:

步骤1,初始化:给定ε=1,随机权重θ,感知初始环境s1,通过深度q神经网络得到拟合对应的q值表;

步骤2,用户依概率ε随机选择一个策略,或者,用户依概率1-ε选择q值最大的策略,即

步骤3,计算选择该策略的回报值,观察选择该策略后下一时刻的状态变化;

步骤4,根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(st,a,r,st+1)储存到d中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,接着计算梯度并更新权值,然后进入步骤5;

步骤5,更新下一次选择策略的概率ε=max(0.1,ε-δε),其中δε为更新步长,并返回步骤2;

循环步骤2~5,直至达到最大迭代次数,算法结束。

进一步地,步骤1中所述的通过深度q神经网络得到拟合对应的q值表,具体如下:

首先对使用的深度卷积神经网络进行预处理,预处理过程为:

其中,nth表示噪声门限;si,t表示t时刻第i次训练接收到的信号大小,为预处理后信号大小;

经过预处理后,状态中包含零向量;然后使用深度卷积神经网络cnn对q函数进行拟合;对于当前的传播环境状态s和用户的频率选择策略a而言,拟合q函数表示如下:

其中,s′表示在状态s采用策略a所产生的下一个状态,γ表示折扣因子。

进一步地,步骤4所述的根据该策略的回报值和下一时刻环境状态进行样本训练,并将训练经验(st,a,r,st+1)储存到d中,判断样本训练次数是否大于门限如果否,继续进行样本训练;如果是,对转移状态矩阵进行随机抽样,获取某个状态和相应行动策略,并计算目标值,具体如下:

采用经验回放机制,用et=(st,at,rt,st+1)表示t时刻的代理经验,并将其存贮在矩阵dt=(e1,...,et)中;当经验池足够大时,从均匀分布e~u(d)中随机选取参量构建目标值其中r表示即时回报,γ表示折扣因子。

进一步地,步骤4中所述的计算梯度并更新权值,具体如下:

q学习在第i次迭代使用如式(8)所示损失函数:

li(θi)=ee~u(d)[(yi-q(s,a;θi))2](8)

其中,θi表示q学习在i次迭代的参数,表示在参数θi-1下依贪婪策略计算的目标值;

依据梯度下降法,对损失函数求微分,求得损失函数的梯度,如式(9)所示:

其中,li(θi)表示损失函数,表示求梯度运算。

由于计算目标值和更新网络权值在不同阶段,因此实现算法过程中只需要一层预处理卷积神经网络。

实施例1

本发明的第一个实施例具体描述如下,系统仿真采用python语言,基于caffe深度学习框架,参数设定不影响一般性。该实施例验证所提模型与方法的有效性,图4验证对抗固定干扰模式的有效性。参数设置为,干扰和用户的频带为20mhz,频谱感知的频率分辨率为100khz,用户每1ms进行一次全频段感知,并将感知到的频谱数据保持200ms,因此,st矩阵大小为200×200,用户信号带宽为4mhz,用户中心频率每10ms改变2mhz,所以k=9。用户和干扰的信号波形均为升余弦波,滚降系数为α=0.5。干扰功率为30dbm,用户的信号功率为0dbm。解调门限βth为10db,换频切换代价λ为0.2。在实施例1中,我们考虑2种固定干扰模式:1、扫频干扰,扫频速度为1ghz/s;2、梳状干扰,3个固定干扰频率,分别为2mhz,10mhz,18mhz。

图4是本发明实施例1中对抗固定干扰模式的频谱瀑布图,从图中可以看出,扫频干扰由于线性的频率变化呈现对角线,而梳状干扰表现为许多垂直的条纹,用户的信号为矩形的方块,用户信号和干扰信号没有重叠,说明经过抗干扰学习后,用户基本避开了固定模式的干扰。

图5是本发明中实施1中对抗固定模式干扰的输出信息量的图,其中输出的信息量已经进行归一化,从图中可以看出,随着迭代次数的增加,设备的学习情况变得更好,避开固定模式的干扰,最终达到稳定信息输出。

实施例2

本发明的第二个实施例具体描述如下,系统仿真采用python语言,基于caffe深度学习框架,参数设定不影响一般性。该实施例验证所提模型与方法的有效性,图4验证对抗固定干扰模式的有效性,图5验证对抗动态干扰和智能干扰的效性。参数设置为,干扰和用户的频带为20mhz,频谱感知的频率分辨率为100khz,用户每1ms进行一次全频段感知,并将感知到的频谱数据保持200ms,因此,st矩阵大小为200×200,用户信号带宽为4mhz,用户中心频率每10ms改变2mhz,所以k=9。用户和干扰的信号波形均为升余弦波,滚降系数为α=0.5。干扰功率为30dbm,用户的信号功率为0dbm。解调门限βth为10db,换频切换代价λ为0.2。在实施例2中,我们考虑动态干扰模式和智能干扰模式:1、动态干扰,每100ms在扫频干扰和梳状干扰间随机切换;2、智能梳状干扰,通过计算用户在过去100ms内的选频概率选择梳状干扰频率。

图6是本发明实施例2中对抗动态及智能干扰模式的频谱瀑布图,图中红色三角形表示干扰模式的变换时刻,黑色方块表示用户信号被干扰的位置(时间、频点)。从图中可以看出,在动态干扰和智能干扰条件下,虽未预先对干扰的动态性和智能性建模,抗干扰学习依旧能够保证用户有效地避开大部分干扰。

综上所述,本发明提出的深度q神经网络抗干扰模型,充分考虑了抗干扰问题中干扰智能性强、干扰决策估计困难、学习决策空间庞大的问题,比传统模型更有实际意义;提出的基于深度q神经网络抗干扰模型的智能抗干扰算法,能够实现对提出模型的有效求解,求出用户的抗干扰功率控制策略,有效地应对动态及智能干扰。

完整全部详细技术资料下载
当前第1页 1  2 
相关技术
  • 一种下一代传感网通信系统的实...
  • 基于皮尔森系数的LTE高负荷...
  • 数据传输控制方法、网络设备与...
  • 一种基于对分搜索式的非正交接...
  • 一种通信方法、装置及存储介质...
  • 一种网络分析方法、服务器及网...
  • 一种WIFI连接方法及装置与...
  • 一种WSN节点向电信网络的鉴...
  • 一种定义第二接口的单SIM双...
  • 一种蓝牙传输方法、蓝牙控制器...
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
神经网络算法相关技术
  • 一种基于ANFIS模糊神经网络的机器人路径规划方法与流程
  • 一种基于ZigBee动态自组织网络的车辆群定位通信系统的制造方法与工艺
  • 一种基于BP神经网络的人工智能优化方法与流程
  • 基于深度神经网络的风电机组齿轮箱故障监测方法及系统与流程
  • 一种基于卷积神经网络的移动用户行为预测方法与流程
  • 一种车辆自组织网络混合型路由生成算法的制造方法与工艺
  • 一种二值卷积神经网络处理器及其使用方法与流程
  • 基于卷积神经网络和手机传感器数据的跌倒检测方法与流程
  • 对花卉识别系统进行改进的辅助系统和进行改进的方法与流程
  • 一种基于卷积神经的农作物害虫图像识别方法与流程
卷积神经网络算法相关技术
  • 对花卉识别系统进行改进的辅助系统和进行改进的方法与流程
  • 一种基于卷积神经的农作物害虫图像识别方法与流程
  • 一种基于双流卷积神经网络的立体匹配方法与流程
  • 一种基于卷积神经网络的图像处理方法、装置及移动终端与流程
  • 一种基于卷积深度网络的图像识别算法及系统的制造方法与工艺
  • 一种利用卷积神经网络的医学图像处理装置与方法与流程
  • 基于BP神经网络算法的电力变压器故障诊断装置及方法与流程
  • 一种基于1D卷积神经网络的室性异位搏动检测方法与流程
  • 用于实现稀疏卷积神经网络加速器的装置和方法与流程
  • 基于多任务级联卷积神经网络的人脸检测方法及检测装置与流程
神经网络算法入门相关技术
  • 一种基于神经网络算法的电能消耗预测系统的制作方法
  • 基于神经网络改进算法的电信客户流失预测方法
  • 一种基于智能天线和神经网络算法的抗干扰方法
  • 一种基于神经网络的无线传感器网络入侵检测算法
  • 一种基于lmbp神经网络的泰勒定位算法
  • Atm网络中利用最早到期日算法的停走排队业务的方法
  • 基于bp神经网络算法对涂层老化的分析方法
  • 一种基于bp神经网络算法的核事故源项反演方法
  • 基于微分进化算法和bp神经网络的避雷器均压环优化法
  • 基于神经网络和标签库的语句相似度算法的制作方法

深圳SEO优化公司河源关键词按天扣费多少钱马鞍山企业网站建设哪家好横岗关键词排名包年推广漯河外贸网站建设报价海西至尊标王哪家好南阳至尊标王推荐盐城seo优化张家口网站排名优化公司益阳网站排名优化价格达州品牌网站设计芜湖关键词按天扣费推荐烟台seo排名丽江建网站黔西南网站关键词优化多少钱网站推广系统哪家好玉林seo排名价格徐州百姓网标王哪家好保定阿里店铺托管玉树seo网站优化价格石岩建网站哪家好鹰潭网站建设设计防城港建网站罗湖seo网站优化价格凉山网站推广系统永州网站建设设计镇江关键词按天收费哪家好思茅seo优化价格通辽SEO按天计费推荐阜阳百姓网标王推荐许昌网站优化推广多少钱歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化