李永刚(1967),男,教授,博士生导师,通信作者,研究方向为电气设备诊断、新能源电力系统,E-mail:lygzxm0@163.com;
0 引言
风场的风速预测可提高含可再生能源并网的电网调度经济性和风电场的运行安全性[1- 2],但风速的波动性、间接性及低能量密度等特点也会降低电力系统运行的可靠性[ 3- 4]。因此,准确的风速预测对于风电并网及电力系统的运行变得越发重要[ 5- 6]。
现有的风速及风功率预测方法包括物理方法[ 7- 8]、数学方法[ 9- 10]、人工智能方法[ 11- 12]等。目前,大多数的国内外学者更关注于基于人工智能的风速预测方法,其中BP神经网络、极限学习机、核岭回归(kernel ridge regression,KRR)等方法应用较多。文献[13]运用天牛须算法优选BP神经网络参数从而提出组合风速预测方法,验证了参数优选的有效性。文献[14]基于互信息约简构建正则化极限学习机组合预测模型,得到了较好的预测效果。KRR参数设置简单、学习能力强、计算速度快且易收敛,但传统KRR的正则化系数及核参数随机生成,对预测效果的影响较大。文献[15]对萤火虫优化算法在各个领域中的应用进行了分析,表明其可有效提高机器学习模型对非线性序列的学习能力,同时存在易陷入局部最优等问题。研究表明[ 16],人工智能及机器学习的预测效果较好,但仍存在以下不足:1)单一预测模型学习能力受随机性限制,导致泛化能力不佳[ 17]。2)基于加权平均的组合预测算法也不能够体现样本集内单个样本预测误差对整体权重的影响[ 18]。由此,本文选用Stacking算法[ 19]对多个独立的预测模型进行融合,以提高模型精度和泛化能力。
本文对多个不同的核岭回归模型通过Stacking算法进行融合以构建组合风速预测模型。首先,利用改进的萤火虫算法(improved firefly algorithm,IFA)对各核岭回归模型进行参数优选,以避免参数随机设置导致的预测精度下降;然后利用Stacking算法融合相互独立的核岭回归模型,并采用交叉验证方法对基础模型的输入进行划分,防止过拟合。最后将预测结果与实际风场数据进行对比,验证所提模型的有效性。
1 基于IFA的核岭回归预测模型
1.1 核岭回归
核岭回归[ 20]基于核技巧将时间序列数据模式非线性地转换为由满足Mercer条件的核函数所确定的某些高维特征空间。设给定训练集为{(
\({{y}_{i}}={{\beta }_{i}}\cdot \varphi ({{x}_{i}})\text{+}{{\xi }_{i}},i=1,2,\cdot \cdot \cdot N\) (1)
式中:
\(\beta ={{[{{\beta }_{1}},{{\beta }_{2}},\cdot \cdot \cdot ,{{\beta }_{N}}]}^{T}}\) (2)
核岭回归使用正则化最小二乘法通过最小化目标函数来获得权重向量
\(\underset{\beta }{\mathop{\arg \min }}\,{{L}_{KRR}}=\frac{1}{2}||\beta |{{|}^{2}}+\frac{1}{2}C\sum\limits_{i=1}^{N}{\xi _{i}^{2}}\) (3)
式中
\({{\xi }_{i}}={{y}_{i}}-{{\beta }_{i}}\cdot \varphi ({{x}_{i}}),i=1,2,\cdot \cdot \cdot ,N\) (4)
引入拉格朗日乘数
\({{L}_{\text{KRR}}}=\frac{1}{2}||\beta |{{|}^{2}}+\frac{1}{2}C\sum\limits_{i=1}^{N}{\xi _{i}^{2}}+\sum\limits_{i=1}^{N}{{{\alpha }_{i}}}({{y}_{i}}-\beta \cdot \varphi ({{x}_{i}})-{{\xi }_{i}})\)
(5)
通过求取
\(\beta ={{({{\varphi }^{T}}\varphi +\frac{1}{C}I)}^{-1}}{{\varphi }^{T}}Y\) (6)
式中
向
在特征空间中,由Mercer条件[ 21],内积可以由核形式表示:
\(K({{x}_{i}},{{x}_{j}})=\varphi ({{x}_{i}})\varphi ({{x}_{j}})\) (7)
所以,得到相应的回归方程:
\(y={{Y}^{\text{T}}}{{(K+\frac{1}{C}I)}^{-1}}k\) (8)
式中
式中:
在训练过程中,满足Mercer条件的核函数通过将数据映射到高维特征空间来提高计算能力,增强数据的线性可分性,从而提高了模型回归和分类的准确性、稳定性及泛化能力。
内核函数包含全局和局部两类,其中多项式内核为全局内核函数,其最显著特征是距离较远的数据点也影响内核函数的值;高斯内核为局部内核函数,只有紧邻的数据点会影响内核函数的值;除此之外,内核函数还包括具有强大的函数拟合能力以及泛化能力的两种小波核函数,Morlet小波核函数及墨西哥帽小波核函数。内核函数具体表达式如下:
1)多项式核函数(polynomial kernel)。
\({{K}_{\text{p}}}({{x}_{i}},{{x}_{j}})={{(1+{{x}_{i}}{{x}_{j}}/{{\sigma }^{2}})}^{d}}\) (10)
式中:
2)高斯核函数(Gaussian kernel)。
\({{K}_{\text{G}}}({{x}_{i}},{{x}_{j}})=\exp (-||{{x}_{i}}-{{x}_{j}}|{{|}^{2}})/(2{{\sigma }^{2}})\) (11)
3)正切双曲核函数(tangent hyperbolic kernel)。
\({{K}_{\text{TH}}}({{x}_{i}},{{x}_{j}})=\tanh (b{{x}_{i}}{{x}_{j}}+c)\) (12)
式中
4)Morlet小波核函数(Morlet wavelet kernel)。
\({{K}_{\text{W}}}({{x}_{i}},{{x}_{j}})=\cos (\frac{1.675||({{x}_{i}}-{{x}_{j}})||}{\text{e}})\exp (-\frac{||({{x}_{i}}-{{x}_{j}})|{{|}^{2}}}{2{{\text{e}}^{2}}})\)
(13)
5)墨西哥帽小波核函数(Mexican hat wavelet kernel)。
\({{K}_{\text{MH}}}({{x}_{i}},{{x}_{j}})=[1-(|\frac{{{x}_{i}}-{{x}_{j}}}{f}{{|}^{2}})]\exp [-\frac{1}{2}(|\frac{{{x}_{i}}-{{x}_{j}}}{f}{{|}^{2}})]\) (14)
式中
在KRR回归模型中,正则化系数
1.2 改进的萤火虫算法
由于不同的预测模型的误差特性不同,导致各个模型结构和参数不一致且难以调整,因此本文采用萤火虫算法优化不同核函数的KRR模型参数。
传统的萤火虫算法(firefly algorithm,FA)通过萤火虫的光强度来进行萤火虫
\(X_{M}^{T}=X_{M}^{T-1}+{{L}_{0}}{{\text{e}}^{-\phi {{r}^{2}}}}(X_{M}^{T-1}-X_{J}^{T-1})+\chi R\) (15)
\(L(r)={{L}_{0}}{{\text{e}}^{-\phi {{r}^{2}}}}\) (16)
式中:
FA的核心即每只萤火虫都向着更亮的萤火虫飞行,将导致群体迅速收敛。当群体全都集中于一个位置时,算法的搜索能力会迅速下降且无法跳出局部最优。由此,本文在以下方面对FA算法进行改进:
1)过大的随机化参数将有助于萤火虫探索新的搜索空间但对全局解的收敛无效,而小的随机化易使算法陷入局部最优。同时为避免算法受制于空间规模且易陷入局部最优,使每一代的萤火虫能够在大空间中搜索可能的解决方案,并找到克服局部最优的全局最优解,本文添加自适应随机化参数及全局最佳概念以提高全局搜索能力。
\(\chi (T+1)={{(\frac{1}{2T})}^{\frac{1}{T}}}\chi (T)\) (17)
\(L(r)=({{L}_{\text{max}}}-{{L}_{\text{min}}}){{\text{e}}^{-\phi {{r}^{2}}}}+{{L}_{\text{min}}}\) (18)
式中
2)引入Levy飞行随机切换长步长与短步长使算法跳出局部最优,并提高搜索速度,使模型尽快得到最优解:
\({{f}_{\text{Levy}}}(\kappa )\tilde{\ }u={{T}^{-\kappa }}, 1<\kappa <3\) (19)
式中
由此式(15)改为
\(X{{_{I}^{T}}^{\prime }}=X_{I}^{T}+o\otimes {{f}_{\text{Levy}}}(\kappa )\) (20)
式中:
本文基本参数设置如下:最大迭代次数
2 基于Stacking融合的风速预测模型
已有研究表明[ 22],单一模型的预测结果精确度有限,因此采用Stacking模型融合多个预测模型。Stacking模型具有较强的异构数据处理能力及泛化能力,可同时降低机器学习模型的偏差及方差。
2.1 Stacking融合模型
本文利用Stacking[ 23]模型融合多个不同的KRR模型,以提升风速预测精度。其融合系统设计为2层结构,在强化学习效果的同时又避免了预测模型的冗余复杂,保证预测精度的同时缩短了运算时间。模型第一层即系统的基础模型层,由
当模型输入为
\({{z}_{i}}=F({{F}_{1}}({{X}_{i}}),\cdot \cdot \cdot ,{{F}_{h}}({{X}_{i}}),\cdot \cdot \cdot ,{{F}_{n}}({{X}_{i}}))\) (21)
第一阶段,指定训练集及预测集以实现对基础模型层的训练及预测,最终得到针对元模型第1-
第二阶段,根据上一阶段得到的
传统的Stacking模型中,相同的训练数据集由基础模型拟合,以便为元模型准备输入,这可能导致信息泄漏和过度拟合。因此,本文对传统的Stacking算法进行改进,通过使用交叉验证方法[ 24]以平衡过拟合和预测误差之间的关系。具体模型如
基础模型的数量与融合效果强相关,模型数量较
少达不到各模型的互补融合,数量过多则会造成冗余,增加系统参数复杂度及预测时间。一般来说,基础模型数量为3~5个为宜,本文经过大量仿真及人工经验,选用含有4个模型时Stacking模型,此时的融合效果最佳。因此,本文将4个不同KRR模型作为Stacking模型融合系统第一层的基础模型,将GKRR模型作为第二层预测模型,使Stacking模型的预测性能最强化。
2.2 风速组合预测模型流程及评价指标
为验证所提模型的有效性,选取以下两种评价指标对预测结果进行评价。
\({{\varepsilon }_{\text{R}}}\text{=}\sqrt{\frac{1}{N}\sum\limits_{t=1}^{N}{{{({{x}_{t}}-{{z}_{t}})}^{2}}}}\) (22)
式中:
绘制本文提出的风速组合预测模型具体流程如
3 仿真分析
选取南方电网实际风场风速数据开展研究,取该风场2012年各季度典型月原始风速序列进行仿真分析,并对原始数据进行预处理,采用相邻数据
互补法替换缺失及异常风速值。原始数据的采样间隔为10 min,共计4320个点,取每个月前20天数据为训练集,21—25日数据为测试集,26—30日为检验集(用以检验模型参数设定是否合适)。
3.1 不同方法预测结果分析
2012年各季度典型月风速数据如
风速波动情况比较规律,为周期性增强或减弱。夏秋两季风速变化规律相似且波动较平缓。
为检验和说明IFA-KRR的预测性能,选用极限学习机(extreme learning machine,ELM)和BP神经网络两种人工智能算法与之进行对比,对各季度典型月风速进行单步滚动的24 h短期预测。
其中,ELM采用径向基函数(radical basis function, RBF)作为核函数。BP使用单隐含层网络结构,激活函数为sigmoid函数。本文的训练及测试均在Matlab2016b环境下运行,采用Intel(R)Core(TM)i5- 8500,CPU@3.00GHz,RAM8.00GB的微机平台。
由
由
3.2 对比模型预测结果分析
首先对改进的FA和传统萤火虫算法进行对比,其误差曲线如
由
为验证本文所提Stacking融合模型的准确性,选择不同组合模型对25日风速进行滚动预测。其中,模型1为Sta-IFA-KRR,模型2为Sta-KRR,模型3为基于高斯内核的KRR,结果见
由
预测性能明显弱于通过Stacking模型融合的模型1和模型2,表明通过Stacking模型融合多个相互独立的预测模型,具有更强的非线性表述能力,可有效降低泛化误差。而模型2与模型1相比,由于没有对参数进行优选,虽能对风速变化趋势进行很好的预测,但在细节上(如9月25日110~130及3月25日0~10之间)容易出现过拟合现象导致预测结果与实测数据偏差较大。
对各模型不同季度风速预测进行误差分析,
3.3 泛化验证分析
为避免所选地区经纬度及气候特殊性的影响,结合美国风能资源中心(39.91°N,105.23°W)所提供的数据,进一步验证本文所提模型的适用性。以2018年11月历史风速数据为例,数据采样间隔为
10 min,风速波动时间序列见图7。
该风场受地理位置和气候环境的影响,在不同季度的风速波动特征与我国西南地区存在较大差异。根据当地实测数据选用不同组合模型对11月21日风速进行预测,结果如
由
4 结论
基于核岭回归,本文构建Stacking融合预测模型,结合实际风场数据进行短期风速预测,得出以下结论:
1)Stacking算法充分考虑了基于不同核函数的核岭回归预测效果差异性,对多个独立预测模型进行融合以获得更好的泛化能力,并采用交叉验证模型进一步提高模型预测精度。
2)对原始萤火虫算法进行改进有效提高搜索速度,使模型尽快得到全局最优解,提高了算法的收敛性能。基于改进的萤火虫优化算法优选核岭回归模型参数,可以避免参数设置不当而引起的过拟合问题。
3)通过构建组合风速预测模型对不同风场各季节典型月进行预测,结果表明所提模型具有较好的准确性与适用性。
国家自然科学基金(51177056),中国博士后科学基金(2011M501188),河南省科技厅科技攻关(122102210098)和河南省2010年博士后(2010024)资助项目。 国家自然科学基金(51177056),中国博士后科学基金(2011M501188),河南省科技厅科技攻关(122102210098)和河南省2010年博士后(2010024)资助项目。 国家自然科学基金(51177056),中国博士后科学基金(2011M501188),河南省科技厅科技攻关(122102210098)和河南省2010年博士后(2010024)资助项目。 国家自然科学基金(51177056),中国博士后科学基金(2011M501188),河南省科技厅科技攻关(122102210098)和河南省2010年博士后(2010024)资助项目。 国家自然科学基金(51177056),中国博士后科学基金(2011M501188),河南省科技厅科技攻关(122102210098)和河南省2010年博士后(2010024)资助项目。 国家自然科学基金(51177056),中国博士后科学基金(2011M501188),河南省科技厅科技攻关(122102210098)和河南省2010年博士后(2010024)资助项目。
参考文献
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
[21]
[22]
[23]
[24]
[25]