北极星

搜索历史清空

  • 水处理
您的位置:电力电力新闻输配电保护与控制市场正文

基于深度强化学习的孤岛微电网二次频率控制

2025-06-27 16:15来源:中国电力作者:长沙理工大学 王力等关键词:智能电网微电网孤岛微电网收藏点赞

投稿

我要投稿

编者按

微电网作为分布式可再生能源发电领域内新兴的前沿技术,已成为一种安全可靠的集成分布式电源及负荷的小型电力系统。近年来,随着分布式电源大量接入,微电网系统惯量不断降低,特别是在孤岛微电网中,由于缺少大电网的支撑,在面对扰动时,系统抗扰能力和频率稳定性显著下降,因此需要调整自身控制策略来保证系统抗干扰能力和频率稳定。

《中国电力》2025年第5期刊发了王力等撰写的《基于深度强化学习的孤岛微电网二次频率控制》一文。文章提出基于深度Q网络(deep Q network,DQN)的孤岛微电网二次频率稳定控制策略。首先分析下垂控制特性,结合二次频率控制原理,提出孤岛微电网二次频率控制器结构;然后将神经网络与 Q学习算法结合作为频率控制器算法,依次完成DQN的状态空间、动作空间、奖励函数以及超参数的设计;最后在Pycharm平台的Pytorch框架下编写DQN控制器,并进行离线训练,将训练完成的控制器嵌入在Matlab/Simulink平台搭建的孤岛微电网,设置多场景的系统扰动,验证所提控制策略对微电网频率控制的有效性。

摘要

随着分布式电源大量接入微电网,可再生能源发电波动性和系统随机扰动给孤岛微电网频率稳定和运行控制带来了严重威胁。为此,提出了基于深度强化学习的二次频率控制方法,分析孤岛微电网下垂控制特性,提出了基于深度Q网络的二次频率控制器结构。将频率偏差作为状态输入变量,依次完成深度Q网络算法中状态空间、动作空间、奖励函数、神经网络和超参数的设计,其中奖励函数兼顾了频率恢复和各分布式电源功率分配的目标,实现各智能体动作选择一致性;通过离线学习训练生成深度强化学习二次频率控制器。在Matlab/Simulink中搭建孤岛微电网仿真模型,设置多场景源荷扰动验证控制器性能。结果表明,与传统PID控制和基于Q学习算法控制器相比,该控制方法能够快速实现更稳定的二次频率控制,并能自适应协调各分布式电源按自身容量进行功率分配,确保系统稳定运行。

01

基本原理

1.1  下垂控制

DG的逆变器控制策略通常采用下垂控制,电力系统中频率和有功功率、电压和无功功率之间呈现线性关系。图1所示为2台DG并联的简化模型。其中,

图1  2台DG并联简化

Fig.1  Simplify of two DG in parallel

由图1可知,各逆变器的输出电流为

由此得到各逆变器输出的有功功率Pi和无功功率Qi分别为

在实际电网中,系统输出阻抗特性可视为高感性,其XR,可记Zi=Xiφi≈,此时cosφi≈0,sinφi≈1;在实际工程应用中,逆变器输出电压与PCC处的电压相位基本一致,即θi≈0,此时cosθi≈1,sinθiθi,因此可将式(2)简化为

根据式(3)可知,各逆变器输出的有功功率Pi与相角θi成正比,无功功率Qi与电压偏差U成正比,而相角θ与角频率ω之间存在关系为

角频率ω与频率f存在关系ω=2πf。联合式(3)(4)可以推导出下垂控制关系式为

式中:fU为频率偏差和电压偏差;mn为有功下垂系数和无功下垂系数;PQ为实际输出有功功率和无功功率;PnQn为额定有功功率和无功功率。

下垂控制的优点是不依赖通信网络和中央控制器,使得微电网运行的灵活性和稳定性大幅提升,其主要目标是通过下垂系数实现频率电压调节,并使各DG按额定容量进行功率分配。多DG并列运行时,各DG频率变化趋势具有一致性,系统达到稳态时各DG频率偏差相等,此时根据式(5)可得

式中:mj是第j个DG的下垂系数。在下垂控制中,有功功率分配仅与下垂系数有关,而线路阻抗参数主要影响功率传输能力,进而导致频率稳定问题,不影响按比例进行有功功率分配。各DG的下垂系数满足式(6)可实现各DG按额定容量比例进行功率分配,此时各DG输出的有功功率与各自的下垂系数呈反比关系。

下垂控制是有差调节,当系统发生扰动时,需要进行二次调频。与电力系统二次调频相似,孤岛微电网的二次频率控制本质上是将下垂特性曲线上下平移,P-f下垂特性曲线如图2所示。图2中系统初始稳定运行在

图2  

Fig.2  

1.2  马尔可夫决策过程

马尔可夫决策过程(Markov decision process,MDP)是强化学习的基本框架,本质上是智能体与环境的互动,如图3所示。MDP将待解决的问题转化为数学形式,简化了策略与环境模型,是解决复杂问题的关键工具。

图3  马尔可夫决策过程

Fig.3  Markov decision process

一般MDP可通过一个四元组(S,A,P,R)来表示,其中

RL的目标是通过找到一个最优策略π使智能体在与环境的长期交互中获得最大的奖励值。π可表示为

式中:P为策略π下状态s选择动作a的概率。

贝尔曼(Bellman)方程作为强化学习的理论基础,统一了所有基于MDP的强化学习理论。贝尔曼方程将状态价值函数、动作-状态价值函数和策略等强化学习中的重要概念通过公式紧密联系在一起,从而构建了一个系统化的方法来优化智能体行为。本文采用动作-状态价值函数相关的Bellman方程为

式中:k为迭代次数;为智能体执行贪婪策略后从环境得到的最优Q值函数;stt时刻的状态;att时刻的动作;γ为折扣因子,0<γ<1。

1.3  Q学习算法

Q学习是一种经典无模型RL的形式,该算法通过动作-状态价值函数建立Q值表,记录在所有状态下采取不同动作所能获得的最大长期期望奖励。智能体通过选择当前状态在Q值表中最大Q值对应的动作,执行动作并更新Q值表,最终得到所有Q值都已知的Q值表,Q值表的迭代更新公式为

式中:r(st,at)为状态st选取动作at获得的奖励;α为学习率,0<α<1。

随着状态空间和动作空间的扩大,Q学习需要建立的Q值表规模也随之增加,进而造成维数灾问题,使得维护和查找庞大的Q值表变得更加困难。

02

基于DQN的二次频率控制

逆变器采用下垂控制需要二次控制以消除静态频率偏差,为此提出了基于DQN的二次频率控制。

2.1  DQN算法

深度Q网络是一种将神经网络和Q学习相结合的方法。相比Q值表,神经网络通过价值函数近似方法,直接以状态作为输入,计算所有动作的价值,并输出价值最大的动作。该方法有效地解决了维数灾问题,神经网络价值函数近似方法如图4所示。

图4  神经网络价值函数近似方法

Fig.4  Value function approximation method of neural network

DQN算法的核心机制是经验回放策略和双网络结构,算法流程如图5所示。

图5  DQN算法流程

Fig.5  Flow of DQN algorithm

经验回放策略是指在训练过程中,将训练得到的经验存入回放缓冲区,在之后训练迭代时从回放缓冲区中随机抽取额定批量样本进行网络参数更新。双网络结构包括估计网络和目标网络,估计网络是智能体生成Q值的重要工具,训练时负责与环境交互;目标网络可以保持目标值稳定和防止网络过拟合,提高训练稳定性和收敛速度。

DQN算法每次迭代选择动作时采用ε-贪婪策略,以ε概率探索随机动作,1−ε概率利用当前最佳动作。将式(8)右边记作yk,引入模型参数θk,可得

式中:E[⋅]表示求期望;

在DQN训练时,每一次迭代都会通过更新θk来优化新模型,进而使得在输入(st,at)时能够不断逼近yk值,得出误差函数L(θk+1),其定义为

式中:θk+1为第k+1次迭代时的模型参数。

通过梯度下降算法优化参数θk,其梯度更新为

式中:为求梯度。

2.2  二次频率控制器结构设计

结合下垂控制二次调频原理,提出一种基于DQN的孤岛微电网二次频率控制器,原理如图6所示。

图6  基于DQN的孤岛微电网二次频率控制器原理

Fig.6  Principle of secondary frequency controller for islanded microgrid based on DQN

图6中DQN控制器直接作用于各DG的下垂控制部分,通过各DG提供功率补偿消除频率偏差以实现二次调频。DQN控制器结构如图7所示,该控制器由数据处理层和功率补偿层2部分组成。数据处理层各DG根据输入的频率偏差

图7  DQN控制器结构

Fig.7  DQN controller structure

2.2.1  状态空间与动作空间

结合图7,微电网二次频率控制器的状态集为实时频率偏差。定义状态空间S

式中:fn为第n个智能体的频率偏差。

根据国家标准规定,电力系统稳定运行的频率偏差应在±0.2 Hz范围内。结合式(5),在考虑一定频率调节死区的同时,DQN控制器的输出动作变量是P1,P2, ···,Pn。设计了包含17个动作的离散动作空间,即

式中:动作空间元素a1~a17为1组比例系数,表示有功功率补偿量占额定功率的比例。有功功率补偿表达式为

2.2.2  奖励函数

奖励函数能够将二次频率控制问题转化为奖励最大化问题。智能体获得奖励值并判断选择的动作是否合适,通过多次迭代选出最优动作。为了实现系统频率的精确控制及各DG之间功率分配等目标,设计2种奖励函数。

1)频率控制。依据微电网频率稳定运行约束,设计频率偏差奖励函数R

式中:|f|为频率偏差,当|f|处于[0,0.01]时,频率满足正常运行偏差要求,此时智能体获得最大奖励值10;当|f|分别处于(0.01,0.1]、(0.1,0.3]、(0.3,0.5]和(0.5,+)时,控制器将会获得相应的负奖励,即惩罚值;λ1λ2λ3λ4为各控制区域对应的奖励函数权值。奖励函数设置不合理会影响离线学习的收敛效果,参考文献[21]中奖励函数的取值,并结合本文中控制器特性,设置5组权值参数来测试收敛效果,结果如表1所示。

表1  设置不同权值参数下的收敛效果

Table 1  Convergence performance under different parameter settings

根据表1中所得离线学习收敛效果可得,当

2)功率分配。由式(15)可知,各DG每次得到的有功补偿与自身额定功率成比例,其中比例系数是智能体每次迭代后输出的最优动作。为了使各DG按额定容量比例分配,当系统发生功率扰动时,需要使各DG选择的动作一致,设计动作偏差奖励函数R

式中:i为第i个智能体,i=1,2,⋯,Nψ为动作偏差,当ψ属于(0,+]时,表明各DG选择动作存在偏差,控制器将获得惩罚值;当

智能体在每次训练迭代后得到的奖励函数为

2.2.3  神经网络

强化学习利用神经网络强大的拟合能力,能够有效解决高维问题。神经网络类型有很多种,不同网络类型适用于不同维度的状态空间,其中卷积神经网络多用于二维状态空间,常用于处理图片等信息;全连接网络能够灵活有效地处理各种一维状态空间问题,降低模型的复杂性。本文控制对象是频率偏差且是一维向量,将多个DG的频率偏差输入到神经网络中,采用全连接多层感知机来构建智能体结构,如图8所示。

图8  神经网络结构

Fig.8  Neural network structure

图8中,输入层接收DG的

表2  不同神经网络结构下的收敛效果

Table 2  Convergence performance under different neural network structures

根据表2中控制器在不同神经网络结构下训练得到的最终奖励值可得,当

2.2.4  超参数

DQN在训练之前应选取合适的超参数,可以提高智能体的学习性能和效果。学习率α控制神经网络参数更新速度,影响模型收敛速度和稳定性。折扣因子γ能够调节当前奖励和未来奖励之间的相对重要性,较低的γ更强调即时性奖励,但过小会导致局部最优。探索率ε描述了智能体在探索与利用之间的平衡,通常随着时间逐渐减少。在经验回放策略中,回放缓冲区大小表示存储先前训练所得经验的经验池大小,其中每条经验包含一个当前状态、动作、奖励和下一时刻状态;批次大小表示从回放缓冲区中提取并用于更新模型的经验样本数量。

综合考虑超参数对训练结果的影响,选取学习率α=0.001、折扣因子γ=0.09、探索率ε=0.9,回放缓冲区大小为2000,批次大小为32。

03

算例分析

3.1  微电网模型

通过Matlab/Simulink平台搭建孤岛微电网模型并展开仿真分析。微电网拓扑结构如图9所示,主要由交流母线、3台DG、PMU测量单元和负荷组成。其中,系统频率由PMU测量单元测得,每台DG都通过电压源逆变器、LC滤波器接入微电网。

图9  孤岛微电网拓扑

Fig.9  Islanded microgrid topology

光伏具有间歇性和波动性,其受太阳辐照度等环境因素影响导致输出功率不稳定,影响微电网的稳定运行。光伏发电采用最大功率点跟踪技术提高其发电效率,通过Boost电路连接至逆变器接入微电网,其拓扑结构如图10所示。图10中

图10  光伏拓扑结构

Fig.10  Control strategy of photovoltaic power supply

构建的孤岛微电网二次频率控制模型中,各逆变器控制策略均采用下垂控制,微电网主要参数如表3所示。

表3  微电网系统参数

Table 3  Microgrid system parameters

3.2  离线学习

本文所提出的DQN方法在Pycharm平台基于Pytorch框架编程实现,硬件平台设置如下。CPU为Intel Core i5-12500H 2.50 GHz,内存RAM 为16 GB,GPU为Nvidia GeFore RTX 3050 Laptop GPU。

由于DQN二次频率控制器在训练初期需要探索环境,还不具备完整的控制能力,如果直接将其嵌入微电网中,可能会因为控制器探索环境边缘时输出较大瞬时值导致微电网失去稳定,因此需要先进行离线学习。微电网的频率偏差是全局变量,设置所有DG的初始频率偏差为0.3 Hz,采用2.2.4节中选取的超参数。设置轮训练,每轮训练的最大迭代次数为20次,即如果一轮训练超过20次迭代,将被认为是低质量训练并会被强制中断进入下一轮训练。各DQN离线学习迭代次数的收敛情况和所获奖励值情况如图11所示。

图11  DQN离线学习情况

Fig.11  Cumulative reward graph for DQN training

由图11 a)可知,离线学习过程在2000轮之后低质量训练逐渐减少,并且随着训练的进行,最终各DG均能稳定在6次迭代完成训练并实现收敛。由于训练开始阶段回放缓冲区需要累积经验,神经网络的参数不会更新。结合图11 b)可知,随着训练进行,回放缓冲区的经验质量逐步提高,神经网络参数不断更新,各DG奖励值最终稳定在。

图11表明,各智能体在经过离线学习后能够保证频率偏差小于0.01 Hz,且每次选择动作一致,实现各DG按自身容量比例进行有功补偿;同时说明了所选取超参数的合理和有效性。

3.3  仿真分析

为了测试DQN控制器在二次频率恢复中的性能,将其与传统PID控制和基于Q学习算法控制器进行对比。其中PID控制器参数分别为: k=50、k=1000、k=0.0001,Q学习控制器采用与DQN相同的训练参数进行离线学习训练生成。在Matlab/Simulink中搭建如图9所示的微电网仿真模型,分析3种控制器在不同场景下的控制性能。

3.3.1  场景1:负荷投退和线路阻抗变化

为了验证控制器在负荷发生阶跃扰动和线路阻抗变化时的稳定性,设孤岛微电网初始运行在额定负荷,设置2种工况。工况1:在t=1 s时增加15 kW负荷,在t=6 s时在公共耦合点与负荷之间增加等效线路阻抗0.1+j1.57;工况2:在t=1 s时切除8 kW负荷,在t=4 s时将频率控制器加入微电网。各DG频率偏差变化如图12所示。

图12  负荷投切及线路阻抗变化工况下各DG频率偏差

Fig.12  Frequency deviations of each DG under load switching and increased line impedance conditions

由图12可知,1)在4 s之前未加控制器时,在发生有功负荷变化后,2种工况下系统稳态频率偏差分别为0.25 Hz和–0.12 Hz;2)工况1加入控制器后,在传统PID控制下出现了较大的频率偏差,且恢复时间长,采用Q学习控制器时,DG2的最大瞬时频率偏差为–0.09 Hz,而采用DQN控制器时,各DG频率偏差能够迅速恢复至±0.01 Hz内,当系统增加线路阻抗后,在传统PID控制器和Q学习控制器下的最大频率偏差分别为–0.082 Hz和–0.035 Hz,而在DQN控制器下,频率偏差仍能够稳定在±0.01 Hz以内;3)工况2加入控制器后,在传统PID控制下,最大瞬时频率偏差为1.85 Hz,在Q学习算法作用下,DG2的最大瞬时频率偏差达到0.05 Hz,而在DQN算法作用下,DG2的最大瞬时频率偏差为0.015 Hz。结果表明DQN频率控制器在负荷投切和线路阻抗变化时具有优越性能,稳定性优于传统PID控制和Q学习控制。

3.3.2  场景2:随机负荷扰动

设微电网在1 s后发生如图13 a)所示随机有功负荷扰动,3种控制器性能对比如图13 c)-f)所示。

图13  随机负荷扰动时3种控制器性能对比

Fig.13  Performance omparison of three controllers under random load disturbance

由图13 b)可知,发生随机扰动过程中,系统出现较大频率偏差,最大偏差为0.35 Hz。由图13 c)可知,在传统PID控制和Q学习算法控制下,微电网最大频率偏差分别为±0.03 Hz和0.017 Hz,而采用所提控制器时,系统频率偏差始终在±0.01 Hz以内,控制效果要明显优于传统PID控制和Q学习控制器,有利于实现恒频控制。

由图13 d)-f)可知,在Q学习控制下各DG未考虑与其他DG之间的动作一致性导致无法按照自身容量进行功率分配,而在传统PID控制和DQN控制器下,系统能够在控制系统频率的同时,保持下垂控制对各DG原有的功率分配方式。综合实验结果表明,在面对系统随机负荷扰动时,DQN具有较强的鲁棒性,能够抑制系统频率发生偏移并保持功率分配。

3.3.3  场景3:DG退出运行

微电网中当DG因故障退出运行时,系统的调频能力会下降,进而影响微电网安全运行。假设t=1.5 s时,DG2退出运行,各DG频率偏差及功率输出变化如图14所示。

图14  DG2退出运行时3种控制器性能对比

Fig.14  Performance comparison of three controllers when DG2 disconnects from the power grid

对比图14各子图可知,在DG2退出运行后,1)在传统PID控制下,DG1和DG3的频率偏差均为0.21 Hz,无法实现二次频率控制;2)在基于Q学习算法控制器的微电网中DG1最大瞬时频率偏差为0.015 Hz,DG1和DG3虽然分担了功率缺额,但未实现按容量进行功率分配;3)采用DQN控制器时,当DG2退出运行后,DG1和DG3的频率偏差能够保持在±0.01 Hz内,2台DG在分担功率缺额的同时很好地实现了功率分配。结果表明DQN控制器能够更好地适应微电网因电源退出造成的频率偏差和功率缺额问题。

3.3.4  场景4:源荷复合扰动

为探究DQN控制器在复杂扰动场景下的表现性能,设DG1为如图10所示光伏发电系统,将其作为微电网的随机扰动源并加入负荷阶跃扰动形成复合扰动。微电网在

图15  复合扰动下加入控制器前后性能对比

Fig.15  Performance comparison before and after adding controller under compound disturbances

由图15 b)可知,未加入控制器时,随着辐照度变化系统频率开始偏离额定值并在t=1 s时开始出现频率波动,在t=4.5 s时达到最大频率偏差3 Hz。由图15 c)可知,微电网发生复合扰动后,频率偏差最大的仍然是传统PID控制,最大频率偏差为0.032 Hz,且恢复至频率额定值较慢;在Q学习控制下的频率偏差虽比传统PID控制效果好,最大频率偏差为0.019 Hz,出现这种情况的原因可能是在进行频率控制时,每个智能体在选择动作时仅考虑自身,动作选择不一致造成了频率偏差。DQN控制器加入微电网时,系统频率始终维持在额定频率附近,最大频率偏差为0.007 Hz。结果表明DQN控制器在面对复合扰动时具有出色的性能,能够保持微电网频率稳定。

04

结论

针对采用下垂控制的孤岛微电网在发生扰动后出现的静态频率偏差问题,提出了基于深度强化学习的孤岛微电网二次频率控制策略,在多场景下验证了所提频率控制策略的有效性,主要结论如下。

1)结合下垂控制、二次频率控制原理和DQN算法设计了深度强化学习二次频率控制器结构,依次完成状态空间、动作空间、神经网络、奖励函数的设计以及超参数的选取,其中奖励函数设计兼顾了频率恢复和各DG功率分配的目标。

2)离线学习表明,DQN控制器能够经6次迭代将频率偏差快速收敛至±0.01 Hz以内,同时累计奖励也能够快速收敛。在线应用仿真表明,当发生线路阻抗变化和随机负荷扰动等系统扰动后,与传统PID控制和Q学习相比,DQN控制器能自适应地对频率进行精准控制,同时考虑了各DG的动作一致性实现按自身容量进行功率分配,消除频率偏差,实现二次频率快速恢复。

3)在光伏输出功率大幅波动和负荷阶跃扰动组成复合扰动以及DG因故障退出运行造成系统频率易失稳等情况下,在DQN控制器作用下,其余DG能够协调配合,保持系统稳定运行。综合各种场景仿真结果,所提控制器具有良好的鲁棒性和适用性,提高了孤岛微电网运行灵活性和稳定性。

注:本文内容呈现略有调整,如需要请查看原文。

原标题:长沙理工大学 王力等|基于深度强化学习的孤岛微电网二次频率控制
投稿与新闻线索:陈女士 微信/手机:13693626116 邮箱:chenchen#bjxmail.com(请将#改成@)

特别声明:北极星转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明北极星*网的内容为北极星原创,转载需获授权。

智能电网查看更多>微电网查看更多>孤岛微电网查看更多>