北极星

搜索历史清空

  • 水处理
您的位置:电力火电电力市场化交易评论正文

基于多智能体深度确定策略梯度算法的火力发电商竞价策略

2024-12-26 10:11来源:中国电力作者:中国电力关键词:电力市场火力发电电价收藏点赞

投稿

我要投稿

随着中国新型电力系统建设和电力市场进程的不断推进,火力发电商面临的市场压力与日俱增。在未来较长时期,火电作为电力系统压舱石的地位不会改变。

《中国电力》2024年第11期刊发了张兴平等撰写的《基于多智能体深度确定策略梯度算法的火力发电商竞价策略》一文。文章提出基于MADDPG的火力发电商竞价策略模型,在不完全信息环境下与发电商竞价策略相结合,优化发电商在多维连续动作以及状态空间下的报价报量策略,研究市场效益最大化目标下各类型机组的最优决策,明确不同火电机组的市场定位;比较不同出清机制下的市场出清结果,分析不同出清机制的适用性,并探讨新能源渗透率对各种不同出清机制的影响。

(来源:《中国电力》作者:张兴平, 王腾, 张馨月,张浩楠)

摘要

火电是新型电力系统的重要支撑,研究火力发电商的竞价策略以及不同出清机制的影响,对保障其低碳高效运营具有重要意义。构建基于多智能体深度确定策略梯度算法的竞价策略模型,分析不同火力发电商组合的竞价差异化策略,优化多主体报价报量策略,探究边际统一出清、按报价支付出清和随机匹配出清3种典型出清机制的市场影响。结果表明,该策略模型可引导火力发电商采取合理的竞价方式以提高市场效率;在新能源渗透率较低时,不同出清机制对各类型机组的影响有所不同;随着新能源渗透率的提高,采用按报价支付出清机制可以兼顾经济和环境效益;当新能源渗透率达到较高水平时,采用随机匹配出清机制可有效应对市场波动风险。

01月度集中电力市场出清机制理论

1.1  集中撮合交易基本原理

中国月度集中电力市场采用集中撮合交易的方式,交易组织者将发电商申报电量按各申报价格从低到高排序形成供给曲线,将购电商按各申报价格从高到低排序形成需求曲线,并依照排序依次撮合购售双方成交,如图1所示。若匹配的需求方与供给方申报的电量相同,则直接形成交易对;若匹配的需求方与供给方申报成交的电量不同,则进行交易,未完成的交易与下一个交易对进行匹配,形成新的交易,直至全部申报购电量或售电量为零,或购售双方申报价差为负为止。而基于集中撮合交易方式下的出清机制各不相同,不同的出清机制会影响市场的出清结果。

图1  月度集中市场撮合竞价过程

Fig.1  Matching bidding process in the monthly centralized market

1.2  电力市场出清机制

1.2.1  边际统一出清机制

边际统一出清机制是在集中撮合交易原理下,以最后一笔交易双方申报电价的平均值作为市场撮合交易统一出清价格。边际统一出清机制在中国电力现货试点市场以及中长期市场使用范围最广,如广东就采用边际出清方式形成价格。

1.2.2  按报价支付出清机制

按报价支付出清机制是在集中撮合交易原理下,采用每个成交交易对的申报价格平均值作为双方出清价格。有部分地区采用按比例对需求双方的电价进行分配,比如山西和河南采用按报价支付出清机制形成价格。湖南、江苏和陕西既采用边际出清方式,也采用交易对均价出清方式。

发电商i与购电商j的单笔成交价格为

式中:pij为成交价格;为发电商报价;为购电商报价。

当发电商ik个购电商成交时,交易均价pi

式中:为发电商i和购电商j在月度集中市场成交的电量。

1.2.3  随机匹配出清机制

随机匹配出清是在按报价支付出清规则基础上提出的,发电商按照申报价格由低到高进行排序,依次随机选择申报价格高于自身报价的任意购电商进行交易,若匹配完成后进行下一次竞价匹配,直至全部申报购电量或售电量为零,或购售双方申报价差为负。随机匹配出清机制下,造成发电商利润低的原因除了双方成交价格低外,还可能是随机匹配时选取了一个出价较低的购电商,对发电商的竞价行为有一定程度的影响。

本文考虑将随机匹配出清机制结合多智能体深度确定性策略梯度算法,随机匹配机制下发电商会随机选择高于自身报价的任意购电商,在多智能体深度确定性策略梯度算法下,每一轮迭代中各智能体会根据上一次迭代求得的利润重新调整策略。随机匹配出清机制不仅可以减少电力市场中主体串谋的概率,而且可以增加市场的交易量,但增加交易电量的同时可能会导致碳排放量增加,且随机匹配存在一定的不稳定性,因此对该机制的利弊有必要进一步探讨。

02基于多智能体的火力发电商竞价策略模型

月度集中竞价市场的参与主体主要包括发电商和购电商,在电力市场中的竞价交易属于不完全信息动态博弈问题,市场参与者在不同出清机制下寻求自身利益最大化的策略,进而通过相互作用形成市场整体的交易结果。市场成员参与市场的目的和行为相对独立,在基于多智能体的电力市场框架中,发电商被设计成独立的且能够实现交互作用的智能体,市场出清信息反馈至各个智能体,通过不断迭代积累经验,得到均衡状态下的各发电商竞价行为。基于MADDPG的发电商竞价框架模型如图2所示。

图2  基于多智能体深度确定性策略梯度算法下的发电商竞价模型框架

Fig.2  Bidding model framework for power generation companies based on MADDPG

2.1  火力发电商竞价模型

2.1.1  目标函数

发电商以自身收益最大化为目标参与竞价,主要通过出售电量的方式获取收入,目标函数为

式中:Ri为发电商i在当月集中竞价中的收入;pij为发电商i与购电商j的出清电价;为发电商i在集中竞价中申报的电量;Ci为发电商i的总燃煤成本;C为碳排放成本;为发电商i和购电商j在月度集中市场成交的电量;为购电商j在集中竞价中申报的电量。

2.1.2  火力发电商运行成本

燃煤机组的供电煤耗率u可表示为

式中:P为机组的出力;abc分别为机组的特性系数,与机组的类型、燃烧品质等因素有关。

发电商的机组报价依据以边际成本为主,燃煤机组的边际成本可表示为

式中:S为煤价;C为燃煤机组的总燃煤成本;C为燃煤机组的边际成本,通过计算各发电商在本月的平均负荷率来计算燃煤机组的边际成本。

2.1.3  碳市场交易成本

目前中国碳排放额分配主要通过免费分配的方式进行,发电商根据碳排放实际情况考虑买入或是卖出碳排放权。初始碳排放权的分配为

式中:为企业i获取的初始碳排放额;B为单位产量的碳配额基准值;qi为发电商i在集中竞价市场交易的总电量,即实际发电量;为发电商i负荷系数修正系数;为发电商i的总碳排放量;为发电商i的碳排放因子,通过各类型机组的典型发电碳排放因子和发电量估算得到;w为碳价。C>0表明发电商为卖方可出售配额;

2.2  马尔可夫博弈模型设计

多智能体强化学习(multi-agent reinforcement learning,MARL)主要研究在复杂环境中训练多智能体通过协作或竞争达到目标,每个智能体在选择动作的同时会观察其他智能体的信息,MADDPG可以有效模拟发电商在不完全信息市场下的竞价策略。发电商的竞价策略可以模拟为马尔可夫博弈过程,设置对应的环境、状态空间、动作空间以及奖励。

1)环境:将不同出清机制下的电力月度集中竞价市场作为多智能体的外部环境,设置智能体发电商,在环境中各火力发电商不了解对方的申报价格以及申报电量,是一个不完全信息的环境,通过竞价策略来获得更高的利益。而MADDPG中引入智能体协作的功能,各智能体发电商会根据其他智能体的行为来追求奖励最大化。

2)状态空间:采用发电商上一次的申报电量、申报电价以及成交电量在月度市场总需求中的占比作为状态空间s,如式(13)所示,状态变量能够帮助发电商制定更优的竞价策略。

式中:为发电商i上一次的申报电价;为发电商i申报电价的最大值;为发电商i上一次的申报电量;为发电商i申报电量的最大值;为市场总需求量。

3)动作空间:将动作值设定为一个二元组,根据月度集中竞价市场中发电商报量报价的方式设计动作空间,在月度集中竞价电力市场中发电商的申报电量以及申报电价都将影响发电商的收益。α为发电商的策略报价系数,β为发电商的策略报量系数。智能体发电商采用αC的报价方式,以及的报量方式,αβ的取值范围可根据实际竞价规则进行修改。

4)奖励:发电商通过计算式(3)得到各自的收益作为奖励函数,通过多智能体之间的协作寻求市场整体效率最大化。

2.3  多智能体深度确定性策略梯度算法

MADDPG在Actor-Critic框架下处理多智能体问题,每一个智能体都有不同的学习能力、学习速度以及社交网络。每一个智能体都有一个独立的Actor网络用于学习策略,有一个Critic网络用于估计动作的值函数。Critic网络的输入包含智能体的状态以及动作等信息,在Critic网络中每一个智能体在计算梯度的同时会考虑其他智能体的策略,能够更好地实现协同与竞争,适用于电力市场中复杂的市场环境。

MADDPG采用深度确定性策略,策略梯度可以表示为

式中:表示集中的动作值函数,包括所有智能体的动作

神经网络进行Q值计算时很容易出现不稳定的情况,从而影响下一次的更新迭代。为降低算法的波动性,MADDPG中复制了Actor网络以及Critic网络的神经网络,形成当前网络以及目标网络,有利于智能体更有效学习更好的策略,通过最小化每个智能体的损失函数来优化更新参数。Critic当前网络的损失函数为

式中:L(θi)为损失函数;为Critic目标网络参数θi的策略集;ri为智能体所获得的奖励;y为目标Q值;γ为折扣系数;为目标Critic网络的值函数。

Actor目标网络以及Critic目标网络均采用软更新的方式来更新网络参数,即



式中:τ为软更新系数;分别为当前Actor网络以及目标Actor网络的参数;为当前Critic网络以及目标Critic网络的参数。

2.4  基于MADDPG的发电商竞价策略过程设计

每个独立发电商均采用智能模式报价,ISO收到所有智能体报价信息后,根据市场出清规则计算市场出清价格和各发电商的出清电量,并将市场出清信息反馈至智能体,智能体根据竞价收益和竞价经验迭代优化后续竞价策略。

具体步骤如下。

1)初始化各发电商的状态、Actor网络以及Critic网络参数;设定迭代最大次数、经验池缓冲区大小等参数。

2)计算各智能体动作值,在不同出清机制下通过市场出清得到各发电商的中标电量和电价。根据式(9)计算出每个智能体奖励值,并计算每个智能体下一个时段的状态值。

3)将计算出的动作、状态、奖励以及下一时段的状态值储存在经验池中。

4)判断经验池是否溢出。如果经验池中样本数量小于经验池容量,则重复步骤2)和3)。

5)更新当前Actor、当前Critic网络参数以及软更新目标Actor、目标Critic网络参数。

6)如果迭代次数大于最大迭代次数时,则训练结束;否则重复步骤 2)~5)。


原标题:华北电力大学 张兴平等|基于多智能体深度确定策略梯度算法的火力发电商竞价策略
投稿与新闻线索:陈女士 微信/手机:13693626116 邮箱:chenchen#bjxmail.com(请将#改成@)

特别声明:北极星转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明北极星*网的内容为北极星原创,转载需获授权。

电力市场查看更多>火力发电查看更多>电价查看更多>