本发明涉及一种电网负荷特性分析的技术领域,具体的是一种基于分类分析的客户用电行为特征分析方法。
背景技术:
负荷特性分析是智能电网研究的基础,传统的电力系统用电特性分析方法主要有两类:一是按影响因素分析,即在其余变量保持不变的前提下逐个提取因变量,定性或者定量描述其对自变量的影响程度,但对象都是区域电网,远远不及电力供应侧的研究精度和深度,无法适应推行智能需求侧管理的需要;二是按行业分类分析,即先对各行业或者细化到某类型用户的用电特性进行分析,定性或者定量得到各类型用户对区域电网用电特性的影响。但是其精确度不高,并且很难根据分析结果进行负荷预测。
总体而言现有负荷特性分析技术数据利用率低,分析结果粗糙,精度不高,且无法深入到用户层面,不利于需求响应策略制定的精细化。大数据技术的迅速发展给也负荷分析工作带来了更多的机遇和挑战。研究大数据环境下,负荷特性分析的新思路、新方法具有重要意义。
技术实现要素:
本发明所要解决的技术问题是建立一种基于分类分析的客户用电行为特征分析方法,定义新型负荷特性指标,运用主成分分析法提取主要的用电行为影响因素,再利用决策树分类法对用电行为根据不同特征进行分类。
本发明的技术方案:
一种基于分类分析的客户用电行为特征分析方法,包括以下步骤:
步骤一:建立电力用户在各种用电模式下的各项用户负荷特性指标;
步骤二:分析用电行为模式的影响因素,然后利用主成分分析法提取出p个用户用电行为模式的主要影响因素;
步骤三:基于决策树分类方法的客户用电行为分析。
优选的,步骤一所述的用户负荷特性指标包括传统负荷特性指标、负荷重要性等级指标、柔性用电特性指标和负荷短期的需求响应指标。
优选的,所述负荷重要性等级指标包括四级,分别为i级指标:安全保障负荷;ii级指标:主要生产性负荷;iii级指标:辅助生产负荷;iv级指标:非生产性负荷。
优选的,所述柔性用电特性指标在用电特性分析的基础上,建立负荷分解模型来计算负荷中的刚性负荷和柔性负荷:
l=lbasic+lweather
优选的,负荷短期的需求响应指标包括负荷可调能力、负荷价格弹性、需求响应速度指标爬坡速率和需求响应容量指标。
优选的,步骤二影响客户用电行为的内外部因素用户因素、系统因素、环境因素和政策因素。
优选的,步骤二提取用户用电行为模式的主要影响因素的方法包括以下步骤:
1)取m个观测日,n个待分析用电行为影响因素的观测样本矩阵为:
其中元素xij的含义是第i个观测日在第j个待分析影响因素上的观测值,对各变量做标准化变换,变换公式为:
式中,x’ij为第i个观测日在第j个待分析影响因素上的经标准化变换后的观测值;为m个观测日在第j个待分析影响因素上的平均值;
式中,x’ig为第i个观测日在第g个待分析影响因素上经标准化变换后的观测值;
式中,αj为第j个待分析影响因素的方差贡献率,j=1,2,……,n;
4)取方差贡献率较大的前p个待分析因素作为主成分,即提取出p个用户用电行为模式的主要影响因素,也即用户用电行为模式的特征量,且满足:
优选的,步骤三中为了从决策树提取规则,对从根到树叶节点的每条路径创建一个规则,沿着给定路径上的每个分裂准则的逻辑and形成规则的前件,存放类预测的树叶节点形成规则的后件;
所提取的每个规则之间蕴含着逻辑or,由于这些规则是直接从树中提取的,因此他们是互斥的、穷举的;对于给定的规则前件,不能提高规则的估计准确率的任何条件都可以剪掉,从而泛化该规则。
优选的,步骤三中使用顺序覆盖算法的规则归纳;使用顺序覆盖算法直接从训练数据中提取if-then规则,不必产生决策树,算法的名字源于规则被顺序地学习一次一个,其中给定类的每个规则理想地覆盖该类的许多元祖;顺序覆盖算法算法包括aq、cn2和ripper。
本发明的有益效果:
本发明方法深度利用电力用户负荷数据蕴含的信息,可以对用户的用电行为进行准确的分析,有助于电网对负荷进行准确预测,分析结果精细,准确度高,能深入到用户层面,有利于需求响应策略制定的精细化,提高能源利用效率,进一步提高电网稳定性,为电网提供更好的服务。
附图说明
图1为本发明方法的原理框图。
图2为本发明的用户用电行为影响因素图。
具体实施方式
如图1-2所示,本发明提供一种基于分类分析的客户用电行为特征分析方法,具体实施步骤如下:
步骤一:建立电力用户在各种用电模式下的各项用户负荷特性指标:
1.传统负荷特性指标:日负荷率、日最大/小负荷、日平均负荷、日峰谷差等。
日负荷率用于描述日负荷曲线特性,表征一天中负荷的不均衡性,较高的负荷率有利于电力系统的经济运行,定义式如下:
日负荷率的数值大小,与用户的性质和类别、组成、生产班次及系统内的各类用电(生活用电、动力用电、工艺用电)所占的比重有关,还与调整负荷的措施有关。随着电力系统的发展,用户构成,用电方式及工艺特点可能发生变化,各类用户所占的比重也可能发生变化,日负荷率也会随之发生变化。
2.负荷重要性等级
电力用户的用电设备种类众多,其重要性各不相同,根据用电设备停电或缺电所引起的损失程度,可将电力用户的负荷重要性分为四个等级,如表1所示:
表1负荷重要性等级
不同的行业有其不同的用电特性和负荷构成特性,根据表1的重要性等级的定义可对不同行业的用电设备进行分类,并在非生产性负荷和辅助生产性负荷中选取具有可调能力的需求响应资源,通过行业调研获取这部分负荷的比重或容量,在此基础上总结可作为需求响应资源的具有代表性的终端用电设备,并针对具体设备开展后续的研究。
表2商业用户设备分类及重要性等级
3.柔性用电特性指标
以往负荷常被视作被动受控的物理终端,用电特性指标用固定值表示。随着智能电网的建设和需求侧管理的实施,原本被视作刚性的负荷逐步呈现出一定的弹性,用户的用电设备中有许多可削减或可转移的负荷,如表3所示:
表3可中断的用电设备举例
因此,定义指标“刚性负荷与柔性负荷的比例”,可以评估电力用户柔性负荷的水平,是评价负荷需求响应能力和节能潜力的基础。
l=lbasic+lweather(3)
1)基础负荷分离
式中:a1,b1为指数项系数;cj,dj,ej为年周期项系数;fk,gk,hk为周期项系数;ω1=2π/365,ω2=2π/7。
2)气象敏感性负荷分离
lweather=l-lbasic(5)
4.负荷短期的需求响应指标
为了便于分析负荷侧资源应用于负荷调度中的资源潜力大小,在分析传统用电特性指标的基础上需要建立负荷可调能力、负荷价格弹性、需求侧响应潜力等新型的用电特性指标。
(1)负荷可调能力
负荷侧资源大多具有负荷可调能力,但是其价值并不相同。有些用户的弹性太小,不适合参与负荷调度;有些用户提供负荷侧资源的成本太高,不能获得预期的效益。所以建立负荷可调能力指标,有利于挖掘适于调度的负荷侧资源。
负荷可调能力是指用户负荷在未参与任何负荷调度项目基础上可以调整的比率,主要从两个个方面考虑:
技术上可调:负荷的直接或间接控制是否可以通过智能电网技术实现;
经济上可调:负荷调整所获得补贴是否可以弥补损失,一些工业负荷生产过程有严格的工序限制,若转移对企业的影响很大,负荷调度在经济上不可行。
(2)负荷价格弹性
电力终端负荷具有一定的弹性,价格变化会引起负荷变化,因此,在不同的电价措施激励下,不同类型的电力用户负荷具有不同的转移或削减的比率,可以用负荷价格弹性来表示,即
其中x为价格变量。
用户的电力需求与价格存在一定的关系,但是各类用户的需求随电价变化的趋势与幅度不同;负荷价格弹性是指电价的相对变动所引起的用电量的相对变动,可以用来衡量不同的用电设备对于价格的敏感程度,负荷价格弹性越高的用电设备对价格的变动越敏感,更适于利用基于价格的需求响应策略来控制这类负荷。
(3)需求响应速度指标——爬坡速率
用电设备占比很大的情况下,可以通过研究各种用电设备的内在特性获得需求响应速度指标;另外,还可以根据历史数据,通过模型辨识获得需求响应速度指标。
(4)需求响应容量指标
用电设备功率的削减程度与激励大小成正比关系,因此需求响应容量指标与激励大小成正比关系;
用电设备参与需求响应项目的效果还与智能控制设备的安装程度有关,如带有负控功能的智能电表、高级量测体系等,这是确保用电设备能够远程控制的技术条件,影响需求响应容量指标的大小。
步骤二:分析用电行为模式的影响因素,然后利用主成分分析法提取出p个用户用电行为模式的主要影响因素
1.用户用电模式影响因素研究
影响客户用电行为的内外部因素很多,大体上有用户、系统、环境、政策四类,每类影响因素下可进一步细化,可呈现三层架构,具体如图2所示。
(1)内部因素
1)用户因素
a)建筑围护结构主要是指该建筑保温隔热能力,具体表现在当响应策略执行时,室内温湿度升高/降低的速率。一般来说,围护结构越好,室内外交换热量越少,对用户响应意愿的影响度越小。
b)用户响应意愿可理解为两个方面,一是用户是否愿意参与响应;二是用户感觉舒适的室内温度上下限。
2)系统因素
a)系统类型(包括系统装机容量):因系统运行原理的较为多样化,这里重点提及冰/水蓄冷空调,利用夜间低谷负荷电力制冰储存在蓄冰/水装置中,白天将所储存冷量释放出来,减少电网高峰时段空调用电负荷及空调系统装机容量。
b)系统人员管理水平是指系统人员在节能、需求响应方面的意识水平及优化空调系统运行的能力。
3)系统自动化水平主要衡量空调系统的自动化能力,包括是否能量管理系统、控制设备、精细化量测装置等。一般来说,自动化水平越高,用户响应越简便,可对响应意愿造成积极影响,且响应可靠性和速度越高。
4)系统工况水平是指系统运行状态、运行效率、运行年限等基本状态。一般运行年限较长的空调用能更高。
(2)外部因素
1)环境因素
a)温湿度是指外界环境的温度与湿度。在同样的舒适度下,当外界温度较高时,空调系统出力较大。
b)人群量是指建筑内的人群数量,具有一定规律性,如对于办公楼宇来说,周一-周五办公人员较多,而周末人数较少;商场则相反,在周末人群数量达到高峰。但整体说来,人群量也具有较强随机性。
2)政策因素
a)激励政策主要是指当实施需求响应时政府、电力公司等机构给予的激励费用,如河北省规定对尖峰期自愿中断负荷的企业,每1万千瓦累计中断1h补贴1万元,相当于1千瓦时电量补偿1元。
b)电价政策主要是指政府出台的促使用户削峰填谷的电价方案,如尖峰电价可带来高峰负荷的迅速削减,分时电价可引导用户将不必要的用电转移到低谷时段,从而达到削峰填谷的效果。
c)节能政策是为提高能源利用率、控制能源消耗和减少污染物排放而制定的一系列政策,如合同能源管理,通过减少的能源费用来支付节能项目全部成本的节能业务方式。
影响柔性负荷响应的因素呈现多样化特点,有些可量化,而有些只能定性分析,但这些因素或多或少都会对需求响应的实施造成影响,具体可体现在响应特性上。
2.提取用户用电行为模式的主要影响因素
(1)取m个观测日,n个待分析用电行为影响因素的观测样本矩阵为:
步骤三:基于决策树分类方法的客户用电行为分析
(1)从决策树提取规则
决策树分类法是一种流行的分类方法,并且以准确著称。利用决策树可以提取if-then规则,建立基于规则的分类器,if-then规则更容易理解,特别是当决策树非常大时更是如此。
为了从决策树提取规则,对从根到树叶节点的每条路径创建一个规则,沿着给定路径上的每个分裂准则的逻辑and形成规则的前件(if部分),存放类预测的树叶节点形成规则的后件(then部分)。
所提取的每个规则之间蕴含着逻辑or,由于这些规则是直接从树中提取的,因此他们是互斥的、穷举的。互斥意味着不可能存在规则冲突,因为没有两个规则被相同的元祖触发。穷举意味着对于每种属性-值组合存在一个规则,使得该规则集不需要默认规则。
对于给定的规则前件,不能提高规则的估计准确率的任何条件都可以剪掉,从而泛化该规则。
(2)使用顺序覆盖算法的规则归纳
使用顺序覆盖算法可以直接从训练数据中提取if-then规则,不必产生决策树。算法的名字源于规则被顺序地学习(一次一个),其中给定类的每个规则理想地覆盖该类的许多元祖(并且希望不覆盖其他类的元祖)。顺序覆盖算法是最广泛使用的挖掘分类规则析取集的方法。有许多顺序覆盖算法,流行的算法包括aq、cn2和最近提出的ripper。
算法的策略如下:一次学习一个规则,每当学习一个规则,就删除该规则覆盖的元祖,并对剩下的元祖重复该过程,这种规则的顺序学习与决策树归纳形成了对照。由于决策树中每条到树叶的路径对应着一个规则,因此,可以把决策树归纳看作同时学习一组规则。
顺序覆盖算法一次为一个类学习规则,理想地,在为c类学习规则时,希望覆盖c类的所有(或许多)训练元祖,并且没有(或很少)覆盖其他类的元祖。这样,学习的规则具有高准确率。规则时不必高覆盖率的,这是因为一个类可以有多个规则,使得不同的规则可以覆盖同一个类中的不同元祖。
基本顺序覆盖算法:
输入:d-类标记的元祖的数据集合;att_vals-所有属性与它们的可能值的集合。
输出:if-then规则的集合。
方法:
(1)rule-set={};//学习的规则的初始集为空
(2)for每个类cdo
(3)repeat
(4)rule=learn_one_rule(d,att_vals,c);//找出当前类的最好规则
(5)从d中删除rule覆盖的元祖
(6)until终止条件满足//如不再有训练元祖或返回的规则的质量低于用户指定的阀值
(7)rule-set={rule-set,rule}
(8)end
(9)返回rule-set
上述步骤(4)采用一种贪心的深度优先策略,每当面临添加一个新的属性测试到当前规则时,它根据训练样本选择最能提高规则质量属性的测试,例如可以选择准确率作为质量度量。贪心搜索不允许回溯,在每一步,启发式地添加当时看上去最好的选择。在这一过程中,如果我们不自觉地做出一个不好的选择则结果不会理想。为了减少发生这种情况的几率,可以选择最好的k个而不是一个最好属性测试到当前规则中。这样,我们可以进行宽度为k的束搜索,在每一步维持k个最佳候选,而不是一个最佳候选。
learn_one_rule需要度量规则的质量,每当考虑一个属性测试时,它必须检查添加该测试到当前规则的条件中是否能导致一个改进的规则。这里,我们使用统计显著性校验来确定规则的效果是不是并非归因于偶然因素,而是预示了属性值与类之间的真实关系。该校验将规则覆盖的元祖的观测类的分布于规则做随机预测产生的期望类分布进行比较。我们希望评估这两个分布之间的观测差是否可能是偶然的,可以用似然率统计量
其中,m是类数,对于满足规则的元祖,fi是这些元祖中类i的观测频率,ei是规则做随机预测类i的期望频率。该统计量服从m-1的卡方分布。似然率越高,规则正确预测数与随机猜测器相比的差越显著。也就是说,规则的性能并非偶然性,似然率有助于识别具有显著覆盖率的规则。