基于多源异构数据与深度神经网络的电量预测系统*

时间:2023-11-22 15:22:03 来源:网友投稿

田启东林志贤郑炜楠于兆一杨秀瑜

(深圳供电局有限公司,广东 深圳 518000)

对特定区域进行电力负荷与电能需求预测可以帮助电网等相关部门实现合理化的电力资源调度与规划,有利于预防因电力资源调度不平衡所产生的非安全性事故的发生[1]。智能电表可以实时且高频率地收集每个住户的电力资源消耗数据,为电力相关部门提供一个便捷的电力数据采集方式。大量相关工作利用历史智能电表数据,结合基于计量经济学或深度学习模型,比如(自动)回归模型、(季节性)ARIMA 模型、AR-GARCH 模型、跳跃扩散模型、因子模型和循环神经网络等[2-4],提出一系列电力相关预测方法。但是,广泛用户互动已经成为智能电网的重要特征,这使得电力市场随着复杂的人群社会活动充满随机性、时变性、复杂性,并导致基于智能电表数据的电力资源预测值不准确、模型普适性差等问题。在现实用电场景下,天气变量、实时电费价格调整、人群流动等,都会影响着区域内电力资源消耗与需求。比如,当前局部天气变化可能会导致某区域内空调设备使用率的大幅度提升,区域电费价格调整可能导致家庭会频繁使用大功率电器设备,人群移动变化也会导致区域内的用电总量产生变化。在多源异构大数据环境下,探索特定区域内总用电力资源消耗的变化趋势与“电力-天气-人群”深度耦合因素之间的具体联系,探索并建立有效且高鲁棒性的电量需求预测系统是当务之急。

文中利用电力资源消耗、气象和人群移动这三大异构化数据集,结合对应的特征提取技术来对多源异构数据进行特征表征,最后设计分类算法来预估当前区域内下个时间段的电力资源消耗趋势。智能电表可以用来实现不同时间刻度下的电力用户实时耗电量。气象局网站可以提供特定时间、地区内的气象数据(降水量、气温、风、能见度、土壤水分等)。GPS 数据因为个人隐私问题导致电力用户不会轻易公开自己的轨迹数据,这也使得直接收集人群移动数据变得十分困难。文中采用签到信息、社交类软件应用的定位信息与蜂窝网络中的呼叫详细记录等数据来刻画人群移动和人口分布变化。针对所有采集的多源异构化数据,文中首先将多源数据集在时间维度和空间维度上进行切片,然后利用堆栈式去噪自编码器(Stack Denoise Autoencoder,SDAE)[5]实现深度耦合式特征提取。长短时记忆(Long Short Term Memory,LSTM)神经网络模型[6]被用于学习时间序列特征与电力资源消耗之间的关联模式来建立电力资源需求预测模型。实验结果证明,依托于某地区的智能电表、气象和人群移动的多源异构化数据集,所设计的基于深度神经网络结构的电量预测模型可以高精度地预测出未来时间段内特定区域的总用电量变化趋势,并比仅使用历史用电数据的传统预测模型有着更鲁棒的预测准确性。

文中收集了三种来源的异构历史数据作为训练数据集(见表1),具体介绍如下:

表1 多源异构数据

(1)电力资源消耗数据:智能电表是智能电网数据采集的基本设备之一,可以实现原始电能数据的高效采集和传输,本文以每60 min 采样一次的采样频率对某市所有电力用户智能电表数据进行采集。

(2)气象数据:本文从中国气象数据网[7]收集了某市的历史气象数据,包括气压、地面温度、相对湿度、大气密度、风速、降水量和风向等数据,同时设置采样频率为每小时记录一次。

(3)基站数据:本文收集两种数据来表征人群的移动。第一是来自社交网络软件应用的用户位置信息数据,第二是蜂窝网络运营商的用户呼叫详细记录(call detail records,CDR)[8]。其中社交网络应用都是通过移动设备中自带的GPS 模块来精准获取用户当前的地理位置信息,CDR 数据是指用户进行拨打电话、发送短信、流量数据请求的数据,接入到特定蜂窝基站时具有用户本身和目标地理位置信息。上述数据都将以小时为单位进行时间切片。

(4)标签数据:本文采用人工标注的方式,对目标区域中下一时间段总用电量变化等级进行标注。变化等级分为5 级,分别是严重增加(等级1)、轻微增加(等级2)、保持不变(等级3)、轻微下降(等级4)、严重下降(等级5)。

2.1 特征提取

在分析如何利用多源异构的历史数据进行特定区域总电量消耗预测之前,定义一个合适的数据结构是十分必要的。处理时空数据时,使用矩阵作为数据表征是第一选择。文中首先基于时空信息对数据集分别进行时间和空间的离散化。对于时间维度,考虑到所收集的所有数据都是1 h 的采样频率,所以本文将每天按小时划分成24 切片。对于空间维度,本文把某市按照经度和维度(50 km×50 km)分成一个个单元。因此,本文会对每种数据源都有一个时间索引t,地域索引r;
然后对每一个地域索引,利用T个历史时间段去预测下一个时间段内该地域的总用电量变化趋势。

2.1.1 去噪自编码器

去噪自编码器(Denoise Autoenoder,DAE)是基于自编码器的一种改进模型,因为去噪自编码器在训练样本时会主动加入噪声,可以强迫模型学习潜在的特征表示并输出没有噪声的样本。智能电表所收集的数据、基站所收集的数据无法避免地会存在噪音数据和缺失数据等情况。所以,去噪自编码器所提取的特征具有更好的鲁棒性。

具有dropout 的DAE 结构如图1 所示。DAE 以原始数据x∈Rd作为输入,然后利用随机映射的方式把原始数据转换成具有噪声的数据λ)。其中D是根据原始数据x的分布加入随机噪声的一种分布,λ为噪声分布参数。在此模型中,采用高斯噪声作为DAE 输入的噪声模型。然后将被映射成一个潜在的特征表示向量:

图1 去噪自编码器原理图

当dropout 技术被用于深度网络中去优化训练过程时,自编码器中的隐藏层神经单元将以概率q进行随机丢弃,该丢弃概率服从伯努利分布。然后编码器的特征表示y将转化成丢弃后的特征表示

式中:m为隐藏向量,·表示数量积。Dropout 技术对于大型深度神经网络的优化十分有帮助,所以在每次网络参数迭代更新中,通过随机丢弃隐藏层中的神经元可以训练出具有高鲁棒性的网络。隐藏向量m中每一个数值都代表两种选择(0 为抛弃,1 为保留),所以加入dropout 技术的网络在训练收敛时将会得到2|m|个网络的一个平均表示,大大提高了后续的分类性能。

自编码器的目标是让z与x尽可能的相似,所以本文采用欧氏距离去表示重构误差Γ(x,z)=‖x-z‖2。通过最小化重构误差,整个系统的最优化超参数将会由下式计算得到:

为了使得模型所学习到的潜在特征更具备鉴别性,本文将稀疏约束添加到隐藏表示中将是稀疏表示的,其所有元素的平均值将近似为0。所以最终公式(4)目标函数将修订成:

式中:sparse()是一种稀疏约束,在本文模型中使用KL 距离[9]来表示。

2.1.2 堆栈式去噪自编码器

去噪自编码器可以被堆叠起来,形成一个深度网络,也就是堆栈式去噪自编码器,将当前去噪自编码器的潜在特征作为下一层的输入,进一步去学习更深度的潜在特征。反向传播被广泛应用在传统神经网络的训练中,也可以结合梯度优化技术来训练深度网络。但是反向传播在堆栈式去噪自编码器的训练过程中表现很差,因为每一层都有信息丢失,导致错误无法正确地传播。本文采用一种贪婪式的分层算法[10]用于训练堆栈式去噪自编码器。该算法是一种自下而上的无监督式预训练方法,每一层都被训练成一个去噪自编码器,通过最小化重构误差公式来学习模型的超参数。一旦第k 层被训练完成,它可以继续训练第k+1 层,因此潜在特征会被下一层进行新一轮的计算。

当堆栈式去噪自编码器训练成功之后,本文利用其编码器部分对多源异构数据集进行特征提取。基于堆栈式自编码器的特征提取流程如图2 所示,具体训练步骤如下:

图2 堆栈式去噪自编码器

(1)输入原始数据,通过最小化重构误差来训练第一层的去噪自编码器,加入dropout 以防止当前训练过拟合。

(2)将上一层编码器的输出作为下一层编码器的输入,然后通过最小化重构误差来进行训练,加入dropout 以防止当前训练过拟合。

(3)迭代步骤2,直到遍历所有隐藏自编码器层。

(4)将最后一层自编码器的输出作为最终学习到的特征向量,提供给后续的监督式分类器进行预测模型的训练。

2.2 预测模型

2.2.1 长短时记忆神经网络

本文的目标是利用多源异构数据去预测未来时间段内电量变化的等级,考虑到这些异构数据的时空特性,循环神经网络(Recurrent Neural Network,RNN)架构的模型适合去捕捉时空数据上的演变过程。但是普通循环神经网络由于梯度消失和梯度爆炸的缺陷,无法获取输入序列数据的长时间依赖性。本文采用长短时记忆网络来完成对时间序列的预测任务,LSTM 可以具备跨越长/短时间的学习与记忆能力,并能够自动化地确定最优化的时间跨度进行预测。

LSTM 和RNN 一样,是一种重复神经网络模块的链式形式,具体见图3。LSTM 网络结构可以用来作为时间序列的预测模型,具体来讲就是输入序列X=(x1,…,xT),通过下述公式组迭代式地计算网络单元激活量,最终得到输出预测值y。

图3 LSTM 结构示意图

式中:i、f和o分别代表LSTM 中的输入门、遗忘门和输出门。c和m是每一个cell 和memory 模块的激活向量,权重矩阵W和偏置向量b用来建立输入层、输出层和记忆模块之间的联系。这里,⊙表示两个向量的数量积,σ(.)表示标准的logistics sigmoid函数,g(.) 和h(.)表示cell 的输入和输出激活函数,本文采用logistic sigmoid 函数。φ(.)是网络输出的激活函数,本文采用softmax 函数。

整个预测模型的示意图如图4 所示,首先选择当前区域内的多源异构数据中多个时间切片,然后将每一个切片内的数据输入到堆栈式去噪自编码器中,进行特征提取,最后输入到LSTM 网络中。本文的LSTM 网络设计为10 步,也就是利用前10 个时间切片的异构数据去预测下一个时间切片的电力资源消耗趋势。

图4 预测模型示意图

2.2.2 实验结果分析

实验收集了某区从2018 年3 月到2018 年9 月的电力资源、气象、人群移动这三个多源异构数据集,文中将利用这些时空数据对预测模型进行训练并评估其预测准确率。

本文在训练深度模型时所使用的机器配置是:Intel Xeon CPU i7-4770,GPU NVIDIA Q4000 和16G RAM。所有实验对比数据均采用上述相同机器进行计算。

2.3 特征提取模型对比

2.3.1 SDAE 深度结构参数

文中多源异构数据集中每一类数据分别进行归一化,并将归一化后的数据集输入到SDAE 模型进行无监督预训练,并进行特征提取。SDAE 网络模型参数主要包括三个部分,分别是隐藏层数量、隐藏层中单元数量和高斯噪声变量。在训练堆栈式去噪自编码器时,文中设置隐藏层参数为1~5,设置单元数量为[10,30,60,100,200],设置高斯噪声变量为[0.2,0.4,0.6,0.8]。默认参数设置分别为隐藏层数量为2,单元数量为60,高斯噪声变量参数为0.4。为了得到SDAE 最佳的深度网络结构,本文利用LSVM 作为网络结构性能的判断依据,对每个网络结构所提取的特征进行分类准确率对比。

当其中一个参数被测试时,其余参数设置为默认参数。图5~图7 展示了参数分析的结果。结果发现,对于隐藏层数量来说,使用SDAE 对多源异构数据进行特征提取,最佳的隐藏层数量是3;
对于每个隐藏层的单元数量来说,最佳数量是100;
对于高斯噪声变量,结果发现SDAE 对此参数并不敏感,最佳变量为0.4。所以在接下来的特征提取算法对比实验中,SDAE 模型参数设置为:3 层隐藏层,100 个单元数量和0.4 的高斯噪声参数。

图5 隐藏层数量对SDAE 性能的影响

图6 隐藏层中神经单元数量对SDAE 性能的影响

图7 噪声分布对SDAE 性能的影响

2.3.2 特征提取算法对比

为了对比去噪自编码器在特征提取中的表现,本文选取了四种主流的特征提取方法进行对比,分别是主成分分析(Principal Component Analysis,PCA)[11]、拉普拉斯特征映射(Laplacian Eigenmap,LE)[12]、局部线性嵌入(Locally Linear Embedding,LLE)[13]和线性判别分析(Linear Discriminant Analysis,LDA)[14]。前三种特征提取方法属于非监督式方法,LDA 属于监督式方法。PCA 和LDA 属于线性方法,LE 和LLE 属于非线性方法。本文对这四种方法所提取出的特征数量都设置为20。

当通过PCA、LE、LLE、LDA 和SDAE 进行多源异构数据集的特征提取之后,文中采用SVM 分类器(LSVM 和RSVM)对特征数据进行分类。除此之外,本文将不经过特征提取的原始数据集输入到SVM 分类器中,来分析特征提取方法的有效性。图8 分别展示了这些特征提取方法结合LSVM 和RSVM 的整体精度,可以观察出,相对于直接利用SVM 对原始数据进行分类,前面提到的四种特征提取算法(PCA、LE、LLE 和LDA)反而降低了SVM 分类器的分类准确率,这也说明这四种分类器方法无法准确进行有效的特征提取。SDAE 在所有特征提取算法中表现的最好,并相对于使用原始数据直接进行分类的分类结果提升了7.2%的准确率。最终,我们验证了基于SDAE 的特征提取方法确实能够有效地提取特征,同时也说明使用单个时间切片进行分类的结果并不满意(73.6%)。

图8 特征提取方法对比图

2.4 预测模型对比

当堆栈式去噪自编码器训练完成之后,便得到多源异构数据的特征向量,文中结合传统且常用的分类器对后续的LSTM 预测分类模型进行对比评估。

在对整个预测系统进行评估之前,本文先定义三种预测误差指标,即平均绝对误差(Mean Absolute Error,MAE)、平均相对误差(Mean Relative Error,MRE)和均方根误差(Root Mean Square,RMSE)。三个误差公式分别如公式(6)-(8)所示:

本文选择了决策树(Decision Tree,DT),逻辑回归(Logistic Regression,LR),线性支持向量机(Linear Support Vector Machine,LSVM)和循环神经网络(Recurrent Neural Network,RNN)这四种主流分类器作为基准算法,并与本文所采用的LSTM 算法进行对比。所有分类器的输入均为10 个历史时间切片的特征数据,其中RNN 模型也设置为10 步,且每步都输入一个时间切片的特征向量。表2 列出了它们对应的MAE、MRE 和RMSE 三个结果数值。结果表明所提模型的预测误差相对于其他基准算法来说最小。

表2 分类算法准确率对比

文章提出一种新型的基于多源异构数据驱动的电量预测系统,通过设计深度学习算法对目标区域内的总用电量变化趋势等级进行高精度预测。通过多源真实数据集(电力资源数据、气象数据和人群移动数据)验证,所设计的堆栈式去噪自编码器可以很好地提取异构数据集间的深度耦合特征,同时长短时记忆神经网络可以从历史时间维度上捕捉特征之间的潜在关联并实现高精度电力需求预测。最终,证明了利用多源异构数据集可以更加全面地对区域性用电习惯进行建模,为电力相关部门提供高效且低时延的电力需求预测信息。

猜你喜欢堆栈异构编码器基于行为监测的嵌入式操作系统堆栈溢出测试*计算机工程与科学(2022年11期)2022-11-17ETC拓展应用场景下的多源异构交易系统中国交通信息化(2022年7期)2022-10-27融合CNN和Transformer编码器的变声语音鉴别与还原网络安全与数据管理(2022年1期)2022-08-29试论同课异构之“同”与“异”小学教学研究(2022年5期)2022-04-28设定多圈绝对值编码器当前圈数的方法锻压装备与制造技术(2021年5期)2021-11-13转炉系统常用编码器选型及调试科学技术创新(2021年5期)2021-03-17——编码器">舞台机械技术与设备系列谈(二)
——编码器演艺科技(2020年7期)2020-08-13多源异构数据整合系统在医疗大数据中的研究电子制作(2019年14期)2019-08-20吴健:多元异构的数字敦煌商周刊(2019年1期)2019-01-31应用EDAC容错技术的星载软件堆栈溢出实时检测方法航天器工程(2018年4期)2018-09-15

推荐访问:神经网络 电量 深度