文獻(xiàn)標(biāo)識(shí)碼:B文章編號(hào):1003-0492(2022)12-066-04中圖分類號(hào):TP311
★王梅芳,張磊,單衛(wèi)軍(深圳市水務(wù)科技有限公司,廣東深圳518000)
摘要:水體預(yù)測(cè)分析在掌握江河水體的現(xiàn)狀、理解污染物質(zhì)轉(zhuǎn)移的特點(diǎn)以及了解污染源的排污狀況進(jìn)而預(yù)測(cè)水體發(fā)展趨勢(shì)等方面有著重要意義。有效的水資源管理和明確的水污染治理的區(qū)域規(guī)劃是水生態(tài)環(huán)境保護(hù)的首要任務(wù),而水體的預(yù)測(cè)分析則是基本保障。本文以某河流域?yàn)檠芯繉?duì)象,根據(jù)其水體現(xiàn)狀以及檢測(cè)的統(tǒng)計(jì)數(shù)據(jù),創(chuàng)建人工神經(jīng)網(wǎng)絡(luò)的水體預(yù)測(cè)模型,對(duì)水環(huán)境的關(guān)鍵超標(biāo)準(zhǔn)污染物質(zhì)總氮的含量進(jìn)行仿真模擬預(yù)測(cè)分析。分析數(shù)據(jù)表明,經(jīng)過(guò)訓(xùn)練后的神經(jīng)元網(wǎng)絡(luò)的預(yù)測(cè)分析偏差低于5%,因而該實(shí)體模型能合理地預(yù)測(cè)分析水體中的總氮濃度值。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);水質(zhì);預(yù)測(cè)模型
隨著我國(guó)經(jīng)濟(jì)快速發(fā)展,工業(yè)生產(chǎn)及日常生活需水量猛增,水資源污染和水源污染問(wèn)題越演越烈,快速精準(zhǔn)地預(yù)測(cè)分析水體是水源信息化管理的關(guān)鍵。對(duì)于水體預(yù)測(cè)分析,世界各國(guó)進(jìn)行了大量研究,并提出多種預(yù)測(cè)分析理論模型。傳統(tǒng)式的水體預(yù)測(cè)分析基礎(chǔ)理論主要是以污染源為核心的機(jī)理性水質(zhì)模型和以水源保護(hù)區(qū)水質(zhì)為核心的非機(jī)理性水質(zhì)實(shí)體模型,對(duì)江河水體變化趨勢(shì)和污染物質(zhì)遷移擴(kuò)散狀況開(kāi)展探究和預(yù)測(cè)分析。但由于模型對(duì)繁雜的自然環(huán)境及其多樣化的數(shù)學(xué)模型機(jī)理的適應(yīng)能力較弱,因而導(dǎo)致傳統(tǒng)式預(yù)測(cè)模型的預(yù)估精度較差[1-3]。
隨著人工智能應(yīng)用和深度神經(jīng)網(wǎng)絡(luò)的迅速發(fā)展,人工智能技術(shù)逐漸滲透到生產(chǎn)制造的各個(gè)方面。在水體預(yù)測(cè)分析行業(yè),以水體為核心的非機(jī)理性預(yù)測(cè)分析方式獲得普遍的運(yùn)用。大部分科學(xué)研究主要是運(yùn)用回歸分析、灰色模型、svm算法實(shí)體模型及神經(jīng)元網(wǎng)絡(luò)等來(lái)預(yù)測(cè)分析水體[4-6]。與實(shí)體模型相比,因神經(jīng)網(wǎng)絡(luò)模型特有的最優(yōu)控制、軟性的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、強(qiáng)悍的并行計(jì)算信息內(nèi)容的功能及其較強(qiáng)的自適應(yīng)性,被廣泛應(yīng)用于水質(zhì)的預(yù)測(cè)分析。孔剛等[7]根據(jù)BP(Back Propagation,誤差反向傳播)神經(jīng)網(wǎng)絡(luò)運(yùn)用單因素評(píng)價(jià)方法,對(duì)某地區(qū)的地表水超標(biāo)準(zhǔn)因素進(jìn)行了分析研究,研究結(jié)論能對(duì)昌平的地表水管理方面給予具體指導(dǎo)。李曉輝等[8]基于深灰色模型,對(duì)仿真模擬值和方差開(kāi)展了BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)研究,研究結(jié)果能提高降雨量的預(yù)估精度。Kim等[9]耦合了聚類算法與神經(jīng)元網(wǎng)絡(luò),減少了數(shù)據(jù)信息訓(xùn)練不平衡對(duì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)練習(xí)造成的不良影響。Shi等[10]在神經(jīng)元網(wǎng)絡(luò)基礎(chǔ)上,運(yùn)用時(shí)頻分析法對(duì)水體時(shí)間序列分析進(jìn)行減噪處理,從而提升了預(yù)測(cè)分析精度。宋一凡等[11]選用同樣的方式,其仿真模擬結(jié)果表明:該模式可以高效地防止小波變換神經(jīng)元網(wǎng)絡(luò)和BP網(wǎng)絡(luò)深陷局部極小值,進(jìn)而對(duì)水文氣象狀況的趨勢(shì)進(jìn)行精準(zhǔn)預(yù)測(cè),具備較好的氣象預(yù)報(bào)精度和可靠性。
1 研究目標(biāo)與內(nèi)容
神經(jīng)元網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,為水體預(yù)測(cè)分析行業(yè)帶來(lái)了新的預(yù)測(cè)分析構(gòu)思。但在水質(zhì)預(yù)測(cè)分析領(lǐng)域,神經(jīng)網(wǎng)絡(luò)方式的使用仍處在初級(jí)探索階段。因此,本研究運(yùn)用神經(jīng)網(wǎng)絡(luò)建模方法,搭建神經(jīng)元網(wǎng)絡(luò)水體預(yù)測(cè)模型并對(duì)流域水體開(kāi)展分析預(yù)測(cè),希望在豐富水體預(yù)測(cè)分析領(lǐng)域研究基礎(chǔ)理論的同時(shí)能為水資源整治給予實(shí)踐指導(dǎo)。
1.1數(shù)據(jù)采集
本研究所采用的數(shù)據(jù)是某河流域連續(xù)325天的數(shù)據(jù)信息。為確保預(yù)測(cè)模型的準(zhǔn)確性,文中將某河流域2021年325天的總氮濃度值數(shù)據(jù)信息中的前300天數(shù)據(jù)作為訓(xùn)練集,以確保訓(xùn)練樣本的總數(shù)滿足訓(xùn)練要求。
數(shù)據(jù)預(yù)處理是對(duì)時(shí)間序列分析開(kāi)展預(yù)測(cè)分析的主要前提。未預(yù)處理原始數(shù)據(jù)經(jīng)常會(huì)出現(xiàn)數(shù)據(jù)信息缺少、紊亂、數(shù)據(jù)信息邏輯不符及運(yùn)算量大造成分析困難等問(wèn)題。為確保對(duì)數(shù)據(jù)進(jìn)行有效分析,必須先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,主要包含數(shù)據(jù)清洗和數(shù)據(jù)歸一化。
1.2 數(shù)據(jù)樣本的選擇
1.2.1 數(shù)據(jù)清洗
數(shù)據(jù)信息在采集環(huán)節(jié)中存在數(shù)據(jù)信息不正確、缺乏記錄等問(wèn)題,這種干擾正確數(shù)據(jù)的信息會(huì)嚴(yán)重影響到后續(xù)的數(shù)據(jù)統(tǒng)計(jì)分析。因此在對(duì)數(shù)據(jù)資料進(jìn)行后續(xù)處理前,需要預(yù)處理樣本信息,確保數(shù)據(jù)信息的一致性。整個(gè)清洗過(guò)程是對(duì)樣本信息開(kāi)展校驗(yàn)和查驗(yàn),主要是查驗(yàn)樣本信息的一致性和缺失情況,并處理失效數(shù)據(jù)和丟失數(shù)據(jù)。數(shù)據(jù)預(yù)處理是對(duì)數(shù)據(jù)采用刪除或者替代方式,以樣本數(shù)據(jù)信息總體或部分平均值、平均數(shù)或眾數(shù)等替代失效數(shù)據(jù)進(jìn)行填補(bǔ)。
文中對(duì)危害某河流域水體的總氮數(shù)據(jù)完成清洗,設(shè)定濃度值數(shù)據(jù)有效范圍為0-4mmol/m3。在進(jìn)行數(shù)據(jù)清理時(shí),發(fā)現(xiàn)數(shù)據(jù)中的第104天數(shù)據(jù)超過(guò)有效范圍并且缺少第21和76天的濃度值數(shù)據(jù)信息。由于數(shù)據(jù)信息樣本比較大,因此本文用前5天和后5天數(shù)據(jù)的平均值來(lái)替代問(wèn)題數(shù)據(jù),對(duì)異常數(shù)據(jù)和缺失數(shù)據(jù)進(jìn)行處理。將2021年5月到2021年12月的107組數(shù)據(jù)的前102組數(shù)據(jù)進(jìn)行模型的訓(xùn)練,這102組數(shù)據(jù)被劃分為三部分:訓(xùn)練集、驗(yàn)證集和測(cè)試集。后5組數(shù)據(jù)信息用以實(shí)體模型的校檢。
1.2.2數(shù)據(jù)歸一化處理
在搜集原始記錄時(shí),存在個(gè)別數(shù)據(jù)記錄值較大,測(cè)算量大且不收斂的問(wèn)題,因而將原始記錄的數(shù)據(jù)進(jìn)行歸一化處理,將原始記錄依照一定占比放縮,限定在一個(gè)小的區(qū)段范圍內(nèi)。歸一化處理既有利于加快后續(xù)數(shù)據(jù)的處理,又可以提高建模的收斂性速率和精度。數(shù)據(jù)歸一化的形式有min-max規(guī)范性和z-score規(guī)范化,本研究中采用的是min-max規(guī)范性。
Min-max規(guī)范化的原理是對(duì)樣例信息進(jìn)行線性變換。將原始記錄依照一定占比縮放進(jìn)[0,1]或[-1,1]區(qū)段內(nèi),文中選用的是[0,1]區(qū)段內(nèi),實(shí)際計(jì)算公式如下所示:
式中,
X-原始樣本數(shù)據(jù);
min(X)-原始樣本數(shù)據(jù)的最小值;
max(X)-原始樣本數(shù)據(jù)的最大值;
x-經(jīng)歸一化處理后的數(shù)據(jù)。
1.2.3評(píng)價(jià)標(biāo)準(zhǔn)
本文選用平均偏差和均方根誤差作為評(píng)價(jià)指標(biāo)。均方根誤差可以表示數(shù)據(jù)信息的變化水平,值越小表示預(yù)測(cè)模型具有越好的精確度,計(jì)算方式如下所示。
平均誤差:
均方根誤差:
式中,
n-樣本數(shù)量;
fi-模型預(yù)測(cè)值;
yi-實(shí)際值。
2 基于神經(jīng)網(wǎng)絡(luò)水質(zhì)預(yù)測(cè)模型的建立
2.1 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的實(shí)現(xiàn)
本文使用的仿真軟件為MATLAB2019。對(duì)于神經(jīng)網(wǎng)絡(luò),為了使得網(wǎng)絡(luò)性能達(dá)到更理想的狀態(tài),一般權(quán)值連接輸入端的神經(jīng)元的數(shù)量的選定范圍在(-2.4/F,2.4/F)的隨機(jī)值,具體的流程如圖1所示。
圖1 分析預(yù)測(cè)流程
2.2 訓(xùn)練集與驗(yàn)證集樣本的劃分
BP神經(jīng)元網(wǎng)絡(luò)的實(shí)現(xiàn)必須包含兩部分?jǐn)?shù)據(jù):訓(xùn)練樣本數(shù)據(jù)與驗(yàn)證樣本數(shù)據(jù)。訓(xùn)練樣本指用以網(wǎng)絡(luò)學(xué)習(xí)、訓(xùn)練的樣本,這一部分?jǐn)?shù)據(jù)信息作為神經(jīng)元網(wǎng)絡(luò)的訓(xùn)練樣本,通過(guò)學(xué)習(xí)優(yōu)化算法開(kāi)展權(quán)重值和閾值的調(diào)節(jié),使BP網(wǎng)絡(luò)對(duì)訓(xùn)練樣本有著一個(gè)較好的線性擬合情況;驗(yàn)證樣本則用以神經(jīng)網(wǎng)絡(luò)練習(xí)結(jié)束后,輸入模型,驗(yàn)證已完成訓(xùn)練過(guò)程的BP神經(jīng)網(wǎng)絡(luò)對(duì)生疏數(shù)據(jù)信息的線性擬合工作能力,檢測(cè)所建立的神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)分析現(xiàn)階段水體的效果。
本文將102組數(shù)據(jù)作為模型的訓(xùn)練數(shù)據(jù),這102組數(shù)據(jù)被劃定為三部分:第一部分用以訓(xùn)練,第二部分用以驗(yàn)證,第三部分用以檢測(cè)。后5組數(shù)據(jù)信息用以實(shí)體模型的校檢。
2.3訓(xùn)練算法的選取
MALTAB的訓(xùn)練算法具體有三種;第一種是ML優(yōu)化算法,全稱為Marquardt Levenberg訓(xùn)練法。該計(jì)算方法是應(yīng)用最普遍的最優(yōu)控制最小二乘法,具備梯度方向法和牛頓法的優(yōu)勢(shì)。此方法會(huì)占有大量?jī)?nèi)存,原因是該優(yōu)化算法必須求得矩陣的逆。第二種是貝葉斯算法正則化優(yōu)化算法(Bayesian Regularization),此類優(yōu)化算法能避免過(guò)度擬合:加上正則化項(xiàng)等同于加上處罰項(xiàng),趨于讓神經(jīng)網(wǎng)絡(luò)模型復(fù)雜性減少,可以避免過(guò)度擬合,在處理繁雜、樣本少且噪聲大的數(shù)據(jù)的時(shí)候會(huì)有比較好的效果。第三種是量化分析共軛梯度法(Scaled Conjugate Gradient),此優(yōu)化算法占用的運(yùn)行內(nèi)存更少。從運(yùn)算速度方面考慮,本文的訓(xùn)練優(yōu)化算法選用Levenberg-Marquardt(此處與上文出現(xiàn)的英文名不一致),它是梯度下降法與高斯函數(shù)-牛頓法的結(jié)合,不僅有高斯函數(shù)-牛頓法的局部收斂性,還具備梯度下降法的全局性特點(diǎn)。LM(此處與上文出現(xiàn)的簡(jiǎn)寫不一致)優(yōu)化算法運(yùn)用了類似的二階導(dǎo)數(shù)信息,相比梯度方向法速度更快。
2.4 隱層數(shù)與隱層節(jié)點(diǎn)數(shù)的選擇
當(dāng)訓(xùn)練集明確以后,輸入層節(jié)點(diǎn)個(gè)數(shù)和輸出層節(jié)點(diǎn)個(gè)數(shù)便確定,后續(xù)就需要確定隱層數(shù)和隱層連接點(diǎn)數(shù)。在開(kāi)展神經(jīng)元網(wǎng)絡(luò)的總體設(shè)計(jì)時(shí)首先考慮開(kāi)展三層網(wǎng)絡(luò)的設(shè)計(jì)方案,除此之外,依據(jù)Kolmogorov定律,針對(duì)隨意三層的前向神經(jīng)元網(wǎng)絡(luò),根據(jù)隱層神經(jīng)細(xì)胞數(shù)量和非線性函數(shù)擬合準(zhǔn)確度的對(duì)應(yīng)關(guān)系,確定BP神經(jīng)網(wǎng)絡(luò)的隱含層數(shù)目為1。
2.5 模型訓(xùn)練及選取
模型訓(xùn)練時(shí),要求的偏差限為0.01,模型的原始權(quán)重值和閾值由MATLAB隨機(jī)生成。利用均方根誤差(RMSE)和相關(guān)系數(shù)r(R)來(lái)確認(rèn)建立的神經(jīng)網(wǎng)絡(luò)模型是否可用。表1列出了神經(jīng)網(wǎng)絡(luò)模型的RMSE和R值。
表1神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果
由上表的結(jié)果可以確定:隱含層的神經(jīng)元個(gè)數(shù)為12,BP神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練誤差為0.328,驗(yàn)證誤差為0.445,相關(guān)系數(shù)R值為0.89,誤差較小,相關(guān)性較大,可以作為預(yù)測(cè)模型進(jìn)行應(yīng)用。模型的訓(xùn)練結(jié)果見(jiàn)圖2。
圖2 預(yù)測(cè)和訓(xùn)練值比較
3 結(jié)果與討論分析
運(yùn)用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,對(duì)2021年8月-2021年12月的總氮濃度值進(jìn)行預(yù)測(cè)分析,分析結(jié)論見(jiàn)表2和圖3。由圖3和表2可知,8月到12月,神經(jīng)網(wǎng)絡(luò)模型相對(duì)誤差的絕對(duì)值都小于5%。8月和9月預(yù)測(cè)精度相比10、11和12月更高,主要是因?yàn)橛绊懰|(zhì)變化的因素不是絕對(duì)不變的,上游產(chǎn)生的環(huán)境問(wèn)題和污染會(huì)傳遞到下游的水域系統(tǒng)中,水質(zhì)也會(huì)發(fā)生相應(yīng)的改變。總的來(lái)說(shuō),本文所建立的模型能有效地預(yù)測(cè)水質(zhì)中的總氮濃度。
表2 總氮濃度預(yù)測(cè)校檢結(jié)果(三線表)
圖3 總氮實(shí)測(cè)值與兩種模型預(yù)測(cè)值的對(duì)比曲線
4 結(jié)論
本文在搜集某河流域數(shù)據(jù)信息基礎(chǔ)上,以數(shù)據(jù)預(yù)處理、歸一化等方法對(duì)數(shù)據(jù)進(jìn)行處理后,運(yùn)用BP神經(jīng)網(wǎng)絡(luò)優(yōu)化算法,搭建了某河流域總氮預(yù)測(cè)分析神經(jīng)網(wǎng)絡(luò)模型。該模式的總體偏差小于5%,在容許范圍內(nèi)。因而,基于灰色關(guān)聯(lián)度的BP神經(jīng)網(wǎng)絡(luò)總氮預(yù)測(cè)模型在具體的水環(huán)境管理方法中有著一定的指導(dǎo)作用。
危害流域水體轉(zhuǎn)變的因素并非完全一致的,相對(duì)上游造成的生態(tài)環(huán)境問(wèn)題和環(huán)境污染也會(huì)傳遞到相對(duì)下游的海域系統(tǒng)中,進(jìn)而對(duì)水體產(chǎn)生影響。因此,實(shí)體模型必須及時(shí)的升級(jí)和優(yōu)化,并采用更大數(shù)量的練習(xí)數(shù)據(jù)集對(duì)所建立的模型進(jìn)行訓(xùn)練,以確保預(yù)測(cè)模型具備實(shí)用價(jià)值。
作者簡(jiǎn)介:
王梅芳(1974-),女,四川達(dá)州人,電氣工程師,現(xiàn)就職于深圳市水務(wù)科技有限公司,主要從事自動(dòng)化方向的研究。
張磊(1978-),男,浙江杭州人,電氣工程師,現(xiàn)就職于深圳市水務(wù)科技有限公司,主要從事自動(dòng)化方向的研究。
單衛(wèi)軍(1977-),男,天津人,電氣工程師,現(xiàn)就職于深圳市水務(wù)科技有限公司,主要從事自動(dòng)化方向的研究。
參考文獻(xiàn):
[1] 陳奉軍. 水環(huán)境監(jiān)測(cè)質(zhì)量控制相關(guān)措施的分析[J]. 資源節(jié)約與環(huán)保, 2019 (1) : 38.
[2] 董國(guó)慶, 孫伯寅, 李崢, 等. 時(shí)間序列模型在水源水化學(xué)耗氧量預(yù)測(cè)中的應(yīng)用[J]. 環(huán)境與健康雜志, 2018, 35 (3) : 234 - 237.
[3] 王惠文, 孟潔. 多元線性回歸的預(yù)測(cè)建模方法[J]. 北京航空航天大學(xué)學(xué)報(bào), 2007(4): 500-504.
[4] 陳鵬飛, 王麗學(xué), 李愛(ài)迪, 等. 基于灰色關(guān)聯(lián)度與 BP 神經(jīng)網(wǎng)絡(luò)的清河水庫(kù)總氮濃度預(yù)測(cè)模型[J]. 水電能源科學(xué), 2018, 36 (7) : 40 - 43.
[5] 李春華, 胡文, 葉春, 等. 基于BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)地表水凈化裝置總氮的去除效果[J]. 環(huán)境工程技術(shù)學(xué)報(bào), 2018, 8 (6) : 651 - 655.
[6] 楊麗, 吳雨茜, 王俊麗, 等. 循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計(jì)算機(jī)應(yīng)用, 2018, 38 (S2) : 1 - 6.
[7] 孔剛, 王全九, 黃強(qiáng). 基于BP 神經(jīng)網(wǎng)絡(luò)的北京昌平山前平原地下水水質(zhì)評(píng)價(jià)[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2017, 33 : 151 - 155.
[8] 李曉輝, 楊勇, 楊洪偉. 基于 BP 神經(jīng)網(wǎng)絡(luò)與灰色模型的干旱預(yù)測(cè)方法研究. 沈陽(yáng)農(nóng)業(yè)大學(xué)學(xué)報(bào), 2014, 45 (2) : 253 - 256.
[9] Shi S, Cao J, Feng L, et al. Construction of a technique plan repository and evaluation system based on AHP group decision
making for emergency treatment and disposal in chemical pollution accidents[J]. Journal of Hazardous Materials, 2014, 276(jul.15):
200 - 206.
[10] Kim S E, Seo I W. Artificial Neural Network ensemble modeling with conjunctive data clustering for water quality prediction in rivers[J]. Journal of Hydro-environment Research, 2015.
[11] 宋一凡, 郭中小, 盧亞靜, 等. 基于遺傳算法優(yōu)化的小波神經(jīng)網(wǎng)絡(luò)在中長(zhǎng)期水文預(yù)報(bào)中的應(yīng)用-以三門峽為例[J]. 中國(guó)水利水電科學(xué)研究院 學(xué)報(bào), 2014, 12 (4) : 337 - 343.
摘自《自動(dòng)化博覽》2022年12月刊