Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 1225-7672(Print)
ISSN : 2287-822X(Online)
Journal of the Korean Society of Water and Wastewater Vol.34 No.1 pp.35-43
DOI : https://doi.org/10.11001/jksww.2020.34.1.035

Prediction of high turbidity in rivers using LSTM algorithm

Jungsu Park1*, Hyunho Lee2
1Department of Civil and Environmental Engineering, Hanbat National University,125, Dongseo-daero, Yuseong-gu, Daejeon 34158, Republic of Korea
2Data Center, K-water, 200, Sintanjin-ro, Daedeok-gu, Daejeon 34350, Republic of Korea
Corresponding author: Jungsu Park(E-mail: parkjs@hanbat.ac.kr)
03/01/2020 27/01/2020 31/01/2020

Abstract


Turbidity has various effects on the water quality and ecosystem of a river. High turbidity during floods increases the operation cost of a drinking water supply system. Thus, the management of turbidity is essential for providing safe water to the public. There have been various efforts to estimate turbidity in river systems for proper management and early warning of high turbidity in the water supply process. Advanced data analysis technology using machine learning has been increasingly used in water quality management processes. Artificial neural networks(ANNs) is one of the first algorithms applied, where the overfitting of a model to observed data and vanishing gradient in the backpropagation process limit the wide application of ANNs in practice. In recent years, deep learning, which overcomes the limitations of ANNs, has been applied in water quality management. LSTM(Long-Short Term Memory) is one of novel deep learning algorithms that is widely used in the analysis of time series data. In this study, LSTM is used for the prediction of high turbidity(>30 NTU) in a river from the relationship of turbidity to discharge, which enables early warning of high turbidity in a drinking water supply system. The model showed 0.98, 0.99, 0.98 and 0.99 for precision, recall, F1-score and accuracy respectively, for the prediction of high turbidity in a river with 2 hour frequency data. The sensitivity of the model to the observation intervals of data is also compared with time periods of 2 hour, 8 hour, 1 day and 2 days. The model shows higher precision with shorter observation intervals, which underscores the importance of collecting high frequency data for better management of water resources in the future.



LSTM 모형을 이용한 하천 고탁수 발생 예측 연구

박 정수1*, 이 현호2
1국립한밭대학교 건설환경공학과, 대전광역시 유성구 동서대로 125, 34158
2한국수자원공사 데이터센터, 대전광역시 대덕구 신탄진로 200, 34350

초록


    1. 서 론

    하천에서 부유사의 증가 등으로 인해 발생되는 탁 수는 오염물질 이동의 매개가 되거나 하천생물의 서 식처를 훼손하는 등 취수원의 수질 및 하천 생태에 다양한 영향을 미치며 지속적인 관리가 필요한 수질 인자 중 하나이다 (Droppo et al., 2009;Singer et al., 2013;Suttle et al., 2004). 강우 등으로 유량이 증가하 면서 하천 등 취수원의 탁도가 증가하여 정수장 유입 탁도가 30 NTU를 넘을 경우에 일반적으로 고탁도로 관리를 하고 있으며, 고탁도 발생 시 정수장의 약품투 입량, 역세척 증가 등 운영상에 어려움을 줄 수 있어 고탁도 발생의 예측 등 급격한 탁수 유입에 대비할 수 있는 대책이 필요하다 (Asrafuzzaman et al., 2011;Lin et al., 2004;Park et al., 2017a;Seo et al., 2011).

    이를 위해 하천 부유사 혹은 탁수 발생 농도의 추 정이나 예측을 위한 다양한 모형이 개발되어왔으며, 가장 대표적인 모형 중 하나가 지수식 형태의 유량-유 사량 관계식을 이용하는 power law로 현재까지도 널 리 사용되고 있으나, 탁도 발생의 예측을 위해서는 장 기간의 지속적인 현장 측정 자료가 필요하며 계절별, 시기별로 편차가 심한 탁수 예측에는 한계가 있다 (Walling, 1974, 1977;Warrick et al., 2013). 따라서 구 간별로 회귀분석을 수행하는 LOWESS(Locally Weighted Scatter Plot Smoothing)와 같이 기존 power law 기반의 유량-유사량 관계식의 단점을 보완할 수 있는 새로운 모형의 개발을 위한 노력이 계속되고 있다 (Gray et al., 2014;Hicks et al., 2000;Park et al., 2017b, 2018).

    2000년대 이후 데이터 분석기법의 발달로 머신러닝 을 이용한 수질예측 모형의 개발이 지속되고 있다. 인 공신경망(ANNs: Artificial Neural Networks)은 McCulloch and Pitts (1943)에 의해 제안되었으며 이후 Rosenblatt (1958)가 알고리즘을 구체화하면서 개발된 가장 오래 된 머신러닝 기법으로 조류(algae) 발생 지표중 하나인 클로로필-a(Chl-a)의 예측에 사용되기도 했으나 학습 데이터의 특성을 과하게 학습하는 과적합문제 등으로 활용이 제한적이다 (Burnham and Anderson, 2002;Huang et al., 2015;Wu et al., 2014).

    최근에는 rectified linear unit(ReLU)를 활성화함수로 사용하여 다층 인공신경망구조에서 기울기 소실을 방 지하고, dropout 기법을 적용하여 기존 인공신경망의 과적합문제를 해결함으로써 데이터 처리 기술을 획기 적으로 발전시킨 딥러닝이 다양한 분야에 빠르게 적 용되고 있다 (LeCun et al., 2015;Nair and Hinton, 2010;Srivastava et al., 2014).

    LSTM(Long-Short Term Memory)은 이전 단계의 정 보를 기억하는 장단기 메모리를 가지도록 구성되어 있어 시계열 분석 등에 좋은 성능을 보이는 최신 딥 러닝 알고리즘중 하나로, 최근 LSTM을 수질 예측에 활용하기 위한 연구에 대한 관심이 높아지고 있다. Lee and Lee (2018)는 한국의 16개보의 일일 및 주간 수질 측정 자료의 pH, 생물화학적산소요구량, 화학적 산소요구량, 용존산소, 수온을 이용하여, Chl-a 발생을 예측하는데 MLP(multilayer perceptron)와 순환신경망 모형(RNN: recurrent neural network) 그리고 LSTM을 적용하고 이중 LSTM이 가장 좋은 예측 성능을 가짐 을 보여주었으며, Zhou et al. (2018)은 중국 타이(Tai) 호수와 빅토리아(Victoria) 만의 현장 실측 자료에 LSTM 모형을 적용하여 용존산소 농도와 수온 변화 등을 예측하였다. 보다 최근에 Hu et al. (2019)은 중국 Xincun town 해양 양식장의 현장 측정 자료를 이용하 여 양식장 수질중 pH와 수온을 98% 정도의 정확도 (accuracy)로 예측하였다.

    본 연구에서는 하천 수질 및 수생태 관리와 정수장 운영 효율화 등을 위해 장기간에 걸쳐 측정된 하천 유량 및 탁도 자료를 활용한 LSTM 모형을 구축하여 하천 고탁수 발생을 사전에 예측하고 이를 실무에 적 용하여 효율성을 높이기 위한 방안을 제시하였다.

    2. 재료 및 실험방법

    2.1 LSTM 모형 개요

    딥러닝 알고리즘중 하나인 순환신경망(RNN: Recurrent Neural Network)은 시계열 자료와 같이 연속된 순서를 가진 자료의 분석에 좋은 성능을 보이는 것으로 알려 져 있으나, 은닉층(hidden layer)이 늘어남에 따라 오차 보정을 위한 역전파(backpropagation)시 기울기 손실 (vanishing gradient)이 발생하여 학습능력이 감소하는 단점을 가지고 있다 (Greff et al., 2016). LSTM은 이러 한 RNN의 단점을 보완하기 위해 이전 단계의 정보를 기억하는 메모리를 가지도록 구성되어 있으며 이는 오랫동안 기억하고 전달할 필요가 있는 정보를 저장 하는 셀(cell) state와, 현 시점에서 단기간에 활용되는 정보를 저장하는 은닉(hidden) state로 구분된다 (Greff et al., 2016;Hochreiter and Schmidhuber, 1997). LSTM 은 망각게이트(forget gate), 입력게이트(input gate) 및 출력게이트(output gate)의 3개의 게이트 구조를 통하 여 연산을 위한 자료의 입력 및 출력을 수행한다. Olah (2015)는 복잡한 LSTM의 개념을 도식화하여 이 해하기 쉽게 정리하여 제시하였으며, LSTM의 각 게 이트의 개념과 역할은 다음과 같다 (Fig. 1).

    • 1) 망각게이트(forget gate): 이전 단계의 상태(ht-1)와 새로운 입력자료(xt)를 시그모이드(sigmoid) 활성화함 수를 이용하여 연사하여 셀에 저장할 자료와 저장하 지 않을 자료를 0∼1의 범위 내에서(0: 자료를 저장하 지 않음, 1: 자료를 모두 저장) 결정한다.

    • 2) 입력게이트(input gate): 셀에 저장될 정보를 결정 하는 단계로, 우선 시그모이드 함수를 이용하여 새롭 게 업데이트할 정보를 결정하고, 하이퍼탄젠트 (hypertangent)함수를 이용하여 업데이트시 사용되는 후보 자료( C ˜ t )를 생성하게 된다. 그리고 과거 셀의 자 료(Ct-1)와 후보 셀의 자료( C ˜ t )에 대한 연산을 통해 현재 셀의 자료(Ct)를 업데이트 한다.

    • 3) 출력게이트(output gate): 시그모이드 함수를 이용 하여 셀 상태에서 출력할 부분을 결정하고, 하이퍼탄 젠트 함수를 통해 –1과 1사이의 값으로 변환된 셀의 자료(Ct)와 곱하여 새로운 출력 출력자료(ht)를 결정 한다.

    2.2 LSTM 모형 구축

    본 연구에서는 Keras 기반의 LSTM 알고리즘을 이 용하여 모형을 구축하였으며, tensorflow 2.0 환경에서 python 3.5.4를 이용하여 구현되었다. LSTM 모형의 최 적화를 위한 손실값(loss)의 계산은 평균제곱오차 (mean squared error)를 이용하고 유량(Q)및 탁도(T) 두 가지 항목을 모형의 입력 자료로 활용하였다. 모형의 time step을 1로 하고 Qt-1와 Tt-1를 탁도 예측을 위한 입력 값으로 하여 Tt의 값을 예측하도록 구성하였다 (Fig. 2). 본 연구에 사용된 LSTM 모형의 내부 뉴런 (neuron), dropout율 및 오차보정을 위한 1회 입력 자료 의 크기인 batch size와 최적화를 위한 전체 데이터의 학습 횟수인 epoch값은 1일 관측빈도 자료를 기준으로 최적 값을 결정하고 다른 시간관측빈도에 대해서도 동일 값을 적용하였다 (Table 1).

    2.3 입력 데이터

    LSTM 알고리즘을 이용한 모형의 구축과 검증에는 장기간에 걸쳐 측정된 데이터의 확보가 필요하며, 본 연 구에는 미국지질조사국(USGS: United States Geological Survey)에서 2014년 1월 1일부터, 2019년 12월 31일까지 15분 간격으로 미국 California Guerneville 측정소(USGS site number: 11467000)에서 측정하여 공개한 Q 및 T 자료 를 이용하였다 (자료출처: https://waterdata.usgs.gov/nwis). Guerneville 측정소는 미국 California의 Russian River 하 류 하구에서 약 30 km 상류에 위치하고 있으며, 유역면 적은 약 3,465 km2이다.

    입력변수의 관측 빈도에 따른 모형 성능을 비교하 기 위하여 15분 간격으로 측정된 Q와 T 원자료의 2, 8, 24, 48 시간 간격 평균을 구하여 4개의 시뮬레이션 시나리오로 구성하였다. 자료가 측정된 미국 California 지역은 10월부터 강우가 시작되어 이듬해 봄까지 우 기가 계속되며, 이후 9월까지 강수량이 적은 건기가 계속되는 특성을 가지고 있으며, 수질 및 수자원 분야 연구에서는 이러한 특성을 고려하여 10월부터 이듬해 9월까지의 기간을 연단위로 구분하는 경우가 많다. 이러한 데이터의 특성을 고려하여, 본 연구에서는 2014년 1월부터 2018년 9월까지의 데이터를 모형의 훈련(train), 2018년 10월부터 2019년 12월까지의 데이 터를 예측(prediction)에 활용하였으며, 훈련과 예측에 사용된 데이터의 비율은 0.79:0.21로 구성되었다 (Fig. 3, Table 2).

    2.4 LSTM 모형 성능 검정 및 비교

    2.4.1 모형 성능 비교

    모형의 시나리오별 탁수 예측 성능에 대한 비교를 위해 평균 제곱근 오차(RMSE: Root Mean Square Error)와 데이터 특성이 다른 경우에도 모형 성능의 비 교가 가능한 장점이 있는, 평균 제곱근 오차-관측값 표 준편차비(RSR: Root Mean Squared Error-Observation Standard Deviation Ratio)를 이용하여 시뮬레이션 시나 리오별 수행결과를 비교하였다 (Eq. 12).

    RSR은 0∼1의 범위를 가지고 0에 가까울수록 모형 의 성능이 좋으며 일반적으로 RSR이 0.7 이하일 경우 모형이 실측값을 잘 예측한 것으로 판단한다 (Bennett et al., 2013;Moriasi et al., 2007).

    R M S E = t = 1 n ( M t , o b s M t , m o d e l ) 2 n
    (1)

    R S R = t = 1 n ( M t , o b s M t , m o d e l ) 2 t = 1 n ( M t , o b s M t , o b s ¯ ) 2
    (2)

    Mi, obs : Observed value at time t, Mi, model : Predicted value at time t

    2.4.2 고탁수 발생 예측 성능 평가

    본 연구에서는 LSTM의 실무 적용방안의 하나로 30 NTU 이상의 고탁수 발생에 대한 LSTM 모형의 예측 성능 평가를 수행하였다. 이를 위해 우선 탁도가 30 NTU 이상인 고탁수 발생을 예측한 결과를 머신러닝 의 범주형 데이터 분석에 주로 활용되는 정밀도 (precision), 재현율(recall), F1-score 및 정확도(accuracy) 의 4개 지표를 이용하여 평가하였다(Eq. 36). 정밀 도는 고탁수 발생을 예측한 경우 실제 고탁수가 발생 한 경우의 비율, 재현율은 실제 고탁수가 발생한 경우 중 고탁수 발생을 예측한 비율로 정밀도가 높더라도 재현율이 낮을 경우 모형의 성능이 좋다고 볼 수 없 어 상호 보완적인 관계로 함께 사용된다. F1-score는 정밀도와 재현율의 조화평균이며, 정확도는 전체 빈 도 중 올바르게 분류한 빈도의 비율이다. 4가지 평가 지표는 모두 0∼1사이의 값을 가지고 1에 가까울수록 모형의 성능이 우수하다고 판단된다.

    P r e c i s i o n = T P T P + F P
    (3)

    R e c a l l = T P T P + F N
    (4)

    F 1 s c o r e = 2 ( P r e c i s i o n × Re c a l l ) P r e c i s i o n × R e c a l l
    (5)

    A c c u r a c y = T P + T N T P + F N + F P + T N
    (6)

    • - TP(True positive): Estimated turbidity is higher than 30 NTU where observed turbidity is higher than 30 NTU

    • - FP(False positive): Estimated turbidity is higher than 30 NTU where observed turbidity is less than 30 NTU

    • - FN(False negative): Estimated turbidity is less than 30 NTU where observed turbidity is higher than 30 NTU

    • - TN(True negative): Estimated turbidity is less than 30 NTU where observed turbidity is less than 30 NTU

    2.4.3 Time step에 따른 모형 성능 평가

    LSTM 알고리즘의 모형 구축시 time step의 설정은 데이터의 특성에 따라 모형의 성능에 영향을 미치게 된다. 본 연구에서는 1 day 관측 빈도 데이터에 대해 Table 1에 제시된 입력 parameter를 동일하게 사용하되 2, 3, 5, 10, 20의 time step을 추가로 적용하여 time step이 모형에 미치는 영향을 확인하였다.

    3. 결과 및 고찰

    3.1 모형 성능 평가

    본 연구에서는 15분 간격 측정 데이터를 평균한 데 이터를 이용하였으므로, Fig. 4에서 확인할 수 있는 것 처럼 관측 빈도가 낮을수록 평균으로 계산된 관측 값 의 최대 탁도는 낮아지게 된다.

    관측 빈도별 RMSE와 RSR 값은 각각 8.31∼38.92와 0.16∼0.82의 범위를 가지는 것으로 분석되었으며, 관 측 빈도가 가장 높은 2 hour 빈도 데이터에서 RMSE 와 RSR이 각각 8.31 및 0.16으로 가장 좋은 성능을 보 였으며, 관측 빈도가 높을수록 모형의 예측 능력이 개 선되는 것을 확인할 수 있었다 (Table 3).

    3.2 고탁수 발생 예측 성능 평가

    전체 측정 데이터중 탁도가 30 NTU 이상인 고탁수 발 생은 약 20%였다. 30 NTU이상의 고탁도에 대해 모형의 실측값 대비 예측 값의 비율(예측값/ 실측값)의 평균 은 2 hour, 8 hour, 1 day 및 2 days에 대해서 각각 1.00, 1.12, 0.89 및 0.96으로 분석되었다.

    관측 빈도별로 탁도 30 NTU 이상인 고탁수 발생 예측을 수행한 결과 정밀도, 재현율, F1-score 및 정확 도가 2 hour, 8 hour, 1 day 및 2 days에 대해서 각각 0.98∼0.99, 0.89∼0.97, 0.88∼0.94 및 0.79~0.94로 2 hour에서 가장 우수한 성능을 가지며, 2 days 관측빈 도에서도 안정적인 성능을 보였다 (Table 4). 또한 관 측빈도가 높을수록 모형의 성능이 향상되는 경향을 확인할 수 있었다.

    3.3 Time step에 따른 모형 성능 비교

    관측 빈도 1 day 데이터에 대해 time step 1, 2, 3, 5, 10, 20를 적용한 결과 RSR이 각각 0.68, 0.75, 0.70, 0.72, 0.80, 1.32로 time step이 1인 경우에 가장 모형의 성능이 좋은 것으로 확인되었다 (Fig. 5).

    또한 time step 2~5 사이에서는 RSR의 차이는 크지 않았으나, 10이상일 경우 현저한 RSR의 증가가 관찰 되어 모형의 성능이 저하되는 것을 확인할 수 있었다. 정밀도, 재현율, F1-score, 및 정확도의 경우 일부 지표 는 time step이 높은 경우에 더 좋은 성능을 보이기도 했으나, time step 2, 3, 5, 20에서 보이는 것처럼 정밀 도는 0.9이상으로 높더라도 재현율이 0.7이하로 현저 하게 감소하거나, time step 10에서 보이는 것처럼 정 밀도가 현저하게 낮아지는 등 모형의 안정성이 떨어 지는 것으로 분석되었다 (Fig. 5).

    3.4 유량-탁도 관계의 이격현상 분석 및 모형 개선 방안

    하천에서 탁도는 유량에 비례하나 그 상관관계는 유역특성 등 다양한 환경요인에 영향을 받으며 일정 하지 않다. 본 연구의 대상지점인 Guerneville에서도 2016년 1월에 발생한 2회의 홍수(Flood 1, 2)와 2019년 2월에 발생한 2회의 홍수(Flood 3, 4)를 비교하면 이러 한 차이를 확인할 수 있다 (Fig. 6).

    Flood 1과 Flood 2는 각각 2016년 1월 7일과 18일에 약 10일간의 간격을 두고 발생했다. Flood 1에서는 최 대 Q 및 T가 각각 344 m3/s와 284 NTU이고, Flood 2 에서는 최대 Q는 Flood 1에 비해 67% 증가한 573 m3/s였으나, 최대 T는 불과 18% 증가한 336 NTU로 조사되었다. 비슷한 경향을 Flood 3과 4에서도 확인할 수 있다. Flood 3에서는 최대 Q와 T가 각각 1,278 m3/s 와 477 NTU이고, Flood 4에서는 최대 Q가 Flood3 대 비 58% 증가한 2,018 m3/s였으나 최대 T는 525 NTU 로 불과 10% 증가한 것으로 관찰되었다.

    또한 Flood 1~4 모두 동일한 홍수 사상 내에서도 유량이 증가하는 구간(rising limb)과 유량이 최대치에 도달한 후 감소하는 구간(falling limb)에서 동일한 유 량에 대해 탁도가 다른 이격현상(hysteresis)이 발생하 며, 같은 Q값에 대해 유량이 증가하는 구간에서 감소 하는 구간보다 탁도가 높은 것으로 관찰되었다 (Fig. 6b, c).

    홍수발생 시기별 유량-탁도 상관관계의 차이는 선 행강우에 의해 탁수 유발 물질이 제거됨으로써 후속 되는 강우에서는 탁수 유발 물질이 감소하는 경우 등 과 같이 다양한 환경 요인의 영향을 받게 된다 (Alexandrov et al., 2007;Warrick, 2015). 또한 탁수 발 생의 원인 지점과 측정지점의 거리, 선행 강우 여부, 강우 빈도, 연도별・계절별 유황특성, 유역 크기 등 다 양한 환경 요인에 따라 시계방향(clock wise) 및 반시 계방향(counter clock wise)등 다양한 형태의 이격 현상 을 확인 할 수 있다 (Nistor and Church, 2005;Park et al., 2017b;Williams, 1989). 예를 들어 탁수발생의 원 인이 되는 지역이 측정지점에서 상대적으로 가까운 경우 유량-탁도 관계에서 시계방향의 이격현상(clock wise hysteresis)을 보일 수 있다.

    이러한 이격현상 등 다양한 요인이 유량-탁도 상관관 계의 비선형성을 야기하며, 탁도 혹은 유사량(sediment load) 발생을 예측하는 모형 개발에 어려움을 주는 원인 이 되기도 한다. 본 연구에서는 다양한 물리적 환경요인 등은 고려하지 않고 유량과 탁도 2항목만을 이용하여 LSTM 기반의 하천 고탁도 발생 예측 모형을 구축하여 제시하였으며, 향후 선행 강우, 강우 빈도 등 다양한 환 경요인을 정량화 하고 이를 지표화하여 모형에 포함시 키는 것도 모형의 성능을 개선할 수 있는 방법 중 하나 로 판단된다. 하지만 모형의 입력 인자가 늘어날 경우 모형이 복잡해질 뿐 아니라 필요한 데이터의 확보를 위 한 측정이 필요해 모형의 활용성이 낮아지게 된다. 따라 서 측정이 용이한 항목을 우선적으로 적용하고 추가적 인 입력 인자를 최소화하는 방향의 연구를 통해 모형의 실제 활용성을 높일 수 있을 것으로 판단된다.

    LSTM의 변형된 형태로 별도의 출력 게이트를 두지 않아 좀 더 간단한 구조를 가지며 상대적으로 데이터 수가 적은 경우에 LSTM보다 좋은 성능을 보이는 것 으로 알려진 GRU(gated recurrent unit)가 개발되는 등 딥러닝 분야는 지금도 빠르게 발전하고 있다 (Cho et al., 2014;Chung et al., 2014). 하지만, 새롭게 개발되는 기술이 최적의 성능을 보장하는 것은 아니며, 빠르게 발전하고 있는 고도화된 데이터 분석 기술을 보다 효 율적으로 적용하기 위해서는, 모형의 특성에 맞는 데 이터의 전처리 및 구성과, 물리적 영향요인의 반영 등 활용분야에 대한 모형의 적용성을 높이기 위한 지속 적 연구가 필요하다.

    3.5 딥러닝 모형의 최적화를 위한 데이터 확보

    탁도는 정수장운영시 수질관리를 위해 중요한 지표 중 하나이다 (Asrafuzzaman et al., 2011;Park et al., 2017a). 본 연구에서는 장기간에 걸쳐 측정된 Q 및 T 를 기반으로 하천의 T를 예측하는 모형을 구축하였 다. 향후 유량 변화에 따라 변하는 하천 T의 예측을 통해 적정 약품 투입량을 결정하고, 특히 홍수기 등 급격히 T가 변할 경우에도 사전에 대응할 수 있도록 하여 정수장의 안정적 운영 및 수질개선을 위한 활용 을 기대할 수 있다.

    하천 등에서 정기적인 수질측정을 수행하는 목적중 하나는 수질 현황의 분석과 이를 기반으로 한 수질관 리 및 개선대책의 수립에 있다. 우리나라에서는 환경 부 국립환경과학원의 물환경정보시스템에 공식적인 물환경측정 결과가 공개되고 있으며 2019년 기준 1,945개의 수질측정망 및 337개의 총량측정망 등을 운 영 중에 있다 (MOE, 2019). LSTM 등 고도화된 데이 터 분석기술의 적용을 확대하고 정확도를 높이기 위 해서는 높은 빈도의 자료의 확보가 필요하다. 하지만 우리나라의 수질측정망 및 총량측정망은 월간 및 주 간조사를 위주로 운영하고 있으며, 실시간 수질정보 를 모니터링 하는 수질자동측정망은 70개소에 불과하 다. 또한 총량측정망을 제외하면 수질과 유량측정이 함께 이루어지지 않고 있다.

    빈도가 다른 다수의 항목이 포함된 경우 데이터의 활용이 측정 빈도가 낮은 항목을 기준으로 결정되는 경우가 많아 측정자료의 활용성을 제한하는 요인이 된다. 따라서 LSTM 등 고도화된 모형의 활용성 및 정 확도를 높이기 위해서는 실시간 측정 센서 등을 활용 한 측정 빈도 및 지점의 확대와 함께 측정 시기를 표 준화 하는 등 최근 빠르게 발전하는 ICT(information and communication technologies) 기반의 물환경관리 기술 의 활용성을 높일 수 있는 양질의 데이터를 확보하기 위 한 지속적인 노력과 관련분야의 연구가 필요하다.

    4. 결 론

    다양한 관측 빈도의 자료를 이용하여 LSTM 모형을 구축하고 하천 탁수 발생에 대한 예측을 수행한 결과 2 hour~2 days 관측 빈도 데이터에 대해 0.16~0.82 범 위의 RSR값을 얻어 LSTM 모형의 안정적인 탁도 예 측 성능을 확인할 수 있었다. 또한 데이터의 측정 빈 도가 높을수록 모형의 예측 성능이 향상되는 것을 확 인할 수 있었다.

    고탁수(>30 NTU) 발생 예측에 대한 LSTM 모형이 정밀도, 재현율, F1-score 및 정확도를 평가한 결과 2 hour 관측 빈도에서는 각각 0.98, 0.99, 0.98 및 0.99의 높은 예측 성능을 보였으며 2 days의 낮은 관측 빈도 에서도 지표 값이 0.79~0.94의 범위로 관찰되어 LSTM 의 안정적 성능을 확인할 수 있었다.

    LSTM은 가장 최근에 개발된 딥러닝 알고리즘중의 하나로 시계열 데이터 분석 등에 우수한 성능을 보여 다양한 분야에서 적용이 빠르게 늘고 있으나, 수질관 리 실무에 직접적인 적용은 아직까지 초기단계로 볼 수 있어 향후 수질분야의 특성에 맞는 모형 구축을 위한 노력이 필요한 실정이다.

    본 연구를 통해 LSTM 모형의 수질관리 실무 도입 가능성을 확인 할 수 있었다. 향후 수질분야의 특성을 고려한 모형의 개발로 모형의 실무 도입가능성을 높 이고, 데이터에 기반한 합리적 최적 수질관리 체계 구 축을 위한 지속적인 연구가 필요할 것으로 생각된다.

    Figure

    JKSWW-34-1-35_F1.gif

    A simple schematic of LSTM cell structure.

    JKSWW-34-1-35_F2.gif

    Schematic of LSTM model.

    JKSWW-34-1-35_F3.gif

    Data for training and prediction of LSTM.

    JKSWW-34-1-35_F4.gif

    Result of model simulation with various observation intervals. The blue line represents observed turbidity and red dotted line represents predicted turbidity between Oct. 2011 and Sept. 2013 at the Guerneville.

    JKSWW-34-1-35_F5.gif

    LSTM model sensitivity in various time step.

    JKSWW-34-1-35_F6.gif

    Turbidity and discharge in Jan 2016 and Feb 2019(a) and hysteresis analysis(b and c) at the Guerneville.

    Table

    Model input parameter for optimization

    Number of data for model simulation

    Model simulation results in various observation intervals

    Model simulation results for high turbidity prediction

    References

    1. Alexandrov, Y. , Laronne, J.B. , and Reid, I. (2007). Intra-event and interseasonal behaviour of suspended sediment in flash floods of the semiarid Northern Negev, Israel, Geomorphol., 85(1-2), 85-91.
    2. Asrafuzzaman, M. , Fakhruddin, A. , and Hossain, M.A. (2011). Reduction of turbidity of water using locally available natural coagulants, ISRN microbiol., 1-6.
    3. Bennett, N.D. , Croke, B.F. , Guariso, G. , Guillaume, J.H. , Hamilton, S.H. , Jakeman, A.J. , and Perrin, C. (2013). Characterising performance of environmental models, Environ. Modell. Softw., 40, 1-20.
    4. Burnham, K. , and Anderson, D. (2002). Model Selection and Multi-model Inference. 2nd Ed., Springer, New York.
    5. Cho, K. , van Merrienboer, B. , Gulcehre, C. , Bahdanau, D. , Bougares, F. , Schwenk, H. , and Bengio, Y. (2014). Learning phrase representations using RNN Encoder-Decoder for statistical machine translation, arXiv, 1406. 1078.
    6. Chung, J. , Gulcehre, C. , Cho, K. , and Bengio, Y. (2014). Empirical evaluation of gated recurrent neural networks on sequence modeling, arXiv, 1412. 3555.
    7. Droppo, I.G. , Liss, S.N. , Williams, D. , Nelson, T. , Jaskot, C. , and Trapp, B. (2009). Dynamic existence of waterborne pathogens within river sediment compartments. Implications for water quality regulatory affairs, Environ. Sci. Technol., 43(6), 1737-1743.
    8. Gray, A. , Warrick, J. , Pasternack, G. , Watson, E. , and Goñi, M. (2014). Suspended sediment behavior in a coastal dry-summer subtropical catchment: effects of hydrologic preconditions, Geomorphol., 214, 485-501.
    9. Greff, K. , Srivastava, R.K. , Koutník, J. , Steunebrink, B.R. , and Schmidhuber, J. (2016). LSTM: A search space odyssey, IEEE Trans. Neural Netw., 28(10), 2222-2232.
    10. Hicks, D.M. , Gomez, B. , and Trustrum, N.A. (2000). Erosion thresholds and suspended sediment yields, Waipaoa River basin, New Zealand, Water Resour. Res., 36(4), 1129-1142.
    11. Hochreiter, S. , and Schmidhuber, J. (1997). Long short-term memory, Neural Comput., 9(8), 1735-1780.
    12. Hu, Z. , Zhang, Y. , Zhao, Y. , Xie, M. , Zhong, J. , Tu, Z. , and Liu, J. (2019). A water quality prediction method based on the deep LSTM network considering correlation in smart mariculture, Sensors, 19(6), 1420.
    13. Huang, J. , Gao, J. , and Zhang, Y. (2015). Combination of artificial neural network and clustering techniques for predicting phytoplankton biomass of Lake Poyang, China, Limnol., 16(3), 179-191.
    14. LeCun, Y. , Bengio, Y. , and Hinton, G. (2015). Deep learning, Nat., 521 (7553), 436-444.
    15. Lee, S. , and Lee, D. (2018). Improved prediction of harmful algal blooms in four Major South Korea’s Rivers using deep learning models, Int. J. Environ. Res. Public Health, 15(7), 1322.
    16. Lin, W. , Sung, S. , Chen, L. , Chung, H. , Wang, C. , Wu, R. , and Peng, X. (2004). Treating high-turbidity water using full-scale floc blanket clarifiers, J. Environ. Eng., 130(12), 1481-1487.
    17. McCulloch, W.S. , and Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity, Bull. Math. Biophys., 5(4), 115-133.
    18. MOE. (2019). Water environment monitoring network installation and operation plan.
    19. Moriasi, D.N. , Arnold, J.G. , Van Liew, M.W. , Bingner, R.L. , Harmel, R.D. , and Veith, T.L. (2007). Model evaluation guidelines for systematic quantification of accuracy in watershed simulations, T. ASABE, 50(3), 885-900.
    20. Nair, V. , and Hinton, G. E. (2010). “Rectified linear units improve restricted boltzmann machines”, Proceedings of the 27th international conference on machine learning, 21-24 June, Haifa, Israel.
    21. Nistor, C.J. , and Church, M. (2005). Suspended sediment transport regime in a debris-flow gully on Vancouver Island, British Columbia, Hydrol. Process., 19, 861–885.
    22. Olah, C. (2015). Understanding LSTM Networks, GITHUB blog, Retrieved from http://colah.github.io/posts/2015-08-Understanding-LSTMs/.
    23. Park, H.S. , Chung, S.W. , and Choung, S.A. (2017a). Analyzing the effect of an extreme turbidity flow event on the dam reservoirs in North Han River basin, J. Korean Soc. Water Environ., 33(3), 282-290.
    24. Park, J. , and Hunt, J.R. (2017b). Coupling fine particle and bedload transport in gravel-bedded streams, J. Hydrol., 552, 532-543.
    25. Park, J. , and Hunt, J.R. (2018). Modeling fine particle dynamics in gravel-bedded streams: Storage and re-suspension of fine particles, Sci. Total. Environ., 634, 1042-1053.
    26. Rosenblatt, F. (1958). The perceptron: a probabilistic model for information storage and organization in the brain, Psychol. Rev., 65(6), 386.
    27. Seo, S.D. , Lee, J.Y. , and Ha, S.R. (2011). Effect of hydroelectric power plant discharge on the turbidity distribution in Dae-Cheong dam reservoir, Environ. Impact Assess., 20(2), 225-232.
    28. Singer, M.B. , Aalto, R. , James, L.A. , Kilham, N.E. , Higson, J.L. , and Ghoshal, S. (2013). Enduring legacy of a toxic fan via episodic redistribution of California gold mining debris, Proc. Natl. Acad. Sci., 110(46), 18436-18441.
    29. Srivastava, N. , Hinton, G. , Krizhevsky, A. , Sutskever, I. , and Salakhutdinov, R. (2014). Dropout: a simple way to prevent neural networks from overfitting, J. Mach. Learn. Res., 15(1), 1929-1958.
    30. Suttle, K.B. , Power, M.E. , Levine, J.M. , and McNeely, C. (2004). How fine sediment in riverbeds impairs growth and survival of juvenile salmonids, Ecol. Appl., 14(4), 969-974.
    31. Walling, D. (1974). Suspended sediment and solid yields from a small catchment prior to urbanization, Fluv. Process. Instrum. Watersheds, 6, 169-192.
    32. Walling, D. (1977). Assessing the accuracy of suspended sediment rating curves for a small basin, Water Resour. Res., 13(3), 531-538.
    33. Warrick, J. , Madej, M. , Goñi, M. , and Wheatcroft, R. (2013). Trends in the suspended-sediment yields of coastal rivers of northern California, J. Hydrol., 489, 1955-2010
    34. Warrick, J.A. (2015). Trend analyses with river sediment rating curves, Hydrol. Process., 29(6), 936-949.
    35. Williams, G.P. (1989). Sediment concentration versus water discharge during single hydrologic events in rivers, J. Hydrol., 111, 89-106.
    36. Wu, N. , Huang, J. , Schmalz, B. , and Fohrer, N. (2014). Modeling daily chlorophyll a dynamics in a German lowland river using artificial neural networks and multiple linear regression approaches, Limnol., 15(1), 47-56.
    37. Zhou, J. , Wang, Y. , Xiao, F. , Wang, Y. , and Sun, L. (2018). Water quality prediction method based on IGRA and LSTM, Water, 10(9), 1148.