Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 1225-7672(Print)
ISSN : 2287-822X(Online)
Journal of the Korean Society of Water and Wastewater Vol.36 No.1 pp.9-21
DOI : https://doi.org/10.11001/jksww.2022.36.1.9

Application of machine learning in water industry: A review

Wonki O1, Haenam Jang2*, Seung Gu Shin2*
1Digital Innovation Center, Korea Testing Laboratory
2Department of Energy Engineering, Future Convergence Technology Research Institute, Gyeongsang National University
* Corresponding author: Haenam Jang (E-mail: jhn@gnu.ac.kr); Seung Gu Shin (E-mail: sgshin@gnu.ac.kr)

07/01/2022 04/02/2022 07/02/2022

Abstract


With the current trend of the fourth industrial revolution, machine learning technique is increasingly adopted in various water industry fields. In this review paper, recent studies using machine learning to predict flood, water consumption, water quality, and water treatment processes are summarized. In the typical water purification processes such as flocculation, disinfection, and filtration, machine learning was able to present high-accuracy prediction results for complex non-linear mechanisms. Hybrid machine learning methods, combining multiple algorithms, generally outperformed machine learning results using only one algorithm. A more microscopic machine learning approach can provide valuable information to the operators in the water industry.



물 산업 분야에서의 머신러닝 적용 사례 연구

오 원기1, 장 해남2*, 신 승구2*
1한국산업기술시험원 디지털혁신센터
2경상국립대학교 에너지공학과

초록


    1. 서 론

    4차 산업혁명의 시대를 맞이하여 우리나라의 물 산 업 분야에서 다양한 시도와 도전이 진행되고 있다. 물 관리시스템 분야의 경우 효율성이 낮은 시설 가동률, 부식이나 파손 등의 누수로 물 생산과 수송에 드는 에너지 과다 등 비효율적으로 운영되고 있는 현재의 시스템을 수자원 관리, 물 공급, 물 사용의 정보화, 지 능화를 통한 스마트워터 그리드(Smart Water Grid)로 변화시키고자 노력하고 있으며(Lee et al., 2015), 상수 시스템에서는 인공지능(Artificial Intelligence, AI)과 빅 데이터(Big Data) 등을 기반으로 하는 스마트 정수장 이 구축되고, 하수시스템에서는 노후화된 공공하수처 리시설에 대한 지능화사업이 진행되고 있다. 이러한 물 산업 전반의 변화는 데이터 기반 의사결정을 통해 보다 즉각적인 판단과 대응에 대한 시대적 요구에 따 르는 과정이라 할 수 있다.

    우리는 다양한 데이터(Data)와 컴퓨터의 도움으로 보다 즉각적인 판단과 대응이 가능하게 되었다. 데이 터 분석(Data Analysis)은 주어진 데이터를 이용하여 의사결정에 필요한 정보를 추출하는 일련의 프로세스 를 말하며, 데이터마이닝(Data Mining)은 데이터에서 특정한 패턴을 찾아내는 분석 행위를 뜻한다 (Hand, 2007). 머신러닝(Machine Learning, 기계학습)은 데이 터로부터 학습(Learning)하는 프로그램을 구축하는 컴 퓨터 프로그래밍 방식이다. 데이터를 학습 데이터 (Training Set)와 평가 데이터(Testing Set)로 나누고, 학 습데이터로 주어진 과제를 수행하는 알고리즘을 만들 어, 평가데이터로 성과를 평가하여 결과가 양호한 알 고리즘으로 선택하는 과정을 반복한다. 이때 학습은 알고리즘의 파라미터 값을 조정하면서 출력값과 비교 해 가장 적합한 알고리즘을 선택하는 과정으로 머신 러닝의 핵심이라 할 수 있다 (Géron, 2019).

    Sun과 Scanlon은 물 산업 관련 문제의 해결 방법이 실험에 기초한 전통적인 접근방법에서 근본적인 변화 가 발생할 것이라 말하고 있다 (Sun and Scanlon, 2019). 머신러닝은 확인된 구체적인 데이터로부터 파 악 가능한 규칙을 생성하고, 유사한 상황의 과제를 해 결하는 방식을 적용한다. 이는 전문지식을 바탕으로 일반화된 모델을 구현하고, 세부 인자를 반영하여 문 제를 해결하는 전통적인 프로그램 구축 방식과 다른 접근법이 적용됨을 뜻한다. 전통적인 접근법이 연역 적인 방법이라면 머신러닝은 귀납적인 방법이라 할 수 있으며, 해당 분야의 전문적인 지식이 없어도 컴퓨 터의 빠른 연산 능력을 활용해 데이터를 분석하여 데 이터 기반 의사결정이 가능하게 된 것이다 (Kang et al., 2020).

    기존의 전통적인 관점의 물관리체계에서 머신러닝을 적용하기에는 몇 가지 장벽이 존재한다. ICT(Information and Communication Technology) 인프라 체계, 데이터 의 복잡성, 컴퓨터 기반 기술에 대한 이해 부족이 대 표적인 장벽이라 할 수 있다 (Sun and Scanlon, 2019). 전국 하폐수 방류수의 96% 이상의 수질 데이터를 수 질 TMS로 실시간 전송하고(Cho et al., 2020), 데이터 취득이 가능한 상하수시스템을 구비한 우리나라는 다 른 나라에 비해 높은 수준의 ICT 기반 인프라 체계와 인터넷망을 보유하고 있다. 하지만 각 프로세스에서 발생한 데이터를 모니터링 및 저장 용도로만 활용하 고 있으며, 데이터 분석을 통한 문제의 이해, 진단, 예 측 등의 단계로 나아가지 못하고 있다. 아직 데이터와 컴퓨터 제반 기술에 대한 이해에 대한 장벽이 남아 있다.

    4차 산업혁명으로 IoT(Internet of Things) 기반 수질 처리기술 적용을 위한 기술수준 향상이 필요한 시점 이다 (Gu et al., 2019). 새로운 형태의 정보 프로세스, 저장, 분석 및 인공지능, 데이터를 통한 자동학습으로 컴퓨터 알고리즘을 활용하는 인공지능에 대한 이해를 바탕으로 수질 관리 분야에서 빅데이터를 통한 데이 터 기반 분석을 통해 새로운 기회가 만들어질 것이다 (Sun and Scanlon, 2019). 본 연구에서는 국내외 물 산 업 분야에서 시도된 다양한 머신러닝 기술의 연구 동 향을 홍수 예측, 물 사용량 예측, 수질 예측 및 수처리 공정으로 구분하여 살펴보았다. 물 산업 분야 적용되 고 있는 머신러닝 기법을 이해하고, IoT 기반의 수처 리 기술 개발에 새로운 통찰력을 제시하고자 한다.

    2. 자료 수집 방법

    본 연구에서는 국내외 물 산업분야의 머신러닝 연구 사례를 홍수 예측, 물 사용량 예측, 수질 예측 및 수처리 공정으로 구분하여 정리하였으며, 효과적인 자료 검색 을 위해 LabVIEW 기반 웹스크래핑 프로그램을 개발해 활용하였다 (Fig. 3). Google Scholar의 논문 검색 서비스 에 “Machine Learning”와 함께 “Flood Prediction”, “Water metering prediction”, “Water quality prediction”을 주제어 로 각각 검색하였다. 검색 과정 중에 스크래핑을 방지하 는 302 Error가 발생하였지만 검색 분야의 연구동향을 파악하는 데는 큰 영향이 없을 것으로 판단하였다. Google Scholar에서 검색된 내용은 프로그램을 통해 제 목, 저자, 저널명, 발행년도, 초록 등 자동으로 구분되어 클러스터의 형태로 저장되고, 해당 결과를 연도별 연구 동향 파악 등 시각화에 활용하였다.

    3. 머신러닝 개요 및 주요 방법론

    3.1 머신러닝 개요

    머신러닝에는 데이터에 포함된 정보의 수준으로 크 게 3가지로 구분할 수 있다. 머신러닝에 활용할 데이 터에 목적 변수가 포함되어 정답에 대한 오차를 줄이 는 방식으로 학습을 수행하는 지도 학습(Supervised Learning), 활용할 데이터에 목적 변수가 포함되지 않 고 데이터 간의 상호관계를 파악하여 구분하는 (Clustering) 비지도 학습(Unsupervised Learning), 주어 진 환경 또는 상황에서 데이터를 취득하고 결과에 대 한 보수나 페널티를 관리하는 방식으로 학습하는 강 화 학습(Reinforced Learning)이 있다 (Géron, 2019). 이 중 강화 학습은 컴퓨터 게임, 자율 주행 등에 활용되 고 있으며, 향후 기술 개발 및 수처리시설의 자동화에 활용도가 높을 것으로 예상되는 분야라 할 수 있으나, 현재까지 수처리 분야에 적용된 연구 사례가 부족하 여 본 연구범위에서 제외하였다. 지도 학습과 비지도 학습에 대한 일반적인 분류를 사용 목적에 따라 구분 하여 표시하였다 (Table 2).

    지도 학습은 데이터에 포함된 목적 변수가 연속 변수인 회귀분석(Regression)과 이산 변수인 분류(Categorization)로 구분할 수 있다. 회귀분석에는 데이터의 입력 변수와 목적 변수의 관계에 대해 선형적, 비선형적 가정을 바탕 으로 함수를 설정하고, 함수의 파라미터 값을 조정해 오차제곱합을 최소화하는 방식으로 학습시킨다. 입력 변수와 목적 변수의 선형적 관계를 고려하는 선형회귀 (Linear Regression)를 적용한다. 이때 절대값이 큰 변수 로 분산이 커지는 것을 방지하기 위해 변수를 정규화하 거나(릿지(Ridge) 및 라쏘(Lasso) 회귀), PCA (Principal Component Analysis, 주성분분석)으로 변수의 차원을 축 소해 함수에 적용하기도 한다. 입력 변수와 목적 변수 사이 비선형성 관계가 존재하고 목적 변수에 부가적 (Additive)인 영향을 미치는 경우 GAM(Generalized Additive Model), 서포팅벡터 회귀분석(Supporting Vector Regression) 을 적용한다. 또한 입력 변수와 목적 변수의 다양한 관 계가 있을 수 있다는 가정을 허용하는 의사결정나무 활 용 모델, KNN(K-Nearest Neighbors) 회귀분석, 인공신경 망(Artificial Neural Network, ANN) 등이 있다. 이러한 복잡하고 다양한 데이터의 비선형적인 관계를 해석해 낼 수 있다는 것은 머신러닝의 최대 장점이다 (Kang et al., 2017).

    목적 변수가 이산형인 분류 분석은 목적 변수의 조 건부 확률을 기초로 추정하는 방법과 직접 추정하는 방법이 있다. 회귀분석에 활용된 방법을 적용해 목적 변수의 조건부 확률을 예측하고 이를 0과 1 사이의 값을 갖도록 변형해 임계치를 기준으로 목적 변수를 분류할 수 있다. 조건부 확률을 직접 추정하는 방법으 로 로지스틱 회귀분석(Logistic Regression), 나이브 베 이즈분류(Naïve Bayes Classifier), ANN 등이 있다. 또 한 목적 변수를 직접 추정하는 방법은 데이터를 가사 의 공간에 배치하고 거리와 같은 물리적 개념을 적용 해 분리해 내는 Supporting Vector, Decision Tree, K-nearest neighbor 등이 있다 (Chen et al., 2020;Cortes and Vapnik, 1995). 비지도 학습은 목적 변수가 포함되 지 않은 데이터를 활용해 데이터 간의 상호관계를 파 악한다. 데이터의 변수간 유사성으로 군집을 도출 (Clustering)하는 Hierarchical Clustering, k-Means Clustering, EM(Expectation-Maximization) Algorithm이 있으며, 데이터의 변수간 규칙성을 파악하는 연관규 칙학습(Association Rule Learning)으로는 Aprior, Eclat, FP-growth 등이 있다.

    3.2 머신러닝 알고리즘

    인공신경망은 정보가 들어오는 입력층, 뉴런에 미 치는 영향의 크기를 조절하는 연결 강도, 입력과 연결 강도(가중치)를 결합하는 결합 함수, 그리고 결합 함 수로부터 나온 결과를 변환하여 출력값을 결정하는 활성 함수로 구성된다. MLP(Multi-layered Perceptron) 은 입력층, 은닉층 및 출력층의 각 층에 위치한 다수의 퍼셉트론(Perceptron)이 뉴런의 역할을 담당한다. 이때 같은 층의 퍼셉트론은 서로 연결되지 않고, 입력에서 은닉층을 거쳐 출력으로 연결된 피드포워드 (Feedforward) 구조와 같은 층 내에서 연결이 허용된 순환(Recurrent) 구조로 구분할 수 있다 (Hong, 2012).

    피드포워드 구조에서 시간지연 기능으로 비교적 짧 은 기간 동안 일시적인 학습효과를 보이는 TNN, 군집 화방법으로 은닉층을 자체 조직하는 RBFNN 등이 있 으며, ELM은 MLP의 은닉층의 구조적 복잡성을 단순 화한 사각형 구조로 역행렬계산방식을 도입해 빠른 학습이 가능하다. MNN은 예측정확성을 높일 수 있도 록 입력값과 중심값의 유사성이 높은 신경망 네트워 크를 선택한다. 계절적 정상성의 특성을 보이는 경우 에는 자기회귀 및 이동평균을 활용하는 ARIMA를 적 용할 수 있으며, 정상성을 확인하기 어려운 시계열 분 석에는 웨이블릿(Wavelet) 함수를 활성화함수로 활용 하는 WNN을 사용할 수 있다. 이러한 데이터 분석 방 법은 목적 변수를 예측하는 동시에 데이터를 분석하 면서 새로운 통찰력을 얻을 수 있다 (Shoaib et al., 2014).

    순환 신경망은 은닉층의 데이터를 출력층으로 전하 면서 다음 계산을 위해 은닉층의 입력 노드로 전달하 여 은닉층의 노드는 이전의 정보를 저장하는 메모리 셀(Memory Cell) 역할을 담당할 수 있다. 순환신경망 에는 정보의 유용성을 구분하여 메모리셀 상태를 반 영하는 프로세스를 은닉층에 추가한 LSTM, 은닉층의 일부에 메모리셀을 추가해 민감도에 강한 TLRN, 출 력값이 입력 신호로 들어가 오랜 시간의 관계를 설명 하는 NARX, 내부 상태를 저장하는 Context층을 추가 하여 기준 퍼셉트론의 값을 넘어서면 작동하는 Elman NN 등이 있다 (Schmidhuber, 2015).

    데이터를 다차원의 공간에 데이터를 배치하고, 최 대 마진 개념을 적용해 데이터를 분류하는 SVM 커널 (Linear, Polynomial, Radial Basis Function) 개념을 적용 하여 연속변수에 대한 예측값을 회귀식으로 예측할 수 있다. 이를 SVR이라 하며 커널함수로 Radial Basis Function 커널을 적용한 모델이 LS-SVM이다. SVR은 ANN의 경사하강법의 적용시 발생하는 지역해(Local Minimum)의 문제를 피할 수 있지만, 훈련시간이 길어 지는 단점이 있다.

    의사결정나무(Decision Tree)는 나무에서 나뭇가지 가 분기하는 형태로 데이터를 분류하는 머신러닝 기 법으로 간단하게 빠르게 데이터를 구분하고, 데이터 의 분류된 형태로 데이터에 대한 설명이 가능한 모델 이다. 연속 변수를 목적 변수로 하는 대상으로 의사결 정나무를 회귀나무(Regression Tree)라 하며, 여러 모 델로 학습시킨 후 결과를 통합하는 앙상블 기법으로 성능을 향상시킬 수 있다. 앙상블 기법에는 Bagging, Boosting, Random Forest 등이 있다.

    3.3 하이브리드 및 앙상블 방법론

    지도 학습, 비지도 학습 및 강화학습으로 구분되는 단순 머신러닝 모델은 각 모델의 정확성, 안정성, 계 산의 효율성에 대한 단점을 극복하기 위해 복수의 알 고리즘이 결합된 하이브리드 및 앙상블 방법론이 지 속적으로 개발되고 있다. 이미 ANFIS와 WNN은 널리 활용되고 있는 모델로 단순 머신러닝의 한 범주로 정 의되기도 한다. 하이브리드 기법은 단순 머신러닝의 단점을 극복할 수 있도록 서로 다른 머신러닝 기법을 소프트 컴퓨팅, 최적화 기법 등을 통해 결합하는 형태 로 모델의 성능을 개선한다. 한 모델이 다른 머신러닝 모델의 구성요소로 도입되기도 하며, 특수한 기능 담 당하는 모델과 결합되거나, 데이터를 전처리하는 모 델과 함께 결합하는 형태를 취한다. 앙상블 기법은 적절한 표본추출법으로 데이터에서 여러 개의 훈련용 데이터 집합을 만들어 각각의 데이터집합에서 하나의 기법을 적용하는 방법이다. Bagging이나 Boosting과 같은 그룹화 기술로 전략적인 다양한 단순 머신러닝 기법을 생성해 최적 모델을 선택한다.

    4. 물 산업 기반 머신러닝 연구 동향

    물 산업에서 머신러닝 활용에 관한 연구는 2017년 이후 급격히 증가하고 있다. 홍수 예측, 물 사용량 예 측, 수질 예측, 수처리 공정 모든 분야에서 머신러닝 에 대한 연구가 활발히 진행되고 있으며, 특히 수처리 공정 분야의 경우 176건(2021년 11월 20일 기준)으로 전년대비 크게 증가하였다 (Fig. 3). 홍수, 물 사용량, 수질 예측은 과거의 데이터로 미래의 상황을 예측하 여 사고예방 및 대응에 목적을 둔 연구라 하면, 수처 리 공정 분야에 머신러닝을 적용하여 약품 및 전력 등 사업장 운영의 효율을 향상시키기 위한 목적으로 보다 현실적이고 직관적인 연구 분야라 할 수 있다. 2021년 현재 물 산업 분야에서 머신러닝은 단순 예측 의 단계를 넘어 공정 제어와 자동화 등 수처리의 공 정에 직접 활용하는 수준으로 접어들고 있다.

    4.1 홍수 예측 분야

    ANN은 다량의 데이터를 효과적으로 처리할 수 있으 며 결측치가 포함된 경우에도 비교적 안정적인 처리가 가능하여 홍수 예측 분야에 다양한 ANN 방법론이 적용 되었다. 160개 강우량계의 시간당 강우량과 함께 위성 데이터 세트를 활용한 단기 홍수 예측 모델이 제시되었 으며(Schiffer and Rossow, 1983), 3개의 태풍에 대한 기 상 및 수리학적 변수를 추가하여 5시간 지속 시간에 대 한 예측 정확성을 향상시켰다 (Kim et al., 2016). ELM은 FFNN의 복잡한 구조를 단순화하여 효율적인 계산이 가 능하였으며 SVR 보다 높은 정확성을 나타냈다 (Ghose, 2018). 비선형 자기회귀모델을 구성하는 NARX는 10~60분 앞선 단계별 홍수예측으로 홍수 통제에 활용할 수 있음을 보였다 (Chang et al., 2014).

    대표적인 분류 모델인 DT의 경우 RF를 활용해 홍 수 피해의 기여 인자를 확인하고 강 유역의 지역을 구분해 홍수위험지표를 제시하였다 (Wang et al., 2015). 특히 변수의 다양한 조합으로 RT를 만들고 최 선의 모델을 선정하는 앙상블 모델인 랜덤포레스트 (Random Forest)는 장시간 지속되는 강우에 대해 높은 정확성을 나타냈다 (Wang et al., 2015). 짧은 시간에 많은 비가 내리는 돌발 홍수에 대해서는 SVR의 예측 성능이 좋았지만, 강우의 지속시간이 길어질수록 SVR의 정확성은 낮아졌다.

    일반적으로 단순 머신러닝은 강우에 대한 예측 기 간이 길어질수록 예측 성능이 낮아졌다. 자기회귀모 델, 웨이블릿 변환, 웨이블릿-자기회귀모델 등을 활용 해 데이터에서 다양한 패턴을 분리하고, 분리된 데이 터를 이용해 데이터를 해석하는 모델을 결합한 하이 브리드 모델은 데이터에 대한 새로운 해석이 가능하 여 홍수의 장기 예측 성능을 향상시킬 수 있다. WWN 은 입력데이터를 웨이블릿 변환으로 분리하고 분리된 데이터로 새로운 해석 능력을 얻게 된다 (Shoaib et al., 2014). 예측 기간이 더 길어지는 경우 데이터의 계 절적 정상성을 확인하는 WARM이나 WMRM의 성능 이 우수하였고, 월별 하천흐름의 예측은 단순 모델의 0.63에서 0.89로 증가하였다 (Badrzadeh et al., 2016). 앙상블 기법은 입력 데이터를 이용해 독립적인 여러 예측모델을 생성하고, 평가나 가중치를 적용해 우수 모델을 선택한다. 앙상블 기법을 적용한 EPS(Ensemble Prediction System)는 홍수 예측에 대한 모델의 일반화 능력과 정확성을 향상시킬 수 있다 (Doycheva et al., 2017).

    4.2 물 사용량 분야

    상수도 시스템에서 머신러닝은 물 사용량에 대한 피크 시간대를 확인하여 물 공급망의 저수압 문제에 대응하고, 실시간 누수를 감지하기 위한 목적으로 활 용 가능하다. 특히, 기존의 물 관리 시스템에 IoT 기술 이 접목된 스마트 유량계를 활용해 수자원 관리, 물 공급 및 물 사용량을 정보화하는 스마트그리드(Smart Grid)의 연구와 함께 스마트계량기에서 얻은 정보를 기반으로 데이터를 분석하고 네트워크의 비정상적인 패턴을 실시간 확인에 머신러닝이 적용될 수 있다 (Martyusheva, 2014).

    스마트계량기의 데이터를 활용하여 물 수요량을 예 측하는 ANN 방법이 제시되어왔다 (Bennett et al., 2013). 일평균 물 수요량, 최고 온도, 총 강수량, 순간 강우량 데이터를 활용해 캐나다 몬트리올시의 단기 물 수요를 예측하면서 MLR, ANN, SVR, ELM 모델을 비교하여, 정확도 측면에서 ELM 모델이 다른 방법보다 우수한 결과를 제시하였다 (Mouatadid and Adamowski, 2017). SVR은 시간별 계량 데이터를 월 단위로 클러 스터링하여 물 수요를 예측에 활용되기도 하였다 (Candelieri, 2017). 물 사용량 예측에 시간에 따른 패턴 을 반영하는 ARIMA 모델이 활용될 수 있으며, ARIMA 모델의 한 종류로 계절적 패턴을 활용하는 SARIMA 모델은 ANN보다 더 정확한 물 소비량 예측 값을 제시할 수 있었다 (Sebri, 2013). ANN과 ELM으 로 예측한 물 수요량은 단순 시계열 분석을 IMF로 구 분하는 VMD와 하이브리드 형태로 적용하였을 때 모 델의 성능이 크게 향상하였으며(Seo et al., 2018), 시계 열 분석과 함께 시공간 가우시안 모델(Spatiotemporal Gaussian Process Models)을 적용하고, 다양한 머신러 닝 알고리즘을 적용해 가구당 월별 물 수요를 예측하 였다. 해당 결과에서는 RF 예측 성능은 RMSE값이 1996.65로 가장 우수하였다 (Duerr et al., 2018).

    국내에서 시범사업으로 도입중인 스마트워터 그리 드에서 실시간으로 얻은 물 소비량을 활용해 24시간 이후의 물 수요량을 예측하는 연구에서는 한 시간 간 격으로 전송되는 물 소비량 데이터를 사용목적과 파 이프 직경으로 구분하고, 하이브리드 모델인 ARIMA, RBF-ANN, QMMP+및 LSTM로 24 시간 이후의 물 수 요를 예측하였다 (Koo et al., 2021). 그 결과 ARIMA의 정확성이 다른 모델에 비해 가장 높았지만, 일일 물 소비량을 과소평가하여 최대 물 소비량을 추정하는 데는 한계를 보였다.

    물 수요의 예측 정확성 향상을 위해서는 정확한 물 사용량 정보와 함께 사용자의 물 사용 패턴이 반영되어 야 한다 (Makki et al., 2013). ANN에 기초한 최종 사용량 예측모델 연구에서는 화장실, 수도꼭지, 샤워기, 세탁기 등 사용 용도에 따라 구분된 예측 모델을 구축하고, 단 기 물 수요 예측에서 가정내 물 수요 주요 요인을 샤워 용수, 세탁, 수도꼭지, 화장실의 순으로 제시하였다 (Bennett et al., 2013). 물 사용 패턴은 예측 대상 지역의 기후, 생활패턴, 가족구성원, 생활수준 등 다양한 차원 으로 구분하여 해석할 수 있다. 따라서 스마트 계량기의 정확한 데이터와 다양한 군집화기술로 물 사용자에 대 한 특성을 반영시킨 하이브리드 모델은 물 수요 예측의 정확성을 크게 향상시킬 수 있을 것이다.

    4.3 수질 예측

    수질 예측에서 머신러닝은 DO, pH, 전기전도도, 탁 도, 수온과 같이 센서를 활용하여 비교적 쉽고 안전하 게 데이터를 취할 수 있는 항목을 중심으로 하천수 수자원 관리를 위한 다양한 연구가 수행되었다 (Wu et al., 2014;Yu et al., 2016). 호소수의 DO 농도 예측 에는 ANN이 NLR 보다 더 효과적이었으며(Akkoyunlu and Akiner, 2010), 발전소의 냉각수 유입에 따른 강의 수온 변화를 MLP-EKF(Extended Kalman Filtering)로 예측하고(Hong, 2012), 호소수의 표면에서 3 m까지의 깊이에 따른 3차원 수온 변화 예측 연구에 ANN이 적 용되었다 (Liu and Chen, 2012). 탁도 조기경보 시스템 에 BPANN을 적용한 연구에서는 ANOVA를 활용해 강수량이 탁도 예측의 주요 변수로 확인되었다 (Yang et al., 2014).

    머신러닝은 시간과 비용이 소요되는 특정 항목의 농도 예측에 활용될 수 있다. 유기물의 생물학적 분해 를 위해 5일간 기다려야 하는 BOD 농도는 COD, TN, TP, SS 측정값을 활용해 ANN으로 예측하고(Dogan et al., 2008), 폐수처리시설에서 유입수의 COD, pH, SS, DO 및 온도로 유출수의 BOD를 예측하였다 (Qiao et al., 2016). BOD 농도에 가장 중요한 변수는 COD였다. 또한 현미경으로 조류를 구분하는 과정에 머신러닝을 적용하여 정확도를 향상시키면서, 시간적 비용적으로 효율적인 분석방법을 제시하였으며(Deglint et al., 2019). 클로로필(Chlorophyll, 엽록소) A, 탁도, 수온 데 이터를 이용해 악취 유발 조류로 기인하는 악취 예측 에 머신러닝이 활용되었다 (Kehoe et al., 2015). 수질 측정 작업없이 USGS에 제시된 오픈 소스데이터를 다 양한 ELM 모델에 적용하여 DO의 농도를 예측하기도 하였다 (Heddam, 2016).

    SS, pH 및 수온으로 COD 농도를 예측하는 k-means-MLP 의 하이브리드 모델을 개발하여 ANN, ANFIS 및 클러 스터링 기법의 결과와 비교할 때 하이브리드 모델의 성능이 더 우수하였다 (Ay and Kisi, 2014). Chen 등은 중국의 주요 하천과 호수의 데이터를 기반으로 중국 의 수질기준을 예측하였다. 3종류의 앙상블 방법과 7 종류의 단순 머신러닝을 비교한 결과, 앙상블 방법이 98-99%의 정확도로서 단순 머신러닝보다 높은 예측 성능을 보였으며, 이에 따라 중국 수질기준에 대한 주 요 수질 항목 세트를 DO, COD, NH3-N 또는 NH3-N, COD로 선정하였다 (Chen et al., 2020).

    수질분석에서 머신러닝은 수중의 복잡한 화합물질 들 간의 관계를 설명하고 생물에 대한 독성학적 해석 이 필요한 위해성 평가에 활용할 수 있다 (Zheng et al., 2013). 스캔 모드로 분석한 GC-MS의 모든 피크에 대하여 돌연변이성에 대한 연관성을 SVM으로 분류하 여 돌연변이와 관련된 14개의 성분을 구분하였다. 중 국 54개 정수장에 대한 니트로사아민과 발암 위험을 분석하면서, PCA분석을 통해 소독부산물인 DBP(Disinfection By-products)의 발생 기작을 설명하였 고, NOM(Natural Organic Matter, 천연유기물)과 상관 관계를 설명하였다 (Zheng et al., 2013). 또한 QSAR 모델을 활용해 DBP의 가수분해율을 예측하고 MLR과 ANN으로 비교하였다 (Wang et al., 2018).

    4.4 정수처리 공정에서의 머신러닝

    대표적인 정수처리 프로세스인 응집, 소독, 여과 공 정에 적용된 머신러닝 연구를 다음과 같이 정리하였다.

    4.4.1 응집

    응집공정에서 머신러닝은 처리수의 탁도를 미리 예 측하고 예상된 수질에 따라 응집제의 양을 조정하는 데 활용될 수 있으며, 응집제의 양을 예측하는데 BBPN 모델은 단순하고 안정적인 운영이 가능하다. 단순 ANN을 적용해 NOM의 제거를 고려하면서 응집 제의 투입량을 실제 정수장 규모에서 예측하였으며 (Baxter et al., 1999), 응집제 양과 수질 인자별 상관관 계를 분석하여 pH, 온도 및 탁도의 상관관계가 밝혀 졌다 (Joo et al., 2000). 또한 Grif와 Andrew는 입력 변 수를 가을, 겨울, 봄의 계절별로 구분하여 ANN을 적 용해 모델의 예측성을 향상시켰다 (Grif and Andrews, 2011). 응집제 양의 예측 정확성은 MLP, ANFIS, GRNN 중에서 MLP의 성능이 가장 우수하였으며, 우 기에는 GRNN의 예측 성능이 더 좋았다 (Kim and Parnichkun, 2017). GRNN은 RBFNN에 비해서도 성능 이 좋았으며, GRNN의 경우 입력데이터의 노이즈에 대한 영향이 작은 모델로 안정성을 확보하고 있는 것 이다 (Heddam and Bermad, 2012).

    일반적으로 하이브리드 모델을 활용하였을 때 높은 성능의 모델을 얻을 수 있었다. ELM과 RBF를 함께 사용할 경우 모델의 성능을 더욱 향상시킬 수 있는데, 탁도가 낮은 경우는 입력 인자를 원수의 탁도, 색도 및 한시간 전의 응집제량을 고려할 때 모델의 성능이 좋았으며, 탁도가 높을 때는 유출수의 탁도를 함께 고 려해야 했다 (Jayaweera and Aziz, 2019). ANFIS는 온 라인 모드로 사용할 때 퍼지 로직을 적용하여 실시간 업데이트가 가능하였다 (Heddam and Dechemi, 2015). Maier 등은 ANN예측 결과를 활용한 실시간 모니터링 과 제어 프로그램을 LabVIEW로 구현하였다 (Maier et al., 2004). 머신러닝 기술을 활용하면 응집제 투여량과 유출수의 수질에 대한 예측이 가능하고, 머신러닝 기술 에 기반을 둔 제어 프로그램을 활용하면 수처리 공정 에 있어 시간적, 비용적 효율성을 확보할 수 있다.

    4.4.2 소독

    수처리 공정에서 수중의 DBP(Disinfection Byproducts, 소독부산물) 전구 물질은 DBP 생성에 대한 비선형적 인 관계를 보이며 머신러닝은 이러한 DBP 생성 기작 을 해석하기 위한 방법으로 활용 가능하였다. ANN 모델의 학습 후 신경망의 가중치는 DBP 생성에 중요 성 관점으로 설명할 수 있는 자료로 활용할 수 있다 (Kulkarni and Chellam, 2010). 소독공정에서 머신러닝 은 MLR과 ANN으로 오존산화공정의 부산물인 브로 메이트(BrO3-)의 농도(Legube et al., 2004)와 트리할로 메탄(Trihalomethane, THM)의 농도를 예측하였다 (Platikanov et al., 2007).

    소독공정에서도 머신러닝은 하이브리드방법으로 성능을 향상시킬 수 있다. PCA와 ANN의 하이브리드 모델인 PC-ANN은 PCA를 통해 변수들의 상관관계를 정리하여 단순 ANN에 비해 일반화 성능이 향상시킬 수 있다 (Park et al., 2015). 또한 PCA와 ANN 기법은 전기화학센서를 이용해 수중의 브롬화할로아세틱산 (Brominated Haloacetic Acids)을 빠르고 신속하게 정량 하는 방법을 제시하였다 (Cetó et al., 2017). 수처리 공 정에서의 신속한 검출방법은 의사결정을 지원하여 프 로세스 최적화 및 자동화를 실현시킬 수 있다. 원수의 유량, 온도, 탁도, NOM 농도 등의 기입 입력 자료로 소독제의 주입량을 예측하고, 프로세스를 자동화하는 것이다 (Godo-Pla et al., 2019).

    4.4.3 여과

    머신러닝은 막 여과 공정에서 막의 교체 시점을 예 측하는 데 활용 가능하다. Darcy’s law와 ANN 예측 모델을 활용해 유입수의 탁도, 막 차압, 여과 시간의 데이터로 UF막의 교체 시점을 예측하였다 (Chew et al., 2016). ANFIS의 경우 단순머신러닝 보다 일반화된 모델을 제공하여 UF여과 성능 예측에 더 좋은 결과를 제시하였다 (Rahmanian et al., 2012). 실험데이터와 ANN을 활용해 중공사막에 대한 여과-역세 과정의 통 한 유량의 변화를 예측하였고(Teodosiu et al., 2000), 파일럿 플랜트에서 MF공정의 연속적인 막 차압의 변 화를 BPANN을 적용해, 가역적 및 비가역적 여과 성 능에 대한 장기간 변화를 확인하였다 (Delgrange-Vincent et al., 2000). 또한 역삼투 기술의 설계 최적화를 위해 운전조건에 따른 투과상수 등 막 에서의 투과 특성을 ANN 모델로 확인하고, 염도가 낮은 원수의 경우 높은 투과 특성을 보임을 밝혔다 (Barello et al., 2014). RBF는 BPANN에 비해 모델의 훈련이 용이하고, 넓은 pH와 이온 강도 범위에서 보 다 안정적인 결과를 제시하였다 (Chen and Kim, 2006). 막 오염 성장과 투과 속도 감소에 대한 연구에 활용된 CNN(Convolutional Neural Network)은 상관계 수가 0.99인 높은 예측 성과를 보여주었지만, 이미지 해석에 상당한 시간이 필요하였다 (Park et al., 2019). PCA를 통한 막 표면 케익의 단백질을 분석하여 비가 역적 막 오염의 원인인 지질과 막 오염의 관계를 제 시하였다 (Peldszus et al., 2011).

    막 여과 공정에서 머신러닝은 막의 재질에 따른 여 과 성능을 평가하는 데 활용될 수 있으며(Tan et al., 2014), 막의 합성 프로세스를 최적화하여 경제성을 확 보하는데 적용 가능하다 (Rall et al., 2019). ANN을 막 합성 프로세스로 최적화하였을 때 최적화 처리된 막 으로 더 많은 양의 물을 처리할 수 있었다 (Rall et al., 2020). 따라서 막 오염에서 머신러닝 기술은 막 오염 메커니즘에 대한 통찰력을 제공하여, 효율성을 고려 한 설계로 수처리 공정의 비용을 감소시키는 역할을 수행할 수 있다.

    5. 결 론

    4차 산업혁명의 시대적 흐름으로 다양한 물 산업분 야에서 머신러닝에 대한 연구가 진행되고 있다. 본 연 구에서는 홍수, 물 사용량, 수질 예측 및 수처리 공정 에서 적용된 국내외 머신러닝 연구를 조사하여 정리 하였다. 하이브리드 및 앙상블 기법의 발전으로 머신 러닝 모델의 성능은 크게 향상되었는데, ANN, SVM 등 단순 머신러닝 기술의 단점을 극복하고 앙상블 형 태를 적용해 일반화 능력이 개선된 것이다. 머신러닝 기술에 대한 세부 분류 및 정의가 어려울 정도로 다 양한 방법의 머신러닝 기법이 개발되고 있다.

    홍수, 물 사용량, 수질의 예측 결과는 환경보호, 예 보시스템 구축 등 국가의 대국민 서비스 제공을 목적 으로 하는 만큼 빅데이터 분석을 통한 거시적인 접근 방법이 필요한 분야라 할 수 있다. 예측을 기반으로 하는 환경모니터링 시스템을 활용하여 환경 정책의 시의성을 고려한 효과적인 정책을 제시하고, 기후 변 화 등 전 지구적 이슈에 대한 효과적인 대응 방안을 마련할 수 있다.

    한편, 수처리 공정에서의 머신러닝은 사업장의 작 업자나 운영자에게 필요한 정보를 제공하는 보다 세 밀하고 미시적인 접근 방법이 요구된다. 대표적인 정 수 공정인 응집, 소독, 여과 프로세스에서 머신러닝은 복잡한 비선형적 메커니즘에 대해 높은 정확도의 예 측 결과를 제시할 수 있었다. 향후 사업장의 특성을 잘 알고 있는 작업자의 경험이 머신러닝 기술에 반영 된다면 보다 신뢰성 높은 모델의 개발이 가능하고, 장 비 자동화 기술을 바탕으로 사업장의 운영 효율화, 비 용 절감 등 현실적인 효과를 얻을 수 있을 것이다.

    기호 설명

    ANN

    Artificial neural network

    ARIMA

    Autoregressive integrated moving average

    BAGNBT

    Bagging-based naïve Bayes trees

    DA-KF

    Data assimilation Kalman filter-based

    DL

    Deep learning

    DTFNN

    Decision tree overfitting and neural network

    EBFTM

    Evidential belief function and tree-based models

    EE-ANT

    Ensemble empirical with adaptive noise technology

    EEMD

    Ensemble empirical mode decomposition

    ELM

    Extreme learning machine

    GBDT

    Gradient boosting decision tree

    GOA

    Grasshopper optimization algorithm

    HybPAS

    Hybrid of linear regression-deep neural network

    ICEEMDMAN

    Improved complete ensemble empirical mode decomposition method with adaptive noise

    ML

    Machine learning

    NOM

    Natural Organic Matter

    OSELM

    Online sequential extreme learning machine

    RF

    Random forest

    SVM

    Support vector machine

    TSM

    Trauma severity model

    WNN

    Wavelet neural networks

    Figure

    JKSWW-36-1-9_F1.gif

    Difference between data mining and machine learning processes (modified from Studer et al., 2021).

    JKSWW-36-1-9_F2.gif

    Block diagram of the web scraping program used to collect research articles of interest.

    JKSWW-36-1-9_F3.gif

    Machine learning-based research trends related to the water industry. The data for 2021 is as of 2021.11.20.

    Table

    The query list and the number of returned documents

    Machine learning algorithms (adapted from Li, 2020)

    Comparative analysis of machine learning models for the prediction of short-term and long-term floods (Mosavi et al., 2018)

    References

    1. Akkoyunlu, A. and Akiner, M.E. (2010). Feasibility assessment of data-driven models in predicting pollution trends of Omerli Lake, Turkey, Water Resour. Manag., 24(13), 3419-3436.
    2. Ay, M. and Kisi, O. (2014). Modelling of chemical oxygen demand by using ANNs, ANFIS and k-means clustering techniques, J. Hydrol., 511, 279-289.
    3. Badrzadeh, H. , Sarukkalige, R. , and Jayawardena, A.W. (2016). Improving ann-based short-term and long-term seasonal river flow forecasting with signal processing techniques, River Res. Appl., 32(3), 245-256.
    4. Barello, M. , Manca, D. , Patel, R. , and Mujtaba, I.M. (2014). Neural network based correlation for estimating water permeability constant in RO desalination process under fouling, Desalination, 345, 101-111.
    5. Baxter, C. , Stanley, S. , and Zhang, Q. (1999). Development of a full-scale artificial neural network model for the removal of natural organic matter by enhanced coagulation, J. Water Supply Res. T., 48(4), 129-136.
    6. Bennett, C. , Stewart, R.A. , and Beal, C.D. (2013). ANN-based residential water end-use demand forecasting model, Expert Syst. Appl., 40(4), 1014-1023.
    7. Candelieri, A. (2017). Clustering and support vector regression for water demand forecasting and anomaly detection, Water, 9(3), 224.
    8. Cetó, X. , Saint, C. , Chow, C.W. , Voelcker, N.H. , and Prieto-Simón, B. (2017). Electrochemical fingerprints of brominated trihaloacetic acids (HAA3) mixtures in water, Sens. Actuators B Chem., 247, 70-77.
    9. Chang, F.J. , Chen, P.A. , Lu, Y.R. , Huang, E. , and Chang, K.Y. (2014). Real-time multi-step-ahead water level forecasting by recurrent neural networks for urban flood control, J. Hydrol., 517, 836-846.
    10. Chen, H. and Kim, A.S. (2006). Prediction of permeate flux decline in crossflow membrane filtration of colloidal suspension: a radial basis function neural network approach, Desalination, 192(1-3), 415-428.
    11. Chen, K. , Chen, H. , Zhou, C. , Huang, Y. , Qi, X. , Shen, R. , Liu, F. , Zuo, M. , Zou, X. , and Wang, J. (2020). Comparative analysis of surface water quality prediction performance and identification of key water parameters using different machine learning models based on big data, Water Res., 171, 115454.
    12. Chew, C.M. , Aroua, M. , and Hussain, M. (2017). A practical hybrid modelling approach for the prediction of potential fouling parameters in ultrafiltration membrane water treatment plant, J. Ind. Eng. Chem., 45, 145-155.
    13. Cho, E.S. , Hong, H.W. , Lim, D.S. , Hwang, B.E. , Jeon, D.J. , and W.J. Choi, Korea Environment Institute., (2020). A study on rationalization of the method for evaluating the wastewater effluent standard compliance, 1-150.
    14. Cortes, C. and Vapnik, V. (1995). Support-vector networks, Mach. Learn., 20(3), 273-297.
    15. Deglint, J.L. , Jin, C. , Chao, A. , and Wong, A. (2018). The feasibility of automated identification of six algae types using feed-forward neural networks and fluorescence-based spectral-morphological features, IEEE Access, 7, 7041-7053.
    16. Delgrange-Vincent, N. , Cabassud, C. , Cabassud, M. , Durand-Bourlier, L. , and Laine, J. (2000). Neural networks for long term prediction of fouling and backwash efficiency in ultrafiltration for drinking water production, Desalination, 131(1-3), 353-362.
    17. Dogan, E. , Ates, A. , Yilmaz, E.C. , and Eren, B. (2008). Application of artificial neural networks to estimate wastewater treatment plant inlet biochemical oxygen demand, Environ. Prog., 27(4), 439-446.
    18. Doycheva, K. , Horn, G. , Koch, C. , Schumann, A. , and König, M. (2017). Assessment and weighting of meteorological ensemble forecast members based on supervised machine learning with application to runoff simulations and flood warning, Adv. Eng. Inform., 33, 427-439.
    19. Duerr, I. , Merrill, H.R. , Wang, C. , Bai, R. , Boyer, M. , Dukes, M.D. , and Bliznyuk, N. (2018). Forecasting urban household water demand with statistical and machine learning methods using large space-time data: A Comparative study, Environ. Model. Softw., 102, 29-38.
    20. Géron, A. (2019). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow: Concepts, tools, and techniques to build intelligent systems. O'Reilly Media, Sebastopol, 1-30.
    21. Ghose, D.K. (2018). Measuring discharge using back-propagation neural network: a case study on Brahmani river basin. In: Intelligent Engineering Informatics. Springer, New York. 591-598.
    22. Godo-Pla, L. , Emiliano, P. , Valero, F. , Poch, M. , Sin, G. , and Monclús, H. (2019). Predicting the oxidant demand in full-scale drinking water treatment using an artificial neural network: uncertainty and sensitivity analysis, Process Saf. Environ. Prot., 125, 317-327.
    23. Griffiths, K. and Andrews, R. (2011). The application of artificial neural networks for the optimization of coagulant dosage, Water Sci. Technol., 11(5), 605-611.
    24. Gu, G.H. , Noh, J. , Kim, I. , and Jung, Y. (2019). Machine learning for renewable energy materials, J. Mater. Chem. A, 7(29), 17096-17117.
    25. Hand, D.J. (2007). Principles of data mining, Drug Saf., 30(7), 621-622.
    26. Heddam, S. (2016). New modelling strategy based on radial basis function neural network (RBFNN) for predicting dissolved oxygen concentration using the components of the Gregorian calendar as inputs: case study of Clackamas River, Oregon, USA, Model. Earth Syst. Environ., 2(4), 1-5.
    27. Heddam, S. , Bermad, A. , and Dechemi, N. (2012). ANFIS-based modelling for coagulant dosage in drinking water treatment plant: a case study, Environ. Monit. Assess., 184(4), 1953-1971.
    28. Heddam, S. and Dechemi, N. (2015). A new approach based on the dynamic evolving neural-fuzzy inference system (DENFIS) for modelling coagulant dosage (Dos): case study of water treatment plant of Algeria, Desalination Water Treat., 53(4), 1045-1053.
    29. Hong, Y.S.T. (2012). Dynamic nonlinear state-space model with a neural network via improved sequential learning algorithm for an online real-time hydrological modeling, J. Hydrol., 468, 11-21.
    30. Jayaweera, C. , Othman, M. , and Aziz, N. (2019). Improved predictive capability of coagulation process by extreme learning machine with radial basis function, J. Water Process. Eng., 32, 100977.
    31. Joo, D.S. , Choi, D.J. , and Park, H. (2000). The effects of data preprocessing in the determination of coagulant dosing rate, Water Res., 34(13), 3295-3302.
    32. Kang, S.W. , Lee, D.H. , Chang, K.B. , Jin, D.Y. , Hong, H.W. , Han, K.J. , Kim, J.H. , Kang, S.A. , Kim, D.Y. , and Jung, E.H. Korea Environment Institute. (2017). Big data analysis: Application to environmental research and service, 2017-07, 1-92.
    33. Kang, S.W. , Jin, D.Y. , Hong, H.W. , Ko, K.K. , Im, Y.J. , Kang, S.A. , and Kim, D.Y. Korea Environment Institute. (2020). Big data analysis: Application to environmental research and service Ⅳ, 2020-07, 179-186.
    34. Kehoe, M.J. , Chun, K.P. , and Baulch, H.M. (2015). Who smells? Forecasting taste and odor in a drinking water reservoir, Environ. Sci. Technol., 49(18), 10984-10992.
    35. Kim, C.M. and Parnichkun, M. (2017). MLP, ANFIS, and GRNN based real-time coagulant dosage determination and accuracy comparison using full-scale data of a water treatment plant, J. Water Supply Res. T., 66(1), 49-61.
    36. Kim, S. , Matsumi, Y. , Pan, S. , and Mase, H. (2016). A real-time forecast model using artificial neural network for after-runner storm surges on the Tottori coast, Japan, Ocean Eng., 122, 44-53.
    37. Koo, K.M. , Han, K.H. , Jun, K.S. , Lee, G. , Kim, J.S. , and Yum, K.T. (2021). Performance Assessment for Short-Term Water Demand Forecasting Models on Distinctive Water Uses in Korea, Sustainability, 13(11), 6056.
    38. Kulkarni, P. and Chellam, S. (2010). Disinfection by-product formation following chlorination of drinking water: Artificial neural network models and changes in speciation with treatment, Sci. Total Environ., 408(19), 4202-4210.
    39. Lee, S.W. , Sarp, S. , Jeon, D.J. , and Kim, J.H. (2015). Smart water grid: the future water management platform, Desalination Water Treat., 55(2), 339-346.
    40. Legube, B. , Parinet, B. , Gelinet, K. , Berne, F. , and Croue, J.P. (2004). Modeling of bromate formation by ozonation of surface waters in drinking water treatment, Water Res., 38(8), 2185-2195.
    41. Li, H. Which machine learning algorithm should I use? (2020). https://blogs.sas.com/content/subconsciousmusings/2020/12/09/machine-learning-algorithm-use (December 30, 2021).
    42. Liu, W.C. and Chen, W.B. (2012). Prediction of water temperature in a subtropical subalpine lake using an artificial neural network and three-dimensional circulation models, Comput. Geosci., 45, 13-25.
    43. Maier, H.R. , Morgan, N. , and Chow, C.W.K. (2004). Use of artificial neural networks for predicting optimal alum doses and treated water quality parameters, Environ. Model. Softw., 19(5), 485-494.
    44. Makki, A.S. and Panuwatwanich, R.K. and Beal, C. (2011). Revealing the determinants of shower water end use consumption: enabling better targeted urban water conservation strategies, J. Clean. Prod.
    45. Martyusheva, O. (2014). Smart water grid, Master's Thesis, Colorado State University, Fort Collins, CO, USA, 1-47.
    46. Mouatadid, S. and Adamowski, J. (2017). Using extreme learning machines for short-term urban water demand forecasting, Urban Water J., 14(6), 630-638.
    47. Park, M. , Anumol, T. , and Snyder, S.A. (2015). Modeling approaches to predict removal of trace organic compounds by ozone oxidation in potable reuse applications, Environ. Sci. Water Res. Technol., 1(5), 699-708.
    48. Park, S. , Baek, S.S. , Pyo, J. , Pachepsky, Y. , Park, J. , and Cho, K.H. (2019). Deep neural networks for modeling fouling growth and flux decline during NF/RO membrane filtration, J. Membr. Sci., 587, 117164.
    49. Peldszus, S. , Hallé, C. , Peiris, R.H. , Hamouda, M. , Jin, X. , Legge, R.L. , Budman, H. , Moresoli, C. , and Huck, P.M. (2011). Reversible and irreversible low-pressure membrane foulants in drinking water treatment: Identification by principal component analysis of fluorescence EEM and mitigation by biofiltration pretreatment, Water Res., 45(16), 5161-5170.
    50. Platikanov, S. , Puig, X. , Martín, J. , and Tauler, R. (2007). Chemometric modeling and prediction of trihalomethane formation in Barcelona's water works plant, Water Res., 41(15), 3394-3406.
    51. Qiao, J. , Hu, Z. , and Li, W. (2016). Soft Measurement Modeling Based on Chaos Theory for Biochemical Oxygen Demand (BOD), Water, 8(12), 581.
    52. Rahmanian, B. , Pakizeh, M. , Mansoori, S.A.A. , Esfandyari, M. , Jafari, D. , Maddah, H. , and Maskooki, A. (2012). Prediction of MEUF process performance using artificial neural networks and ANFIS approaches, J. Taiwan Inst. Chem. Eng., 43(4), 558-565.
    53. Rall, D. , Menne, D. , Schweidtmann, A.M. , Kamp, J. , von Kolzenberg, L. , Mitsos, A. , and Wessling, M. (2019). Rational design of ion separation membranes, J. Membr. Sci., 569, 209-219.
    54. Rall, D. , Schweidtmann, A.M. , Aumeier, B.M. , Kamp, J. , Karwe, J. , Ostendorf, K. , Mitsos, A. , and Wessling, M. (2020). Simultaneous rational design of ion separation membranes and processes, J. Membr. Sci., 600, 117860.
    55. Schiffer, R.A. and Rossow, W.B. (1983). The International Satellite Cloud Climatology Project (ISCCP): The first project of the world climate research programme, Bull. Amer. Meteor., 64(7), 779-784.
    56. Schmidhuber, J. (2015). Deep learning in neural networks: An overview, Neural Netw., 61, 85-117.
    57. Sebri, M. (2013). ANN versus SARIMA models in forecasting residential water consumption in Tunisia, J. Water Sanit. Hyg. Dev., 3(3), 330-340.
    58. Seo, Y. , Kwon, S. , and Choi, Y. (2018). Short-term water demand forecasting model combining variational mode decomposition and extreme learning machine, Hydrol., 5(4), 54.
    59. Shoaib, M. , Shamseldin, A.Y. , and Melville, B.W. (2014). Comparative study of different wavelet based neural network models for rainfall–runoff modeling, J. Hydrol., 515, 47-58.
    60. Studer, S. , Bui, T.B. , Drescher, C. , Hanuschkin, A. , Winkler, L. , Peters, S. , and Müller, K.R. (2021). Towards CRISP-ML(Q): a machine learning process model with quality assurance methodology, Mach. Learn. Knowl. Extr., 3(2), 392-413.
    61. Sun, A.Y. and Scanlon, B.R. (2019). How can Big Data and machine learning benefit environment and water management: a survey of methods, applications, and future directions, Environ. Res. Lett., 14(7), 073001.
    62. Tan, M. , He, G. , Nie, F. , Zhang, L. , and Hu, L. (2014). Optimization of ultrafiltration membrane fabrication using backpropagation neural network and genetic algorithm, J. Taiwan Inst. Chem. Eng., 45(1), 68-75.
    63. Teodosiu, C. , Pastravanu, O. , and Macoveanu, M. (2000). Neural network models for ultrafiltration and backwashing, Water Res., 34(18), 4371-4380.
    64. Wang, L. , Chen, B. , and Zhang, T. (2018). Predicting hydrolysis kinetics for multiple types of halogenated disinfection byproducts via QSAR models, Chem. Eng. J., 342, 372-385.
    65. Wang, Z. , Lai, C. , Chen, X. , Yang, B. , Zhao, S. , and Bai, X. (2015). Flood hazard risk assessment model based on random forest, J. Hydrol., 527, 1130-1141.
    66. Wu, W. , Dandy, G.C. , and Maier, H.R. (2014). Protocol for developing ANN models and its application to the assessment of the quality of the ANN model development process in drinking water quality modelling, Environ. Model. Softw., 54, 108-127.
    67. Yang, T.M. , Fan, S.K. , Fan, C. , and Hsu, N.S. (2014). Establishment of turbidity forecasting model and early-warning system for source water turbidity management using back-propagation artificial neural network algorithm and probability analysis, Environ. Monit. Assess., 186(8), 4925-4934.
    68. Yu, H. , Chen, Y. , Hassan, S. , and Li, D. (2016). Dissolved oxygen content prediction in crab culture using a hybrid intelligent method, Sci. Rep., 6(1), 27292.
    69. Zheng, W. , Tian, D. , Wang, X. , Tian, W. , Zhang, H. , Jiang, S. , He, G. , Zheng, Y. , and Qu, W. (2013). Support vector machine: Classifying and predicting mutagenicity of complex mixtures based on pollution profiles, Toxicol., 313(2), 151-159.