Journal Search Engine
Search Advanced Search Adode Reader(link)
Download PDF Export Citaion korean bibliography PMC previewer
ISSN : 1225-7672(Print)
ISSN : 2287-822X(Online)
Journal of the Korean Society of Water and Wastewater Vol.35 No.4 pp.259-275
DOI : https://doi.org/10.11001/jksww.2021.35.4.259

Development of benthic macroinvertebrate species distribution models using the Bayesian optimization

ByeongGeon Go, Jihoon Shin, Yoonkyung Cha*
Department of Environmental Engineering, University of Seoul
* Corresponding author: Yoonkyung Cha (E-mail: ykcha@uos.ac.kr)

21/05/2021 29/06/2021 06/07/2021

Abstract


This study explored the usefulness and implications of the Bayesian hyperparameter optimization in developing species distribution models (SDMs). A variety of machine learning (ML) algorithms, namely, support vector machine (SVM), random forest (RF), boosted regression tree (BRT), XGBoost (XGB), and Multilayer perceptron (MLP) were used for predicting the occurrence of four benthic macroinvertebrate species. The Bayesian optimization method successfully tuned model hyperparameters, with all ML models resulting an area under the curve (AUC) > 0.7. Also, hyperparameter search ranges that generally clustered around the optimal values suggest the efficiency of the Bayesian optimization in finding optimal sets of hyperparameters. Tree based ensemble algorithms (BRT, RF, and XGB) tended to show higher performances than SVM and MLP. Important hyperparameters and optimal values differed by species and ML model, indicating the necessity of hyperparameter tuning for improving individual model performances. The optimization results demonstrate that for all macroinvertebrate species SVM and RF required fewer numbers of trials until obtaining optimal hyperparameter sets, leading to reduced computational cost compared to other ML algorithms. The results of this study suggest that the Bayesian optimization is an efficient method for hyperparameter optimization of machine learning algorithms.



베이지안 최적화를 통한 저서성 대형무척추동물 종분포모델 개발

고 병건, 신 지훈, 차 윤경*
서울시립대학교 환경공학과

초록


    1. 서 론

    종분포모델(Species Distribution Models, SDMs)은 생 물종의 출현 유무, 개체수 등의 정보와 환경인자 간의 관계를 분석함으로써 생물종의 지리적 분포를 추정하 고, 해당 생물종의 서식지 조건에 대한 통찰을 제공하 기 위한 모델을 총칭한다 (Pearson, 2007). 이와 같은 종분포모델은 기후변화와 같은 다양한 교란에 따른 생물종의 반응에 대한 분석 및 정량적 예측을 수행하 는 등 다양한 용도로 활용된다 (Min and Kong, 2020;Pearson, 2007).

    한편 도시개발과 기후변화 등과 같은 형태의 생태계 교란은 물환경에 다양한 형태로 영향을 준다고 알려져 있다 (Allan and Flecker, 1993). 이처럼 다양한 형태로 발생하는 영향이 수환경 및 수생태계에 어떠한 형태로 영향을 미치는지 파악하기 위해서는 장기적으로 수환 경 및 수생태계의 건강성을 종합적으로 평가할 수 있는 물환경평가가 필수적이다. 하지만, 과거 주로 화학적 수 질지표를 통해 물환경평가를 시행하던 방식은 복잡한 방식으로 상호작용하며 변화하는 물환경을 종합적으로 판단할 수 없다는 단점이 존재했다 (Lee et al., 2011;McCarron and Frydenborg, 1997). 따라서 화학적지표에 비해 장기적이고 종합적인 물환경을 대변할 수 있는 수 질지표생물을 통한 물환경평가의 필요성(Kong et al., 2018b)이 대두되며, 환경부 국립환경과학원의 국가 수 생태계 건강성 조사 및 평가 사업(National Aquatic Ecological Monitoring Program, NAEMP)을 통해 매년 2 회씩 수생태계를 모니터링하여 수생태계의 건강성을 종합적으로 평가하고 있다 (Lee et al., 2011).

    다양한 수질지표생물 중 저서성 대형무척추동물은 교란에 대한 반응 및 이동성 등의 특징에 의해 분류 군별로 외부 오염에 대해 상이한 반응 양상을 보이며, 수집과 분류, 동정이 용이하다는 장점이 있으며, 수생 태계 내에서 1차와 2차 소비자 역할을 하고 어류의 주 먹이원으로 기능하는 등 수생태계에서 주요한 위 치에 있다 (Lee et al., 2020;Zhang et al., 2010). 따라서 저서성 대형무척추동물의 종분포모델 개발을 통해 출 현 유무, 개체수 등의 정보와 환경인자의 관계를 분 석, 지리적 분포 추정, 교란에 대한 반응 분석 등을 수 행하는 것은 수질지표 생물로서의 저서성 대행무척추 동물이 갖는 지위만큼 중요하다고 할 수 있다. 하지 만, 종분포모델 결과의 타당한 활용을 위해서는 예측 결과에 대한 신뢰가 필요하며, 이를 위한 첫걸음은 뛰 어난 예측성능의 확보이다.

    복잡한 형태의 기계학습 알고리즘은 다양한 환경인 자와 생물종의 반응 간 비선형적인 관계에 대한 학습능 력과(Harris, 2015;Merow et al., 2014) 이를 기반으로 하 는 우수한 예측성능을 바탕으로 다양한 생물종의 종분 포모델에 있어 그 활용이 증가해왔다. Merow et al. (2014)에 의하면 신경망, 트리기반 앙상블모델 등 복잡 한 형태의 기계학습알고리즘은 시스템에 대한 선형성 가정 등이 필요하지 않아 고차원의 입력변수로 이루어 진 비선형성 수생태시스템을 고려할 수 있어 예측성능 상에 이점이 있었다. Harris (2015)의 경우에도 신경망모 델을 활용해 비선형성을 고려하여 기존 종분포모델에 비해 큰 예측성능을 얻게 되었다. Gobeyn et al. (2019)에 따르면 신경망모델 및 유전알고리즘이 기존 Maxent 모 델 등에 비해 더 복잡한 형태의 담수 시스템 문제에 대 응할 수 있다고 보고되었다.

    그러나 기계학습이 최적의 예측성능을 나타내기 위 해서는 사용하는 데이터에 대한 최적 하이퍼파라미터 의 설정을 요구한다 (Bergstra and Bengio, 2012;Duarte and Wainer, 2017;Hutter et al., 2011;Probst et al., 2019). 기계학습 알고리즘의 각 하이퍼파라미터와 그 변화에 따른 예측성능의 변화는 매우 복잡할 뿐만 아니라, 최적 하이퍼파라미터는 분석을 요구하는 데이터의 특성에 따라서도 차이가 있어 연구자가 모든 조합을 고려하여 최적값을 설정하는 것은 불가능하다 (Bergstra and Bengio, 2012). 이에 따라 최적화 알고리즘의 활용이 요 구된다. 최적화 알고리즘은 목적함수 값을 최소화시키 는 해를 찾는 알고리즘으로 기계학습의 하이퍼파라미 터 탐색에 있어서 이러한 최적화 알고리즘을 활용하는 연구들이 활발히 이루어지고 있다 (Liu et al., 2020; Rojas-Domínguez et al., 2018). 이러한 흐름은 환경 관리 분야로 이어져 물 수요량의 예측(Candelieri et al., 2019), 농업용수 소비량 예측(Lu et al., 2009)과 같은 수자원, 탁도 예측(Nieto et al., 2014), 용존산소 예측(Chen et al., 2016a)과 같은 수질은 물론 어류 종의 분포 예측 (Muñoz-Mas et al., 2016)과 같은 생태 분야에서도 최적 하이퍼파라미터 탐색에 있어 최적화 알고리즘을 적용 하는 연구들이 이어지고 있다.

    다양한 최적화 알고리즘 중 베이지안 최적화는 모델 기반 최적화 알고리즘으로 이전 탐색결과를 사전지식 으로 활용하여 탐색횟수를 최소화하며, 그에 따라 다른 알고리즘에 비해 적은 탐색횟수로도 최적 하이퍼파라 미터를 얻을 수 있어, 요구되는 연산량이 많은 복잡한 목적함수를 지닌 문제의 적용에 적절하다 (Bergstra et al., 2011). 게다가, 다양한 최적화 알고리즘과의 비교에 있어 가장 우수한 성능을 나타낸다고 보고된 바 있다 (Olof, 2018). 하지만, 동일한 모델에 대해서도 사용 데이 터에 따라 최적화 알고리즘의 적용 효과는 차이가 있을 수 있다 (Rojas-Domínguez et al., 2018; Schratz et al., 2019). 따라서 국내 수생태계 모니터링 데이터 활용 시 베이지안 최적화 적용의 타당성에 대한 고찰이 필요하 나, 아직 국내에서 수생태계 모니터링 자료를 활용함에 있어 베이지안 최적화를 활용하거나 적용 효과를 고찰 한 사례는 찾아볼 수 없었다.

    본 연구의 목적은 기계학습 알고리즘을 활용한 저서 성 대형무척추동물 출현 유무 예측에서 베이지안 최적 화의 유용성을 고찰하는 것이다. 이를 위해, 다양한 기 계학습을 활용, 전국 단위 저서성 대형무척추동물 출현 자료를 기반으로 종분포모델을 개발하였으며, 기계학 습 알고리즘의 최적 하이퍼파라미터 탐색과정에서 베 이지안 최적화를 적용했다. 그 과정에서 각 기계학습 알고리즘의 최적화 과정을 비교, 고찰하였다.

    2. 연구방법

    2.1 자료수집 및 전처리

    본 연구에서는 국립환경과학원에서 관리하는 국가 수생태 조사사업을 통해 수집된 수생태계 모니터링 자료를 바탕으로 종분포모델링을 수행하였다. 자료수 집 지점은 국가 수생태 조사사업 대상 지점 중 한강, 낙동강, 금강, 영산강, 섬진강 유역에 위치한 본류 및 본류를 중심으로 하천차수가 3차 이상인 지류에 속한 총 459개 지점을 대상으로 한다. 2009년부터 2017년 사이 모니터링된 총 592 종의 저서성 대형무척추동물 출현 유무 자료에서 출현 빈도를 기준으로 4종의 우 점종을 선정하여 분석 대상 생물종으로 사용했다. 선 정된 분석 대상 생물종은 개똥하루살이(Baetis fuscatus), 등줄하루살이(Uracanthella punctisetae), 줄날도래 (Hydropsyche kozhantschikovi), 꼬마줄날도래(Cheumatopsyche brevilineata)이다. 수집된 전체 자료 중 결측값이 없는 436지점의 자료를 입력자료로 활용했다 (Fig. 1).

    선행연구에 대한 검토를 기반으로 분석 대상 생물 종의 분포와 영향이 있는 4개의 기후인자, 3개의 지리 적인자와 7개의 토지피복인자, 3개의 수리수문인자, 5 개의 수질인자를 수집 및 활용했다 (Chun et al., 2017;Kong et al., 2018a;Kong et al., 2018b;Kwak et al., 2018; Table 1). 기후인자는 연평균기온, 7월 최고기온, 1월 최저기온, 연평균강수량을 포함하며, 국가농림기 상센터의 농림기후자료(http://www.climate.go.kr)에서 수집하여 사용하였다. 지리적인자는 고도, 경사각, 하천차수를 포함한다. 이 중 고도와 경사각은 국토 지리정보원(http://ngii.go.kr)에서 제공하는 30 m 해 상도의 수치표고모형을 기반으로 ArcGIS Pro를 활 용해 추출했으며, 하천차수는 국가 수자원 관리 종합 정보시스템(https://www.wamis.go.kr)에서 수집했다. 수 리수문인자인 유속, 수심, 수폭과 수질인자인 용존산 소량, 전기전도도, pH, BOD, 총질소, 총인은 국가 수 생태 조사사업 자료를 사용했다. 토지피복인자는 환경 공간 정보 서비스(http://egis.me.go.kr)에서 수집한 토지피복도를 바탕으로 ArcGIS Pro를 활용, 조사지점 의 500 m 반경에 해당하는 영역 내의 각 토지피복 비 율을 계산하여 사용했다.

    2.2 베이지안 최적화를 활용한 종분포모델링

    수집된 전체 데이터는 학습데이터(0.8)와 검증데이 터(0.2)로 나누어 기계학습 알고리즘의 학습 및 성능 평가에 활용했다. 종분포모델의 종속변수는 분석 대 상 생물종의 출현 유무를 기준으로 출현은 1, 미출현 은 0으로 범주화하여 사용했으며, 독립변수는 수집된 각 환경인자를 최솟값, 최댓값을 기준으로 정규화 (Min-Max scaling) 하여 사용했다. 이때 정규화 과정에 서 각 환경인자의 최솟값 및 최댓값은 학습데이터의 값을 사용했다. 연구 흐름도는 Fig. 2와 같다.

    2.2.1 기계학습 알고리즘

    Support Vector Machine (SVM), Random Forest (RF), Boosted Regression Tree (BRT), Extreme Gradient Boosting (XGB), Multi Layer Perceptron (MLP)의 5개 기계학습 알고리즘이 분석 대상 생물종의 출현 유무 예측을 위해 사용되었다. SVM은 학습데이터 상의 입력변수들을 고 차원의 공간으로 사상(Mapping)한 뒤, 이를 두 그룹으로 가장 잘 분류하는 초평면(Hyperplane)을 탐색하는 알고 리즘이다 (Cortes and Vapnik, 1995). RF는 결정나무 기 반 앙상블모델로 부트스트랩 (Efron and Tibshirani, 1994)을 통해 독립적으로 추출된 일부 입력변수만을 포 함하는 학습데이터의 부분집합을 활용하여 개별 결정 나무를 학습시킨 후 결합을 통해 최종 결과를 도출하는 알고리즘이다 (Breiman, 2001). BRT는 RF와 마찬가지로 결정나무 기반 앙상블모델이지만 부스팅을(Schapire, 1990) 기반으로 손실 함수를 최소화하는, 다시 말해 예 측성능을 향상시키는 방향으로 기울기(Gradient)를 감 소시켜가며 순차적으로 개별 결정나무를 생성한 뒤 결 합하는 알고리즘이다 (Friedman, 2001). XGB는 BRT와 매우 유사하지만, 모델의 오차항에 복잡도항을 추가하 여 과적합 문제를 방지하는 알고리즘이다 (Chen et al., 2016b). MLP는 다수의 은닉층을 지닌 인공신경망으로 입력변수와 출력변수 간의 복잡한 관계를 학습함으로 써 예측을 수행한다 (Goodfellow et al., 2016). 본 연구 에서는 은닉층의 수를 3개로 지정하여 사용했다. 기계 학습 알고리즘의 적용은 python 3.6.9 버전을 통해 수 행하였으며, SVM, BRT, RF는 scikit-learn 0.22.2, XGB 는 XGBoost 0.9, MLP는 Keras 2.4.3 라이브러리를 활 용했다.

    2.2.2 베이지안 최적화

    베이지안 최적화는 이전 탐색결과를 사전지식으로 써 활용하여 다음 탐색을 진행한다. 즉, 반복 탐색과 정에서 사전지식을 반영한 확률모델을 토대로 얻어진 목적함수 추정값을 통해 순차적으로 다음 탐색 지점 을 선정해 나가기 때문에, 효율적으로 최적해를 찾는 다고 알려져 있다. 이와 같은 특성 때문에 계산 비용 상의 이점이 있어 목적함수 평가에 많은 연산을 필요 로 하는 복잡한 기계학습 알고리즘의 최적 하이퍼파 라미터 탐색에 적용하기 적합하다고 알려져 있다 (Bergstra et al., 2011;Mockus, 2012).

    본 연구에서는 다양한 선행연구에서 뛰어난 성능을 나타낸 tree-structured parzen estimator(TPE)를 활용하 여 베이지안 최적화를 적용했다 (Bergstra et al., 2015;Hutter et al., 2011;Thornton et al., 2013). TPE는 사전 탐색결과를 바탕으로 expected improvement(EI)가 최 대가 되는 다음 하이퍼파라미터 집합을 선정한다.

    E I y * ( x ) = y * ( y * y ) p m ( y | x ) d y = y * ( y * y ) p m ( x | y ) p m ( y ) p m ( x ) d y
    (Eq. 1)

    여기서 y*는 pm (y < y*) = γ 일 때의 기준값으로 본 연구에서 γ = 0.15이다. pm (y|x)은 하이퍼파라미터 x에 따른 목적함수 값 y에 대한 확률모델로 복잡한 목적함 수에 대한 추정값을 제공하는 대리모델(surrogate model) 이라 부른다. TPE는 Bayes’ rule를 활용하여 아래와 같이 대리모델을 정의하며 이는 아래와 같이 표현한다.

    p m ( x | y ) = { l ( x ) i f y < y * g ( x ) i f y y *
    (Eq. 2)

    여기서 l (x) 와 g (x)는 각각 목적함수 값이 기준값 인 y*이하 및 이상일 때의 대리모델을 의미한다. 이를 바탕으로 아래와 같이 정리할 수 있다.

    p m ( x ) = R p m ( x | y ) p m ( y ) d y = γ l ( x ) + ( 1 γ ) g ( x )
    (Eq. 3)

    따라서 pm (y < y*) = γ과 Eq. 3을 통해 Eq. 1은 최종 적으로 아래와 같이 정리할 수 있다.

    E I y * ( x ) = γ y * l ( x ) l ( x ) y * p m ( y ) d y γ l ( x ) + ( 1 γ ) g ( x ) ( γ + g ( x ) l ( x ) ( 1 γ ) ) 1
    (Eq. 4)

    즉, EI 값은 l (x)에 비례하고 g (x) 에 반비례하며, 이는 낮은 목적함수 값(높은 예측성능)을 나타내는 탐 색결과에 가중치를 두고 최적화를 진행해 나가도록 유도됨을 의미한다 (Bergstra et al., 2015).

    베이지안 최적화의 목적함수는 학습데이터에 대한 10겹 교차검증으로부터 얻어진 평균 accuracy를 활용 하였으며, 탐색횟수는 1000회로 지정, 가장 높은 성능 을 나타낸 하이퍼파라미터 값의 집합을 획득했다. TPE의 적용은 python 3.6.9의 hyperopt 0.1.2 라이브러 리를 활용했다. 각 기계학습 알고리즘별 하이퍼파라 미터 탐색 범위 및 조건은 Table 2와 같다.

    2.3 예측성능 평가

    저서성 대형무척추동물 출현 유무에 대한 예측성능 평가를 위해 학습데이터를 활용하여 베이지안 최적화 를 적용해 얻어진 최적 하이퍼파라미터를 적용하여 최 적 모델을 학습한 뒤, 검증데이터를 통해 예측성능을 평가하였다. 예측성능 평가를 위한 평가지표로는 accuracy, recall, F-measure, area under the receiver operating characteristic curve(AUC)를 활용했다. 예측 결 과를 1) 출현을 성공적으로 분류한 경우인 true positive(TP); 2) 미출현을 성공적으로 분류한 true negative(TN); 3) 미 출현을 출현으로 예측한 false positive(FP); 4) 출현을 미 출현으로 예측한 false negative(FN)라 할 때, 각 평가지 표는 아래와 같이 계산할 수 있다.

    A c c u r a c = T N + T P T o t a l n u m b e r o f s a m p l e s
    (Eq. 4)

    R e c a l = T P T P + F N
    (Eq. 5)

    F m e a s u r e = 2 × T P T P + F P × T P T P + F N T P T P + F P + T P T P + F N
    (Eq. 6)

    A U C = 1 + T P T P + F N + F P F P + T N 2
    (Eq. 7)

    3. 연구결과

    3.1 베이지안 최적화를 통한 최적 하이퍼파라미터 탐 색결과

    TPE를 통한 1000회의 하이퍼파라미터 탐색 동안 각 기계학습 모델의 목적함수 값의 변화는 Fig. 3과 같다. 이때 각 점은 해당 탐색 시도에서의 목적함수 값, 직선은 탐색된 목적함수 값 중 최댓값을 의미한 다. 이때 직선 위의 점은 해당 목적함수 값을 최초로 나타낸 탐색 시도를 나타내며, 탐색 후반부에 점이 없 는 경우 빠르게 최적 하이퍼파라미터를 찾아낸 것으 로 볼 수 있다. 모든 기계학습 알고리즘은 최적화를 진행함에 따라 10겹 교차검증에서 얻어진 평균 accuracy인 목적함수 값이 증가했으며, 이는 최적화가 성공적으로 진행되었다는 것을 나타낸다. 각 기계학 습 모델의 최적 하이퍼파라미터는 Table 3과 같다.

    공통적으로 모든 기계학습 모델이 베이지안 최적화 를 통해 목적함수 값이 향상됐지만, 모델에 따라 학습 곡선의 형태에는 차이가 있었다. SVM과 RF의 경우 가장 빠르게 최적 하리퍼파라미터 집합을 탐색해 높 은 예측 성능에 수렴했으며(Fig. 3a, b), BRT, XGB, MLP는 상대적으로 느리게 최적 하이퍼파라미터 집합 을 탐색했다 (Fig. 3c, d, e). SVM의 경우 최적화 전 후 목적함수 값의 차이가 평균 0.01로 타 기계학습 모 델에 비해 하이퍼파라미터 최적화의 영향을 적게 받 았으며(Fig. 3a), 이와 같은 결과는 선행연구에서도 보고된 바 있다 (Schratz et al., 2019). RF는 하이퍼파 라미터의 기본값이 대부분의 데이터에 보편적으로 잘 작동한다고 알려져 있어(Probst et al., 2019;Schratz et al., 2019), 최적화 전후 목적함수 값의 차이가 평균 0.03으로 크지 않았다 (Fig. 3b). 즉, SVM과 RF의 빠른 최적 하이퍼파라미터 탐색은 전술한 특성들로부 터 기인한 것으로 판단된다. 반면에 상대적으로 최적 화가 요구되는 하이퍼파라미터가 많은 BRT, XGB, MLP의 경우 최적 하이퍼파라미터 탐색이 느렸다 (Table 2; Fig. 3c~f). BRT는 최적화 전후 차이가 평 균 0.03으로 큰 차이를 나타내지는 않았다. 하지만 XGB는 0.09, MLP는 0.1로 SVM, RF보다 최적화 전후 목적함수 값의 차이가 커 최적화의 영향을 크게 받는 것으로 나타났다(Fig. 3c~f). 이는 손실 함수를 최소 화하며 개별 결정나무를 생성하는 XGB의 특성이 반 영된 것으로 판단된다. 특히, MLP의 경우 하이퍼파라 미터가 모델의 구조 자체에 가장 직접적으로 영향을 미치므로 가장 큰 차이를 나타낸 것으로 판단된다. 따 라서 한정적인 연산 자원하에서 기계학습 모델을 통 한 종분포모델을 개발할 시 상대적으로 하이퍼파라미 터의 영향을 적게 받는 SVM, RF에 대해 적은 탐색횟 수로 베이지안 최적화를 적용하여 모델을 개발하는 것이 효과적일 것으로 판단된다. 하지만, SVM의 경우 최적화 알고리즘의 적용의 영향이 연구 사례별로 상 이하다는 것으로 고려할 때 모든 사례에 대해 이러한 결과가 나올 것으로 일반화하기에는 한계가 있다 (Rojas-Domínguez et al., 2017;Schratz et al., 2019).

    3.2 모델별 예측성능

    베이지안 최적화를 통해 모든 모델에서 10겹 교차 검증의 평균 accuracy 값인 목적함수 값이 향상된 것 을 확인할 수 있었지만, 과적합의 대한 고려가 필요하다. 본 연구에서는 과적합의 방지를 위해 베이지안 최적 화를 위한 목적함수로 10겹 교차검증을 통해 얻어진 목적함수 값을 사용했지만, 데이터 자체의 bias나 noise에 따라 과적합 문제가 발생할 수 있다고 보고된 바 있다 (Cawley and Talbot, 2007;Levesque, 2018). 따 라서 검증데이터를 활용하여 각 기계학습 모델이 학 습에 사용되지 않은 데이터에 대해서도 우수한 예측 성능을 나타내는지 검토하였다.

    베이지안 최적화를 통해 최적화된 기계학습 알고리 즘은 검증데이터를 통한 저서성 대형무척추동물 출현 유무 예측에 모든 평가지표에서 0.7 이상의 높은 값을 나타내 과적합은 발생하지 않은 것으로 판단된다 (Table 4). 모든 모델이 양호한 성능을 나타냈지만, 종 별로 가장 높은 성능을 나타낸 기계학습 모델은 상이 했다. AUC를 기준으로 보았을 때, 개똥하루살이(B. fuscatus)와 줄날도래(H .kozhanischikovi)에 대해서는 BRT가 가장 높은 성능을 나타냈으며, 등줄하루살이 (U. punctisetae)는 RF와 XGB, 마지막으로 꼬마줄날도래 (C. brevilineata)는 XGB가 가장 높은 성능을 나타냈다. 종별로 살펴보면, 개똥하루살이의 경우 평균 AUC가 0.81로 가장 높았으며, 줄날도래가 0.72로 가장 낮았다.

    3.3 베이지안 최적화의 효율성

    베이지안 최적화의 유용성을 분석하기 위해 평행좌 표그래프를 활용했다 (Fig. 4; Fig. A1~4). 평행좌표그 래프란, 복잡한 고차원의 함수공간을 2차원상의 평면 에 시각화하는 기법으로 데이터에 대한 통찰을 제공 하는 장점이 있다. 본 연구에서는 1000회의 탐색 시도 에서 사용된 각 하이퍼파라미터 값들과 그에 따른 목 적함수 값을 활용하여 평행좌표그래프를 도시했다. XGB의 경우 앙상블을 구성하는 개별 결정나무의 최 대 크기(max_depth, maxd), 개별 결정나무 학습과정에서 자식 노드(child node)의 최소 샘플 수(min_child_weight, minc), 전체 개별 결정나무의 수(n_estimators, nesti), 개별 결정나무 학습에 사용할 입력변수의 비율(colsample_ bytree, colsample_b)과 전체 샘플에 대한 샘플의 비율 (subsample, subsa), 개별 결정나무의 유사도를 제한하 는 gamma(gamm), 마지막으로 다음 단일 결정나무 생 성을 위한 학습률(learning rate, learn)의 7가지 하이퍼 파라미터 대한 최적화가 이루어졌으므로, 평행좌표그 래프는 7개의 하이퍼파라미터 값과 그에 따른 목적함 수 값인 8개의 열로 이루어진다(Table 2; Fig. 4).

    높은 목적함수 값을 나타내는 최적 하이퍼파라미터 값의 조합은 분석 대상 종에 따라 일정한 패턴을 나 타내지 않고 상이했다(Fig. 4). 개똥하루살이의 경우, minc가 낮고, n_esti가 100~130 혹은 270~300, gamm 값이 1 이하, learn가 0.3 근처인 구간에서 높은 목적 함수 값이 밀집한 것을 확인할 수 있었으며(Fig. 4a), 등줄하루살이는 mic가 낮고, n_esti가 180~230, colsample_b와 subsa가 0.7 이하이며, 개똥하루살이와 달리 learn가 낮은 구간(0.3 이하)에 높은 목적함수 값 이 밀집한 것을 확인할 수 있었다(Fig. 4b). 줄날도 래는 등줄하루살이와 동일하게 learn이 낮은 구간(0.2 이하)에 높은 목적함수 값이 밀집되어 있으나, 전술한 두 종과 달리 minc와 subsa가 각각 6, 0.9 이상일 때 목적함수 값이 컸다(Fig. 4c). 꼬마줄날도래는 다른 종에 비해 상대적으로 뚜렷한 구간을 나타내지는 않 았지만, learn이 낮은 경우(0.2 이하) 높은 목적함수 값 이 밀집된 것을 확인할 수 있었다(Fig. 4d). 비록 모 든 종에서 공통적으로 높은 목적함수 값을 나타내는 하이퍼파라미터 구간은 없었으나, 이는 연구자가 임 의로 설정한 하이퍼파라미터 값이 해당 기계학습 알 고리즘 및 분석 데이터에 대한 최적값임을 보장할 수 없음을 방증하며, 이는 선행연구에서도 언급된 바 있 다 (Bergstra and Bengio, 2012). 또한, 높은 목적함수를 나타내는 구간에 탐색이 집중됨을 확인할 수 있는데, 이는 SVM, RF, BRT, MLP의 평행좌표그래프에서도 나타난다(Fig. A1~4). 이와 같은 결과는 이전 탐색에서 얻어진 사전지식을 반영해 순차적으로 최적해를 찾아 가는 베이지안 최적화의 특성을 직접적으로 보여주는 것으로 국내 수생태계 모니터링 자료에 대한 기계학 습 알고리즘의 활용에 있어 베이지안 최적화의 효율 성을 나타내는 결과로 볼 수 있다.

    4. 결 론

    본 연구에서는 국내 수생태계 모니터링 자료에 대 한 베이지안 최적화의 유용성을 고찰하였다. 이를 위 해 다양한 기계학습 알고리즘과 베이지안 최적화를 활용하여 개똥하루살이, 등줄하루살이, 줄날도래, 꼬 마줄날도래의 출현 확률을 예측하는 종분포모델링을 수행했다. 주요 결론은 다음과 같다. 베이지안 최적화 는 SVM, RF, BRT, XGB, MLP 모두에 대해 성공적으 로 적용됨을 확인했으며, 모든 평가지표에 대해 0.7 이상의 높은 성능을 나타내 과적합 문제 또한 발생하 지 않은 것으로 보인다. 기계학습 모델 중 SVM과 RF 는 상대적으로 적은 탐색 시도에서 최적 하이퍼파라 미터 집합을 얻을 수 있었으며, 최적화의 영향을 적게 받아 한정된 연산 자원하에서는 SVM과 RF를 활용하 는 것이 효과적이라 판단된다. 또한, 베이지안 최적화 과정에 대한 평행좌표그래프를 통해 각 하이퍼파라미 터의 최적값 근처에서 탐색이 집중돼 효율적인 탐색 이 이루어짐을 확인하였으며, 분석 대상 종에 대한 공 통적인 패턴 등은 찾아볼 수 없어 하이퍼파라미터 최 적화의 필요성을 방증했다.

    본 연구는 선행연구사례가 없는 국내 저서성 대형무 척추동물의 종분포모델에 베이지안 최적화를 적용하여 특징적이고 유의한 결과를 제시하였으며, 다양한 선행 연구사례를 참조하여 결과에 대해 고찰하였다. 비록 모 든 환경 데이터에 대해 전술한 결론들을 일반화하여 적 용하기에는 한계가 있다. 하지만, 저서동물지수(BMI), 한국오수생물지수(KSI) 등 지수자체를 종속변수로 갖 는 모델 개발에 베이지안 최적화를 적용하는 등 베이지 안 최적화의 유용성을 적용할 다양한 기회 및 필요성이 존재한다. 이는 베이지안 최적화가 기존 모델과 결합되 어 모델성능을 극대화할 수 있는 유연성을 지니고 있기 때문에 가능한 일이며 다양한 연구 및 정책집행 등에 우수한 예측성능을 기반으로 신뢰도를 부여할 수 있다 는 것을 의미한다. 따라서 본 연구의 결과는 복잡한 기 계학습 알고리즘의 사용 증가와 최적화 알고리즘의 적 용 필요성이 강조되는 최근의 추세에서 국내 수생태계 모니터링 자료를 활용한 환경관리, 후속 연구에서 하이 퍼파라미터 설정 및 기계학습 알고리즘 선택 등을 위한 기초자료 또는 선행 연구사례로써 유용하게 활용될 수 있을 것으로 기대된다.

    사 사

    본 연구는 환경부의 재원으로 한국환경산업기술원 수생태계 건강성 확보 기술개발사업의 지원을 받아 연구되었습니다(과제번호: 2020003050003)

    Figure

    JKSWW-35-4-259_F1.gif

    The location of sampling sites. Light green circles and orange squares indication training and test data, respectively.

    JKSWW-35-4-259_F2.gif

    Research flowchart.

    JKSWW-35-4-259_F3.gif

    Hyperparameter optimization learning curve for a) SVM, b) RF, c) BRT, d) XGB, and e) MLP. The graph means the objective function value for each species in a total of 1000 searches. The point at which the maximum value of the objective function value was updated during the hyperparameter search process was marked with a bold shape. Each line represents the connection of bold shapes by species.

    JKSWW-35-4-259_FA1.gif

    Parallel coordinate plot of hyperparameter search for SVM using Bayesian optimization for a) Baestis fuscatus, b) Uracanthella punctisetae, c) Hydropsyche kozhantschikovi, and d) Cheumatopsyche brevilineata. Each factor on the x-axis means a Bayesian optimization target hyperparameter.

    JKSWW-35-4-259_FA2.gif

    Parallel coordinate plot of hyperparameter search for RF using Bayesian optimization for a) Baestis fuscatus, b) Uracanthella punctisetae, c) Hydropsyche kozhantschikovi, and d) Cheumatopsyche brevilineata. Each factor on the x-axis means a Bayesian optimization target hyperparameter.

    JKSWW-35-4-259_FA3.gif

    Parallel coordinate plot of hyperparameter search for BRT using Bayesian optimization for a) Baestis fuscatus, b) Uracanthella punctisetae, c) Hydropsyche kozhantschikovi, and d) Cheumatopsyche brevilineata. Each factor on the x-axis means a Bayesian optimization target hyperparameter.

    JKSWW-35-4-259_FA4.gif

    Parallel coordinate plot of hyperparameter search for MLP using Bayesian optimization for a) Baestis fuscatus, b) Uracanthella punctisetae, c) Hydropsyche kozhantschikovi, and d) Cheumatopsyche brevilineata. Each factor on the x-axis means a Bayesian optimization target hyperparameter.

    JKSWW-35-4-259_F4.gif

    Parallel coordinate plot of hyperparameter search for XGB using Bayesian optimization for a) Baestis fuscatus, b) Uracanthella punctisetae, c) Hydropsyche kozhantschikovi, and d) Cheumatopsyche brevilineata. Each factor on the x-axis means a Bayesian optimization target hyperparameter.

    Table

    Summary of predictor variables

    Summary of hyperparameter search space

    Optimal hyperparameter sets

    Performance evaluation of models for test set using multiple metrics

    References

    1. Allan, J.D. , and Flecker, A.S. (1993). Biodiversity conservation in running waters, Biosci., 43(1), 32-43.
    2. Bergstra, J. , Bardenet, R. , Bengio, Y. , and Kegl, B. (2011). "Algorithms for hyper-parameter optimization", In 25th annual conference on neural information processing systems, Neural Information Processing Systems Foundation, Curran Associates Inc., Granada, Spain.
    3. Bergstra, J. , and Bengio, Y. (2012). Random search for hyper-parameter optimization, J. Mach. Learn. Res., 13(2), 281-305.
    4. Bergstra, J. , Yamins, D. , and Cox, D. (2013). "Making a science of model search: Hyperparameter optimization in hundreds of dimensions for vision architectures", In International conference on machine learning, PMLR 28(1), Omnipress, Atlanta, USA.
    5. Bergstra, J. , Komer, B. , Eliasmith, C. , Yamins, D. , and Cox, D.D. (2015). Hyperopt: a python library for model selection and hyperparameter optimization, Comput. Sci. Discov., 8(1), 014008.
    6. Breiman, L. (2001). Random forests, Mach. Learn., 45(1), 5-32.
    7. Candelieri, A. , Giordani, I. , Archetti, F. , Barkalov, K. , Meyerov, I. , Polovinkin, A. , Sysoyev, A. , and Zolotykh, N. (2019). Tuning hyperparameters of a SVM-based water demand forecasting system through parallel global optimization, Comput. Op. Res., 106, 202-209.
    8. Carlson, C.J. (2020). Embarcadero: Species distribution modelling with Bayesian additive regression trees in R, Methods Ecol. Evol., 11(7), 850-858.
    9. Cawley, G.C. , and Talbot, N.L. (2007). Preventing over-fitting during model selection via bayesian regularisation of the hyper-parameters, J. Mach. Learn. Res., 8(4), 841-861.
    10. Chen, Y. , Xu, J. , Yu, H. , Zhen, Z. , and Li, D. (2016a). Three-dimensional short-term prediction model of dissolved oxygen content based on PSO-BPANN algorithm coupled with kriging interpolation, Math. Probl. Eng., 6564202.
    11. Chen, T. , and Guestrin, C. (2016b). "Xgboost: A scalable tree boosting system", In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, Association for Computing Machinery, New York, USA.
    12. Chun, S.P. , Jun, Y.C. , Kim, H.G. , Lee, W.K. , Kim, M.C. , Chun, S.H. , and Jung, S.E. (2017). Analysis and prediction of the spatial distribution of EPT (Ephemeroptera, Plecoptera, and Trichoptera) assemblages in the Han River watershed in Korea, J. Asia Pac. Entomol., 20(2), 613-625.
    13. Cortes, C. , and Vapnik, V. (1995). Support-vector networks, Mach. Learn., 20(3), 273-297.
    14. Duarte, E. , and Wainer, J. (2017). Empirical comparison of cross-validation and internal metrics for tuning SVM hyperparameters, Pattern Recognit. Lett., 88, 6-11.
    15. Efron, B. , and Tibshirani, R.J. (1994). An introduction to the bootstrap, CRC press, Florida.
    16. Elith, J. , Graham, C.H. , Anderson, R.P. , Dudı´k, M. , Ferrier, S. , Guisan, A. , Hijmans, R.J. , Huettmann, F. , Leathwick, J.R. , Lehmann, A. , Li, J. , Lohmann, L.G. , Loiselle, B.A. , Manion, G. , Moritz, C. , Nakamura, M. , Nakazawa, Y. , Overton, J. McC. , Peterson, A.T. , Phillips, S.J. , Richardson, K.S. , Scachetti-Pereira, R. , Schapire, R.E. , Sobero´n, J. , Williams, S. , Wisz, M. S. and Zimmermann, N.E. (2006). Novel methods improve prediction of species’ distributions from occurrence data, Ecogr., 29(2), 129-151.
    17. Friedman, J.H. (2001). Greedy function approximation: a gradient boosting machine, Ann. Statist., 29(5), 1189-1232.
    18. Gobeyn, S. , Volk, M. , Dominguez-Granda, L. , and Goethals, P.L. (2017). Input variable selection with a simple genetic algorithm for conceptual species distribution models: A case study of river pollution in Ecuador, Environ. Model Softw., 92, 269-316.
    19. Gobeyn, S. , Mouton, A.M. , Cord, A.F. , Kaim, A. , Volk, M. , and Goethals, P.L. (2019). Evolutionary algorithms for species distribution modelling: A review in the context of machine learning, Ecol. Mod., 392, 179-195.
    20. Goodfellow, I. , Bengio, Y. , Courville, A. , and Bengio, Y. (2016). Deep learning, Cambridge: MIT press, Cambridge.
    21. Harris, D.J. (2015). Generating realistic assemblages with a joint species distribution model, Method. Ecol. Evol., 6(4), 465-473.
    22. Hastie, T. , Tibshirani, R. , and Friedman, J. (2009). The elements of statistical learning: data mining, inference, and prediction. Springer Science and Business Media, Berlin.
    23. Huang, J. , and Ling, C.X. (2005). Using AUC and accuracy in evaluating learning algorithms, IEEE Trans. Knowl. Data Eng., 17(3), 299-310.
    24. Hutter, F. , Hoos, H.H. , and Leyton-Brown, K. (2011). "Sequential model-based optimization for general algorithm configuration", In International conference on learning and intelligent optimization, Springer, Rome, Italy.
    25. Jones, D.R. (2001). A taxonomy of global optimization methods based on response surfaces, J. Glob. Optim., 21(4), 345-383.
    26. Kong, D. , Park, Y. , and Jeon, Y.R. (2018a). Revision of ecological score of benthic macroinvertebrates community in Korea, J. Korean Soc. Water Environ., 34(3), 251-269.
    27. Kong, D. , Son, S.H. , Hwang, S.J. , Won, D.H , Kim, M.C. , Park, J.H. , Jeon, T.S. , Lee, J.E. , Kim, J.H. , Kim, J.S. , Park, J. , Kwak, I.S. , Ham, S.A. , Jun, Y.C. , Park, Y.S. , Lee, J.K. , Lee, S.W. , Park, C.H. , Moon, J.S. , Kim, J.Y. , Park, H.K. , Park, S.J. , Kwon, Y. , Kim, P. , and Kim, A.R. (2018b). Development of benthic macroinvertebrates index (BMI) for biological assessment on stream environment, J. Korean Soc. Water Environ., 34(2), 183-201.
    28. Kwak, I.S. , Lee, D.S. , Hong, C. , and Park, Y.S. (2018). Distribution patterns of benthic macroinvertebrates in streams of Korea, Korean J. Ecol. Environ., 51(1), 60-70.
    29. Lee, S.W. , Hwang, S.J. , Lee, J.K. , Jung, D.I. , Park, Y.J. , and Kim, J.T. (2011). Overview and application of the national aquatic ecological monitoring program (NAEMP) in Korea, Ann. Limnol. Int. J. Lim., 47(S1), S3-S14.
    30. Lee, J.W. , Lee, S.W. , An, K.J. , Hwang, S.J. , and Kim, N.Y. (2020). An estimated structural equation model to assess the effects of land use on water quality and benthic macroinvertebrates in streams of the Nam-Han river system, South Korea, Int. J. Environ. Res. Public Health, 17(6), 2116.
    31. Levesque, J.C. (2018). Bayesian hyperparameter optimization: overfitting, ensembles and conditional spaces, Doctor's Thesis, Université Laval, Québec, Canada.
    32. Liu, W. , Liu, W.D. , and Gu, J. (2020). Predictive model for water absorption in sublayers using a Joint Distribution Adaption based XGBoost transfer learning method, J. Pet. Sci. Eng., 188, 106937.
    33. Lu, S. , Cai, Z.J. , and Zhang, X.B. (2009). "Forecasting agriculture water consumption based on PSO and SVM", In 2009 2nd IEEE International Conference on Computer Science and Information Technology, Piscataway, NJ : IEEE, Beijing, China.
    34. McCarron, E. , and Frydenborg, R. (1997). The Florida bioassessment program: an agent of change, Hum. Ecol. Risk Assess., 3(6), 967-977.
    35. Merow, C. , Smith, M.J. , Edwards Jr, T.C. , Guisan, A. , McMahon, S.M. , Normand, S. , Thuiller, W. , Wuest, R.O. , Zimmermann, N.E. , and Elith, J. (2014). What do we gain from simplicity versus complexity in species distribution models?, Ecogeg., 37(12), 1267-1281.
    36. Min, J.K. , and Kong, D.S. (2020). Distribution patterns of benthic macroinvertebrate communities based on multispatial-scale environmental variables in the river systems of Republic of Korea, J. Freshw. Ecol., 35(1), 323-347.
    37. Mockus, J. (2012). Bayesian approach to global optimization: theory and applications. Springer Science and Business Media, Berlin.
    38. Muñoz-Mas, R. , Vezza, P. , Alcaraz-Hernández, J.D. , and Martínez-Capel, F. (2016). Risk of invasion predicted with support vector machines: A case study on northern pike (Esox Lucius, L.) and bleak (Alburnus alburnus, L.), Ecol. Modell, 342, 123-134.
    39. Nieto, P. G. , Garcia-Gonzalo, E. , Fernández, J. A. , and Muñiz, C. D. (2014). Hybrid PSO–SVM-based method for long-term forecasting of turbidity in the Nalón river basin: A case study in Northern Spain, Ecol. Eng., 73, 192-200.
    40. Olof, S. S. (2018). A comparative study of black-box optimization algorithms for tuning of hyper-parameters in deep neural networks, Master’s Thesis, Luleå University of Technology, Luleå, Sweden.
    41. Pearson, R. G., New York : American Museum of Natural History. (2007). Species’ distribution modeling for conservation educators and practitioners, 98210, 1-50
    42. Probst, P. , Wright, M. N. , and Boulesteix, A. L. (2019). Hyperparameters and tuning strategies for random forest, Wiley Interdiscip Rev Data Min Knowl Discov, 9(3), e1301.
    43. Ribeiro, M. T. , Singh, S. , and Guestrin, C. (2016). ""Why should I trust you?" Explaining the predictions of any classifier", In Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining, Association for Computing Machinery, New York, USA.
    44. Rojas-Domínguez, A. , Padierna, L. C. , Valadez, J. M. C. , Puga-Soberanes, H. J. , and Fraire, H. J. (2017). Optimal hyper-parameter tuning of SVM classifiers with application to medical diagnosis, IEEE Access, 6, 7164-7176.
    45. Schapire, R. E. (1990). The strength of weak learnability, Mach. Learn., 5(2), 197-227.
    46. Schratz, P. , Muenchow, J. , Iturritxa, E. , Richter, J. , and Brenning, A. (2019). Hyperparameter tuning and performance assessment of statistical and machine-learning algorithms using spatial data, Ecol. Model., 406, 109-120.
    47. Shahriari, B. , Swersky, K. , Wang, Z. , Adams, R. P. , and De Freitas, N. (2015). Taking the human out of the loop: A review of Bayesian optimization, IEEE, 104(1), 148-175.
    48. Thornton, C. , Hutter, F. , Hoos, H.H. , and Leyton-Brown, K. (2013). "Auto-WEKA: Combined selection and hyperparameter optimization of classification algorithms", In Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining, Association for Computing Machinery, Chicago, USA.
    49. Zhang, Y. , Dudgeon, D. , Cheng, D. , Thoe, W. , Fok, L. , Wang, Z. , and Lee, J.H. (2010). Impacts of land use and water quality on macroinvertebrate communities in the Pearl River drainage basin, China, Hydrobiologia, 652(1), 71-88.