AutoML에 대해
AutoML에 대한 사견
AutoML의 존재에 대해서는 머신러닝을 본격적으로 공부하기 시작한 시점부터 알고 있었다. 그러나, 개인적인 생각으로 머신러닝의 과정을 자동화하는 것에 의존하기보다 모델을 직접 공부해보고, 최적화 과정이 각각 어떻게 이루어지는지 살펴보는 것이 더 중요하다고 생각되었기에, 실제로 사용해보지는 못했었다.
그런데, 이번 따릉이 데이터로 토이 프로젝트를 진행하며 AutoML을 처음 접했다(링크). 여기서는 PyCaret 패키지를 이용해 Python 환경에서 AutoML을 이용해보았다. PyCaret 환경의 경우, Regression, Classification 뿐 아니라 Clustering, 이상치 탐색, 심지어는 자연어 처리(NLP) 까지도 AutoML을 제공한다.
위 게시글에서 다룬 내용들은 AutoML 에서 제공하는 기능의 매우 일부분에 불과하다. 그럼에도 불구하고 모델링과 하이퍼파라미터 튜닝, 심지어 모델 시각화까지 전 기능에 걸쳐 너무나도 간단한 코드 몇줄 만으로 대부분의 작업을 손쉽게 해낼 수 있다는 것을 확인할 수 있었다. 여태껏 일일이 모델을 개발하고, 하이퍼파라미터를 수정해가며 기껏 해낸 자동화가 GridSearch에 그친 나에게 이러한 편의성을 갖춘 AutoML은 가히 충격적이었다.
실제로 Medium 등의 플랫폼에서 작성된 현업 데이터사이언티스트들의 이야기를 들어보면, 고도의 모델링을 수행하는 통계학 박사급 소수 인력을 제외하고는 대부분의 모델링 업무가 AutoML로 대체되어가는 중이라고 한다. 사실 적당한 전문지식을 갖춘 인력들을 모델링 및 하이퍼파라미터 튜닝 업무에 소비한다는 것은 기업 입장에서도 바람직하지 않을 수 있다고 생각된다. 현업에 있는 대부분의 사람들의 이야기를 종합해보면, 데이터로 의미를 도출해내는 일련의 과정에서 모델링은 사실 많이 쳐줘야 30%, 보통 그보다 낮은 의 비중을 차지한다. 그보다는, 데이터의 수집 과정 및 전처리 과정, 더 나아가 실험 설계 과정이 나머지 70% 이상을 차지하고, 이들에 의해 데이터사이언스 업무의 성과가 결정된다.
하지만, 그렇다고 해서 각 머신러닝 모델을 공부하는 것이 무의미하냐고 하면, 현직 데이터사이언스 업무에 종사하시는 분들은 어떻게 생각할 지 모르지만, 무의미하지는 않다고 생각된다. 만일 어떤 머신러닝 문제에서 AutoML을 통해 로지스틱 회귀모형이 가장 높은 성능을 나타낸다는 사실을 알았다고 해도, 로지스틱 회귀모형이 단순 이진분류 모델 중 하나라는 사실을 아는 사람과 해당 모형이 어떤 형태의 최적화 문제에 해당하는지까지 아는 사람이 각각 해석할 수 있는 결과의 범위는 분명히 차이날 것이다. 또한, 아무리 성능이 높은 모델이라 할지라도 데이터셋의 구조나 특성에 부합하지 않는 모델을 쳐낼 수 있는 판단력 역시 필요할 것이다. 그렇기에, 아무리 AutoML을 사용하는 데이터사이언티스트라 해도 통계학적 지식은 필수로 요구될 것이다. 또한 데이터 전처리 및 실험계획과 같은 분야에서도 수리통계적 지식이 요구되기 때문에 AutoML이 데이터사이언티스트들을 대체한다는 일부 주장에 대해서는 동의하기 어렵다.
AutoML은 데이터관련 산업군에서 분명 의미있는 역할을 할 것이 분명하다고 생각된다. 통계학, 컴퓨터공학 등 유관학문을 전공하지 않은 사람들도 간단한 코드 몇줄, 심지어는 GUI 기반의 간단한 프로그램으로 복잡한 모델을 쉽게 모델링할 수 있기 때문이다. 기존에 요구되었던 모델링 인력을 좀 더 효율적으로 사용할 수 있기 때문에, 개인적으로는 특히 고급인력이 부족한 공공분야(데이터 활용 공공기관)에서 유의미한 성과를 도출할 수 있도록 도움이 되리라 생각된다. 또한, 통계학을 전공하는 내 입장에서는 앞으로 AutoML 등으로 대체될 수 없는, 전통적이면서도 앞으로도 계속 유효한 Casual Inference 등의 분야에 좀 더 집중해보고자 하는 생각이다.
소비자 구매 내역을 바탕으로 추천 알고리즘을 만드는 것은 얼마든지 대체가능한 AutoML의 영역이지만, 해당 알고리즘이 실제 매출증가의 원인이 되었는지 파악하는 것은 통계학의 영역이다.
Leave a comment