데이터 분석 = 모델 성능 개선 ?

Background

요새는 데이터사이언스에 대한 기틀을 잡고자 꾸준히 머신러닝 관련 공부를 하며, 이론 공부와 더불어 (가공되었지만 그래도 실생활에서 비롯된)몇몇 데이터셋을 대상으로 실제 데이터분석을 간간히 진행하고 있다. 하지만 분석도 해보고, 이와 관련되어 포스팅도 진행하며(ex. 따릉이 프로젝트) 느낀 것은 왜 이러한 데이터셋에 대해 해당 모델을 사용해야 하는지이러한 분석 결과에서 얻을 수 있는 의미는 무엇인지에 대한 스스로의 논의가 거의 없었다는 점이다. 일부 국내 데이터사이언스 업계에 있는 사람들의 말을 들어보아도 (최근 개선되고 있는 추세라고는 하지만) 사실상 모델의 성능지표를 개선하는 업무가 우선시되고 전통적인 통계적 관점은 상대적으로 덜 고려된다는 환경이라고 한다. 몇년 전부터 인공신경망에 대한 붐이 일어났고, 이에 대해 많은 사람들이 달려들어 현재의 데이터사이언스는 사실상 딥러닝 엔지니어링이라고 보아도 과언이 아닐 정도까지 이르른 것 같다. 국내의 많은 통계학과 석박사과정에서조차 DL 관련 연구가 매우 활발하게 진행되고 있으니 말이다. 물론 DL의 성능이 클래식한 statistical learning theory들에 비해 비약적으로 우수한 것은 부정할 수 없다. 하지만 높은 성능지표가 도출된다고 해서 해당 모델이 타당한 모델이냐고 물으면 그렇지는 못하다. 선형 회귀모형으로 분석해야 할 문제에 대해 딥러닝을 적용하여 Validation score를 99% 이상으로 맞춘다 해도 독립변수와 종속변수 사이의 관계에 대해서는 아무것도 알아낼 수가 없기 때문이다. 이러한 데이터사이언스 업계의 딜레마, 즉 성능(metric)과 해석(interpretability)의 딜레마에 대해 Judea Pearl은 paper Radical empiricism and machine learning research에서 둘 사이의 균형이 데이터사이언스에서 필수적인 요소라는 점을 설명한다. 이번 글에서는 해당 paper의 내용에 대해 다루어보도록 하겠다.

데이터사이언스와 인식론(Epistemology)

저자는 논문에서 데이터사이언스에 대한 관점(혹은 철학)을 서양 철학의 인식론적 관점에서 두 부류로 나눈다. 첫번째는 논문 제목의 Empiricism 이다. 이는 프란시스 베이컨, 존 로크 등에 의해 정립된경험주의를 의미한다.경험주의는 모든 지식을 경험(감각 경험)으로부터 의존한 것으로 본다. 이에 따르면 과학은 실제 자연현상에서 관찰되는 것과 실험으로부터 관찰할 수 있는 것을 귀납적으로 정립하는 것이다. 이를 데이터사이언스에 적용하면, 실생활에서 관찰되는 데이터셋은 어떤 통계학적인 모델로부터 관측된 것이 아니므로 모델에 근거하지 않은, 즉 model-free한 방법(Neural Network 등)을 이용해 성능을 향상시키는 것이 데이터사이언스의 전부이다. 저자는 현대의 연결주의(connectionism : 노드 간의 연결을 기반으로 모델링하는 AI에서의 관점)는 사실상 급진적인(radical) 경험주의의 산물이라고 언급한다. 반면, 인식론의 다른 갈래인 합리주의(rationalism)은 경험주의와 반대로 자연 현상의 순수한 원리(확률분포, 혹은 다른 통계적 모델)가 존재한다고 가정하고, 경험은 이러한 원리가 자연에 발생하는 것을 관찰할 뿐이라는 주장이다. 즉, 합리주의적 관점에서는 우리가 얻는 데이터셋은 통계학적인 모델(probability distribution)에서 발생한 것이므로 데이터셋을 통해 모델을 추정하는 과정이 데이터사이언스인 것이다. 따라서 전통적인 통계학은 합리주의적 부류에 속한다고 볼 수 있다. 저자는 현대의 머신러닝 및 데이터사이언스와 관련된 논의들이 다소 급진적인 경험주의적 관점에 치우쳐 있으며, 이를 바로잡아 Model-based science(합리주의적 관점)과 경험주의적 관점이 적절한 균형을 이루어야 한다고 주장한다.

Expediency, Trnasparency and Explanability

저자는 데이터사이언스에서의 인식론적 균형을 편의성(expediency), 투명성(transparency), 설명가능성(explanability)의 세 가지 내용으로 설명한다.

우선 편의성과 관련하여, 최근 머신러닝 학계를 이끄는 패러다임을 simulated evolution(진화의 시뮬레이션)으로 표현한다. 이는 머신러닝의 학습 과정을 인류의 지능이 진화하는 과정으로 보고, simple neural network부터 돌연변이(mutation) 혹은 자연 선택(natural selection) 과정을 통해 점차 인간의 지능 수준으로 네트워크가 발전한다는 개념이다. 저자는 머신러닝을 오로지 진화 시뮬레이션적인 관점으로 볼 경우 문제가 된다고 주장한다. 우선 근본적으로 진화라는 과정은 매우 느린 과정일 뿐 아니라, 자연선택 혹은 돌연변이의 과정은 진화의 관점에서 불필요하거나 unaffordable 하다. 저자에 따르면 머신러닝으로 해결해야 할 문제들은 기존에 없었으면서도 희소한(sparse) 데이터에 대해 빠르게 해석하고 때로는 예측과 같은 반응(reaction)을 요구한다. 저자는 이에 대해 최근의 코로나19 전염병 사태를 언급한다. 전염병의 발생과 동시에 확진자 추이와 같은 추세에 대한 예측이 시급하게 필요한 문제가 발생한다. 그러나 코로나19 바이러스가 퍼지기 시작한 직후에는 데이터가 매우 희소하고 출처가 이질적(heterogenous)이다(여러 국가에 퍼져 데이터가 비교적 일관적이지 않음). 즉, simulated evolution의 관점으로 문제를 해결하기에는 데이터가 매우 부족하기 때문에 충분한 코로나 데이터가 축적되기까지의 시간이 필요하며, 이는 시급성에 매우 위배된다는 것이다. 반면, model-based approach에서는 이전까지 연구된 전염병 관련 모델들을 바탕으로 쉽고 빠르게 접근할 수 있으며 이런 경우 편의성(expediency) 관점에서 모델 기반 접근이 훨씬 유리하다는 것이다.

투명성과 관련된 관점은 지식의 컴파일(knowledge compilation)과 관련되는데, 이는 세상의 지식이 사용되기 위해 어떤 기계의 형태로(machine form) 변환 및 표현되는 것을 의미한다. 한번 컴파일된 지식은 점진적으로 추론(inference)과 같은 머신러닝 업무에서 결정해야할 문제들(decision problem)에 대한 답을 내는 것을 용이하게 해준다. 이러한 지식의 컴파일은 추상화(abstraction)과 재구성(re-formatting)을 모두 포함하는데, 추상화 과정은 지식이 가지고 있는 정보의 손실을 수반하지만 재구성 과정은 단지 정보의 형태를 변환하는 과정이다. 예를 들어 수치적으로 표현된 식들을 graphical model로 변환하는 과정은 추상화 과정에 해당하며, 신호의 파형을 스펙트럼 형태로 표현하는 것은 재구성 과정에 해당한다. 따라서 저자는 지식의 컴파일을 사용하기 위해 컴파일된 표현에 대한 수학적 성질과 그에 대한 내재적 한계 및 효과들에 대해 알아야 할 필요가 있다고 주장한다. 즉, 데이터를 탐색하고 해석하는 과정들에 대해 인과관계에 기반한 모델링을 도입해야 한다고 설명한다.

마지막으로, 추론 문제들은 추론 과정과 무관하게 사람에 의해 이해되는 형태로 그 지식이 축적, 발견된다고 저자는 주장한다. 추론이 사용되는 정책 평가, 개인적인 결정, 혹은 세상에 대한 일반적인 이해 과정에서 모든 추론 과정은 사람들이 지식을 구성하는 가장 근본적인 언어(language)인 원인과 결과로 표현된다는 것이다. 따라서 저자는 머신러닝에서도 데이터를 적합시키는 방법과 관계없이 이러한 원인-결과의 관점에서 표현될 수 있어야 하며 이러한 관점을 익히는 것이 필수적이라고 주장한다.

Conclusion

개인적으로 글을 읽으며 소위 ‘딥러닝 신봉자’와 같이 모델의 성능에만 집착하는 세태에 대해 비판하는 저자의 의견에 공감할 수 있었다. 물론 데이터사이언스가 통계적 추론이 전부가 아니기 때문에 이에 대한 비판의 소지가 있다는 생각도 들었다. 또한 패턴 인식, Computer Vision같이 딥러닝이 주력으로 활약해야 하는 분야가 분명히 있다는 점도 간과해서는 안된다고 생각한다. 하지만 근본적으로 데이터라는 것은 무에서 창조되는 것이 아니라, 어떠한 자연 및 사회 현상, 비즈니스 과정 등 실재하는 무언가로부터 생성되는 것이다. 하물며 가장 랜덤한 것 처럼 보이는 난수를 생성할 때 조차 균등분포에 의해 생성되는데 말이다. 그 ‘무언가’에 대한 이해 없이 오로지 데이터를 숫자들로만 파악한다면 이를 데이터 ‘사이언스’ 라고 부를 수 있을지 의문이라는 생각이 든다.

References

  • Radical Empiricism and Machine Learning, Judea Pearl. (2021).
  • Causality: Models, Reasoning, and Inference. Judea Pearl. (2000).

Leave a comment