데이터사이언스 로드맵

이 페이지에는 데이터사이언스를 학습하는 과정에 필요한 영역들과 추천하는 교재, 강의를 정리해놓았습니다.
작게나마 학습 과정에 도움이 되었으면 좋겠습니다.
(데스크탑으로 보시면 더 자세한 코멘트를 보실 수 있습니다)

STEP 1

Fundamentals
Mathematics
수학은 통계학과 데이터사이언스를 공부하는 과정에서 가장 기본이 되는 학문입니다. 다음과 같은 내용 및 교재를 추천합니다.
  • 미적분학 : Stewart Calculus

    - 미적분학은 수학과 통계학 모든 영역에 필요한 기본적인 수학적 도구입니다.

  • 선형대수 : Matrix Algebra Useful for Statistics

    - 선형대수학을 본격적으로 다루지는 않지만, 통계학에서 사용되는 행렬 대수에 대한 내용을 다룹니다. 번역본도 존재합니다.

  • 해석학 기초 : 프로그래머를 위한 기초 해석학

    - 해석학이 처음이시라면 추천드리는 기본적인 인트로 교재입니다. 이슬비 님의 맛있는 해석학 교재도 추천드립니다.

  • 실해석학 : Royden, Real analysis

    - 측도론 기반의 확률론을 공부하기 위해서는 실해석학이 필요합니다. Rudin의 PMA보다 접근이 쉬워 Royden 교재를 추천드립니다.

Mathematical Statistics
통계학의 확률변수 관련 개념과 추정, 검정 등의 내용은 머신러닝, 딥러닝을 공부하는데 필수적인 내용입니다. 다음과 같은 내용 및 교재를 추천합니다.
  • 기초통계학 : Probability and Statistical Inferece

    - 수리통계적 접근 이전에 통계학과 확률론의 기본적인 내용을 다룹니다. 교양수업 수준의 기초통계학보다는 더 깊이 있는 내용을 다룹니다.

  • 수리통계학 : 김우철, 수리통계학, Hogg, Introduction to mathematical statistics

    - 미적분학, 선형대수학에 대한 사전지식이 요구됩니다. 두 책의 난이도는 비슷한 편인데, 국내 책이라는 점과 다양한 예제가 많다는 점에서 개인적으로는 김우철 교수님의 책을 선호하는 편입니다.

Linear Regression
회귀분석 과목은 머신러닝의 다양한 모형들을 이해하기 위해 필수적으로 알아야 하는 내용입니다. 선형대수학과 기본적인 수리통계에 대한 사전지식이 요구되며, 다음 교재들을 추천합니다.
Probability Theory
확률론 역시 데이터 과학에서 필수적인 내용입니다. 데이터사이언스를 위해 측도론 기반의 확률론을 필수적으로 공부할 필요는 없지만, 통계학의 깊이 있는 이해를 위해서는 요구된다고 생각됩니다.
  • A First Course in Probability

    - 측도론을 사용하지는 않으면서도 확률론의 많은 내용들을 깊이 있게 다루는 교재입니다.

  • Probability and Measure

    - 측도론 기반의 확률론을 공부하기 위한 교재입니다. 실해석학에 대한 사전지식이 요구되지만, 이 교재는 사전지식에 대한 설명이 자세히 되어있기에 추천합니다. 다만 개인적으로 교재의 서술 순서가 다소 난해한 부분이 있습니다.

  • Probability: Theory and Examples

    - 마찬가지로 측도론 기반의 확률론을 공부하기 위한 교재입니다. Billingsley 교재보다는 난이도가 높다고 생각되며 설명이 자세하지는 않습니다. 다만 예제의 해설을 구할 수 있습니다.

Advanced Statistics
아래 교재들은 데이터사이언스를 위한 것이라기 보다는 더 깊이 있는 수리통계적 지식을 위한 교재들입니다.
  • Theory of Point Estimation

    - 통계학의 대가 Lehmann의 책으로, 점추정에 대한 매우 깊이있는 내용을 다루고 있습니다.

  • Testing Statistical Hypotheses

    - TPE와 마찬가지로 Lehmann의 책이며, 가설검정에 대한 깊이있는 내용을 다루고 있습니다.

  • Mathematical Statistics, Jun shao

    - 측도론을 기반으로 수리통계에 대한 내용을 전개하는 책이라, 개인적으로 보다 엄밀한 정의나 설명이 필요하다고 생각되는 부분에서 참고한 책입니다.

STEP 2

Machine Learning
Statistical Learning
많은 머신러닝 방법론들은 복잡한 통계적 방법론들로 볼 수 있습니다. 전통적인 통계방법론들이 머신러닝으로 확장되는 과정을 잘 설명하는 교재 두 권을 소개합니다.
  • An Introduction to Statistical Learning

    Regression, Classification 부터 여러 머신러닝 방법들에 대한 이론적인 내용을 다양하게 소개합니다. 최근에는 R 이외에도 Python 코드 기반의 pdf도 제공되어 머신러닝 입문으로 공부하기에 좋은 책이라고 생각됩니다. 한국어 번역본도 존재합니다.

  • The Elements of Statistical Learning

    앞선 교재보다 머신러닝의 이론적인 내용을 더 깊이 있게 다룹니다. 학부 수리통계학, 회귀분석 수준 이상의 배경 지식이 요구되는 것 같습니다.

Probabilistic Machine Learning
최근 통계학 기반의 머신러닝 교재들 중 개인적으로 가장 선호하는 Kevin P. Murphy의 교재를 소개합니다. 확률론과 수리통계학에 기반한 접근 방식으로 거의 대부분의 머신러닝 토픽들을 다룹니다. 최근 연구들도 반영되어 있어 머신러닝의 최신 동향을 파악하기에도 좋습니다.
  • Probabilistic Machine Learning : An Introduction

    - 머신러닝의 다양한 내용들을 확률론적으로 접근하는 방식으로 다룹니다. ESL보다는 약간 쉬운 난이도라고 생각되며, 딥러닝에 대해서는 앞선 통계적 머신러닝 교재들보다 더 깊이 있게 다룹니다.

  • Probabilistic Machine Learning : Advanced Topics

    - 앞선 교재보다 더욱 깊이 있는 내용들을 다룹니다. 전체적인 흐름보다는 구체적인 방법론들을 다루며 방대한 양의 토픽이 수록되어 있습니다. 특히 그래피컬 모델, 생성형 모델과 베이지안 방법론들에 대한 설명이 잘 되어 있습니다.

Gaussian Process
가우시안 프로세스는 머신러닝의 다양한 분야에 직접적으로 활용되거나 응용되는 방법론입니다. 베이지안 방법론에 대한 사전지식이 있으면 좋으며, 다음 교재를 추천합니다.
Optimization
최적화 문제는 머신러닝과 딥러닝 알고리즘에서 많은 중요성을 차지하는 영역입니다. 여러 최적화 문제에 대해 공부하면 도움이 될 것 같습니다.
  • Convex Optimization

    볼록최적화 분야의 바이블이라고도 할 수 있는 Boyd의 교재입니다. 서술이 매우 친절하며, 사전지식 없이도 최적화에 대해 공부할 수 있다고 생각됩니다.

  • Bayesian Optimization

    베이지안 최적화에 대한 교재입니다. 베이지안 최적화는 최근 머신러닝과 딥러닝 모델에서의 하이퍼파라미터 튜닝에 시도되는 방법론입니다. 가우시안 프로세스에 대한 사전지식이 요구됩니다.

Deep Learning
딥러닝은 최근 몇년간 데이터사이언스 분야에서 가장 큰 영향력을 끼치고 있는 분야입니다. 딥러닝을 공부하기 위해서는 기초 선형대수, 미적분학, 확률론, 통계학과 머신러닝 방법론들에 대한 지식이 요구됩니다.
  • CS231n: Deep Learning for CV

    - 딥러닝의 기초적인 내용을 다루는 강의입니다. 딥러닝을 공부하기 위한 사전지식이 없다면 이 강의를 추천합니다. 유튜브에서 강의 영상도 확인할 수 있습니다.

  • Understanding Deep Learning

    - 딥러닝의 이론적 백그라운드부터 AI ethics까지 폭넓은 주제를 다룹니다. 수학적 설명이 자세히 잘 되어있으며 최근의 딥러닝 동향도 반영되어 있어 추천드리는 책입니다.

  • Pytorch Tutorials

    - 딥러닝 프레임워크인 Pytorch의 공식 튜토리얼입니다. 파이토치를 사용하여 딥러닝을 공부하고 싶다면 이 튜토리얼을 추천드립니다.

STEP 3

Other Topics
Causal Inference
인과추론은 최근 몇년간 데이터사이언스 분야에서 떠오른 분야입니다. 일반적으로 인과추론은 Potential outcome framework, Causal Diagram framework의 두 가지 프레임워크로 나누어 접근하는데, 다음 교재들을 추천합니다.
Spatial Data Analysis
공간통계학은 다양한 활용분야를 가지고 있는 통계학의 한 분야입니다. Geostatistical, Lattice, Point pattern 데이터를 다룹니다. 확률론과 수리통계학, 가우시안 프로세스에 대한 사전지식이 요구됩니다.
Bayesian
베이지안 방법론은 통계학의 주요 분야 중 하나입니다. 확률론, 수리통계에 대한 사전지식이 요구됩니다.
  • Bayesian Data Analysis

    Andrew Gelman 교수님의 베이지안 교재입니다. 베이지안의 바이블이라고도 불리며, 베이지안 방법론의 다양한 내용들을 다룹니다. 최근 교재에는 Python 코드 예제도 수록되어 있습니다.

ETC
앞선 주제들 외에, 추가적으로 공부해두면 좋을 법한 토픽들을 소개합니다.
  • Small Sample Size Solutions

    - 머신러닝과 딥러닝 모델들은 주로 빅데이터 기반으로 학습이 이루어지는데, 데이터가 적은 경우 사용가능한 통계적 방법론(회귀분석, 구조방정식 등)을 다루고 있습니다.

  • Differential Privacy

    차등적 정보보호에 대한 교재입니다. 최근 데이터사이언스 분야에서 많이 활용되고 있는 분야로 머신러닝 모델들의 개인정보 보호나, 개인정보가 보호된 데이터셋 배포에 활용됩니다.

  • Topological Data Analysis, Manifold Learning

    위상적 구조를 갖는 데이터를 분석하는 방법론들로, 역시 최근 데이터사이언스 분야에서 많이 연구되고 있는 분야입니다. 다만, 위상수학과 미분기하학 등 깊은 수학적 지식이 요구됩니다.

Data Science
앞서 소개한 이론적인 내용 외에도 데이터베이스(SQL 등), 시스템(Hadoop, Spark) 등 데이터 엔지니어링에 대한 지식이나 프로그래밍에 대한 지식 역시 데이터사이언스를 위한 필요한 내용입니다.
다만, 데이터 공학이 아닌 데이터 과학을 표방하는 분야이기에, 데이터의 본질을 이해하는 것이 중요하고 이를 위해 수학과 통계학에 기반한 이론적인 내용들을 공부하는 것이 우선된다고 생각됩니다.

Made by ddangchani.github.io (ver. 2024)