Basis Expansion

기저 확장이란 데이터셋 $\mathbf{X}$의 각 벡터 $X\in\mathbf{X}$에 새로운 변수를 추가하거나, 기존 변수를 대체하는 방법으로 새로운 모형을 구성하는 것이다. 총 M개의 변환이 존재한다고 하고, 이때 $m$번째($m= 1,\ldots,M$) 변환을

\[h_m(X) : \mathbb{R^p\to R}\]

로 표기하자(기존 데이터는 p개의 변수를 가지고 있음). 이를 이용해 생성한 새로운 선형 모델

\[f(X) = \sum_{m=1}^M\beta_m h_m(X)\]

을 $\mathbf{X}$에서의 선형 기저확장linear basis expansioon 이라고 한다. 회귀분석에서 다루는 여러 스킬들 역시 기저확장의 관점으로 접근가능하다. 만일 $h_m(X) = X_m$이면 $f(X)$는 기존 선형모델과 동일하다. 만일 $h_m(X) = X_j^2$ 이나 $h_m(X) = X_jX_k$ 형태의 변환이 주어지면 이는 이차항을 추가한 선형회귀모형(또는 quadratic model)이 된다.

References

  • Hastie, T., Tibshirani, R., Friedman, J. H., & Friedman, J. H. (2009). The elements of statistical learning: data mining, inference, and prediction (Vol. 2, pp. 1-758). New York: springer.

Leave a comment