1 분 소요

차원 축소

차원 축소(Dmension Reduction) 개요

차원의 저주

차원이 커질수록 데이터 포인트들 간 거리가 크게 늘어나고, 데이터가 희소화(Sparse) 됨

  • 수백~수천개 이상의 피처로 구성된 포인트들 간 거리에 기반한 ML 알고리즘이 무력화됨
  • 피처가 많을 경우 개별 피처 간에 상관관계가 높아 선형 회귀와 같은 모델에서는 다중 공선성 문제로 모델의 예측 성능이 저하될 가능성이 높음

차원 축소의 장점

  • 학습 데이터 크기를 줄여서 학습 시간 절약
  • 불필요한 피처들을 줄여서 모델 성능 향상에 기여 (주로 이미지 관련 데이터)
  • 다차원의 데이터를 3차원 이하의 차원 축소를 통해서 시각적으로 보다 쉽게 데이터 패턴 인지

피처 선택과 피처 추출

일반적으로 차원 축소는 피처 선택(feature selection)과 피처 추출(feature extraction)로 나눌 수 있다.

  • 피처 선택(feature selection): 특정 피처에 동속성이 강한 불필요한 피처는 아예 제거하고, 데이터의 특징을 잘 나타내는 주요 피처만 선택하는 것
  • 피처 추출(feature extraction): 피처(특성) 추출은 기존 피처를 저차원의 중요 피처로 압축해서 추출하는 것
    이렇게 새롭게 추출된 중요 특성은 기존의 피처를 반영해 압축된 것이지만 새로운 피처로 추출하는 것

피처 추출(Feature Extraction)

피처 추출은 기존 피처를 단순 압축이 아닌, 피처를 함축적으로 더 잘 설명할 수 있는 또 다른 공간으로 매핑해 추출하는 것이다.

예. 모의고사 성적/종합 내신 성적/수능 성적/봉사활동/대외활동/수상 경력
-> 학업 성취도/커뮤니케이션/문제 해결력

차원 축소의 의미

차원 축소는 단순히 데이터의 압축을 의미하는 것이 아니다.
더 중요한 의미는 차원 축소를 통해 좀 더 데이터를 잘 설명할 수 있는 잠재적(Latent)인 요소를 추출하는 데에 있다.

  • 추천 엔진
  • 이미지 분류 및 변환
  • 문서 토픽 모델링