최대 1 분 소요

사이킷런 소개와 특징

사이킷런 소개

  • 파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 API를 지향할 정도로 쉽고 가장 파이썬스러운 API를 제공한다.
  • 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API를 제공한다.
  • 오랜 기간 실전 환경에서 검증됐으며, 매우 많은 환경에서 사용되는 성숙한 라이브러리이다.
  • 주로 Numpy와 Scipy 기반 위에서 구축된 라이브러리이다.

머신러닝을 위한 용어 정리

  • 피처(Feature)
    • 피처는 데이터 세트의 일반 속성이다.
    • 머신러닝은 2차원 이상의 다차원 데이터에서도 많이 사용되므로 타겟값을 제외한 나머지 속성을 모두 피처로 지칭한다.
  • 레이블, 클래스, 타겟(값), 결정(값)
    • 타겟값 또는 결정값은 지도학습 시 데이터의 학습을 위해 주어지는 정답 데이터이다.
    • 지도학습 중 분류의 경우에는 이 결정값을 레이블 또는 클래스로 지칭한다.

지도학습 - 분류

  • 분류(Classitication)는 대표적인 지도학습(Supervised Learning) 방법의 하나이다.
    지도학습은 학습을 위한 다양한 피처와 분류 결정값인 레이블(Label) 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측한다.

    즉, 지도학습은 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식이다.
    이때 학습을 위해 주어진 데이터 세트를 학습 데이터 세트, 머신러닝 모델의 예측 성능을 평가하기 위해 별도로 주어진 데이터 세트를 테스트 데이터 세트로 지칭한다.