[Python 머신러닝] 08-11 텍스트 분석 정리
텍스트 분석
정리
-
텍스트 분석 머신러닝 프로세스: 텍스트 전처리 -> 피처 벡터화 -> ML 학습/예측 평가
-
텍스트 전처리: 클렌징, 토큰화, 필터링/스톱워드 제거, 어근화(Stemming, Lemmatization)
- 피처 벡터화
- Bag of Words: 단순 카운트 기반 벡터화, TF-IDF 벡터화
- 텍스트 분석 주요 영역
- 텍스트 분류: 지도 학습 기반의 텍스트 카테고리 분류
- 감성 분석: 지도 학습 기반, 감성 사전 기반
- 텍스트 요약: 토픽 모델링
- 텍스트 군집화와 유사도 측정
-
한글 NLP
- 비정형 데이터와 정형 데이터 결합을 통한 예측 분석