🐣python

결정트리

category
🐣python
URL
date
Feb 10, 2023
slug
decision-Tree
author
status
Public
tags
Playdata_deep-learning & machine-learning
summary
결정트리
type
Post
thumbnail
updatedAt
Mar 2, 2023 03:00 AM

분류의 개요

지도학습 → 분류

  • 학습 데이터로 주어진 피처와 레이블을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터값이 주어졌을때 미지의 레이블을 예측하는 것
  • 기존 데이터가 어떤 레이블에 속하는지 패턴을 알고리즘으로 학습 → 새롭게 관측된 데이터의 레이블 판별
 

분류 알고리즘

  1. 나이브베이즈 - 베이즈 통계와 생성 모델
  1. 독립 변수와 종속 변수와 선형 관계성에 기반에 로지스틱 회귀
  1. 데이터 균일도에 따른 규칙 기반 결정 트리
  1. 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 SVM
  1. 근접 거리를 기준으로 하는 최소 근접 알고리즘
  1. 심층 연결 기반의 신경망
  1. 서로 다른(같은) 머신 러닝 알고리즘을 결합한 앙상블
 

앙상블

  • 서로 다른 / 또는 같은 알고리즘 결합
      1. 배깅 - 랜덤 포레스트 : 뛰어난 예측 성능, 빠른 시간, 유연성
      1. 부스팅 -
        1. 그래디언트 부스팅 - 뛰어난 예측성능, 단, 수행시간 길다, 최적화 모델 튜닝 어렵다
        2. XGBoost, LightGBM - 예측 성능은 높이고 수행시간은 단축, 정형 데이터 분류 영역에서 가장 활용도가 높다
      1. 스태킹 - 앙상블의 앙상블
          • 앙상블 - 분류에서 가장 각광을 받는 방법 중 하나, 정형 데이터의 예측 분석 영역
          • 앙상블의 기본 알고리즘 - 결정 트
           

결정 트리

  1. 직관적으로 이해하기 쉬운 머신러닝 알고리즘
  1. 종속 변수가 범주형일 겨웅, 수치형일 경우 모두 사용할 수 있는 지도학습 방법
  1. 결과에 대한 해석이 용이하여 정책 의사결정에 폭넓게 사용되는 방법
  1. 주어진 설명 변수(연속형, 범주형)를 활용해 의사결정 규칙(rule)을 자동으로 찾아내 트리 기반의 분류 규칙을 생성
  1. 결정트리 알고리즘은 데이터나 오차 등에 대한 어떠한 가정도 필요 없는 비모수 방법(non-parametric method)으로 유연하게 사용