Skip to content

Latest commit

 

History

History
155 lines (87 loc) · 3.25 KB

머신러닝 문제해결 체크리스트.md

File metadata and controls

155 lines (87 loc) · 3.25 KB

머신러닝 문제해결 체크리스트

Golden Kaggler - All rights reserved. (C)

CC BY-SA

1. 문제(경진대회) 이해

제목:

미션:

문제 유형: 회귀 / 이진분류 / 다중분류 / 기타(시계열)

평가지표:

2. 탐색적 데이터 분석(EDA)

1) 데이터 둘러보기(구조 탐색)

  • 파일별 용도 파악

  • 데이터 양(레코드 수, 피처 수, 전체 용량 등)

  • 피처 이해(이름, 의미, 데이터 타입, 결측값 개수, 고윳값 개수, 실제값, 데이터 종류 등)

  • 훈련 데이터와 테스트 데이터 차이

  • 타깃값: 예측해야 하는 값.

2) 데이터 시각화

  • 효과적인 시각화를 위한 피처 엔지니어링

  • 각종 시각화

    • 수치형 데이터 시각화
      • 히스토그램, 커널밀도추정, 분포도, 러그플롯
    • 범주형 데이터 시각화
      • 막대 그래프, 포인트플롯, 박스플롯, 바이올린플롯, 카운트플롯
    • 데이터 관계 시각화
      • 히트맵, 라인플롯, 산점도, 산점도 + 회귀선
  • 피처 파악

    • 추가할 피처:
    • 제거할 피처:
    • 피처별 인코딩 전략:
  • 이상치 파악

    • 해당 피처별 처리 방법

    결과물 : 추가/제거 피처 목록, 인코딩 전략, 이상치 처리 전략

3. 베이스라인 모델

1) 준비하기

  • 데이터 불러오기
  • (필요 시) 기본적인 피처 엔니지어링
  • 평가지표 계산 함수 준비

결과물 : 데이터, 평가지표 계산 함수

2) 모델 훈련

  • 모델 생성
  • 훈련

결과 : 훈련된 베이스라인 모델

3) 성능 검증

  • 예측(검증 데이터 사용)
  • 평가

결과물 : 예측 결과, 검증 평가 점수

4) 예측 및 결과 제출

  • 최종 예측(테스트 데이터 사용)
  • 제출 파일 생성
  • 제출

결과물 : 제출 파일, 기준 private/public 점수

4. 성능 개선

1) 피처 엔지니어링

  • 이상치 제거
  • 피처 스케일링
  • 결측값 처리
  • 데이터 인코딩
  • 타입 변경
  • 파생 피처 생성
  • 데이터 다운캐스팅
  • 데이터 조합 생성
  • 필요 없는 피처 제거
  • 시차 피처 생성(시계열 데이터 한정)
  • 기타 :

결과물 : 피처 엔지니어링 된 훈련 데이터와 검증 데이터

2) 모델 훈련 (w/ Hyperparameter tuning)

  • 하이퍼파라미터 종류와 의미 파악
  • 선별
    • 최적화 할 하이퍼파라미터:
    • 값을 고정할 하이퍼파라미터:
  • 값 범위 설정
  • 최적화 기법 (그리드서치, 베이지안서치, OOF 예측 등)
  • 모델 생성 및 훈련 (최적화)

결과물 : 최적 하이퍼파라미터, 훈련된 모델

3) 성능 검증

  • 예측(검증 데이터 사용)
  • 성능 평가

결과물 : 예측 결과, 검증 평가 점수

만족스러운 결과가 나올 때까지 피처 엔지니어링, 훈련(다른 모델로 교체 포함), 성능 검증 반복

4) 예측 및 결과 제출

  • 최종 예측(테스트 데이터 사용)
  • 제출 파일 생성
  • 제출

결과물 : 제출 파일, 최종 private/public 점수