Golden Kaggler - All rights reserved. (C)
CC BY-SA
제목:
미션:
문제 유형: 회귀 / 이진분류 / 다중분류 / 기타(시계열)
평가지표:
-
파일별 용도 파악
-
데이터 양(레코드 수, 피처 수, 전체 용량 등)
-
피처 이해(이름, 의미, 데이터 타입, 결측값 개수, 고윳값 개수, 실제값, 데이터 종류 등)
-
훈련 데이터와 테스트 데이터 차이
-
타깃값: 예측해야 하는 값.
-
효과적인 시각화를 위한 피처 엔지니어링
-
각종 시각화
- 수치형 데이터 시각화
- 히스토그램, 커널밀도추정, 분포도, 러그플롯
- 범주형 데이터 시각화
- 막대 그래프, 포인트플롯, 박스플롯, 바이올린플롯, 카운트플롯
- 데이터 관계 시각화
- 히트맵, 라인플롯, 산점도, 산점도 + 회귀선
- 수치형 데이터 시각화
-
피처 파악
- 추가할 피처:
- 제거할 피처:
- 피처별 인코딩 전략:
-
이상치 파악
- 해당 피처별 처리 방법
결과물 : 추가/제거 피처 목록, 인코딩 전략, 이상치 처리 전략
- 데이터 불러오기
- (필요 시) 기본적인 피처 엔니지어링
- 평가지표 계산 함수 준비
결과물 : 데이터, 평가지표 계산 함수
- 모델 생성
- 훈련
결과 : 훈련된 베이스라인 모델
- 예측(검증 데이터 사용)
- 평가
결과물 : 예측 결과, 검증 평가 점수
- 최종 예측(테스트 데이터 사용)
- 제출 파일 생성
- 제출
결과물 : 제출 파일, 기준 private/public 점수
- 이상치 제거
- 피처 스케일링
- 결측값 처리
- 데이터 인코딩
- 타입 변경
- 파생 피처 생성
- 데이터 다운캐스팅
- 데이터 조합 생성
- 필요 없는 피처 제거
- 시차 피처 생성(시계열 데이터 한정)
- 기타 :
결과물 : 피처 엔지니어링 된 훈련 데이터와 검증 데이터
- 하이퍼파라미터 종류와 의미 파악
- 선별
- 최적화 할 하이퍼파라미터:
- 값을 고정할 하이퍼파라미터:
- 값 범위 설정
- 최적화 기법 (그리드서치, 베이지안서치, OOF 예측 등)
- 모델 생성 및 훈련 (최적화)
결과물 : 최적 하이퍼파라미터, 훈련된 모델
- 예측(검증 데이터 사용)
- 성능 평가
결과물 : 예측 결과, 검증 평가 점수
만족스러운 결과가 나올 때까지 피처 엔지니어링, 훈련(다른 모델로 교체 포함), 성능 검증 반복
- 최종 예측(테스트 데이터 사용)
- 제출 파일 생성
- 제출
결과물 : 제출 파일, 최종 private/public 점수