080223/ch04 at master · paksak/080223

Name		Name	Last commit message	Last commit date
parent directory ..
images		images
README.md		README.md
SequentialFeatureSelector.ipynb		SequentialFeatureSelector.ipynb
ch04.ipynb		ch04.ipynb
wine.data		wine.data
wine.names.txt		wine.names.txt

README.md

머신 러닝 교과서 2판

누락된 데이터 다루기
- 테이블 형태 데이터에서 누락된 값 식별
- 누락된 값이 있는 샘플이나 특성 제외
- 누락된 값 대체
- 사이킷런 추정기 API 익히기
범주형 데이터 다루기
- 판다스를 사용한 범주형 데이터 인코딩
- 순서가 있는 특성 매핑
- 클래스 레이블 인코딩
- 순서가 없는 특성에 원-핫 인코딩 적용
데이터셋을 훈련 데이터셋과 테스트 데이터셋으로 나누기
특성 스케일 맞추기
유용한 특성 선택
- 모델 복잡도 제한을 위한 L1 규제와 L2 규제
- L2 규제의 기하학적 해석
- L1 규제를 사용한 희소성
- 순차 특성 선택 알고리즘
랜덤 포레스트의 특성 중요도 사용
요약

이 책의 코드를 사용하는 가장 좋은 방법은 주피터 노트북(.ipynb 파일)입니다. 주피터 노트북을 사용하면 단계적으로 코드를 실행하고 하나의 문서에 편리하게 (그림과 이미지를 포함해) 모든 출력을 저장할 수 있습니다.

주피터 노트북은 매우 간단하게 설치할 수 있습니다. 아나콘다 파이썬 배포판을 사용한다면 터미널에서 다음 명령을 실행하여 주피터 노트북을 설치할 수 있습니다:

conda install jupyter notebook

다음 명령으로 주피터 노트북을 실행합니다.

jupyter notebook

브라우저에서 윈도우가 열리면 원하는 .ipynb가 들어 있는 디렉토리로 이동할 수 있습니다.

설치와 설정에 관한 더 자세한 내용은 1장의 README.md 파일에 있습니다.

(주피터 노트북을 설치하지 않았더라도 깃허브에서 ch04.ipynb을 클릭해 노트북 파일을 볼 수 있습니다.).

코드 예제 외에도 주피터 노트북에는 책의 내용에 맞는 섹션 제목을 함께 실었습니다. 또한 주피터 노트북에 원본 이미지와 그림을 포함시켰기 때문에 책을 읽으면서 코드를 쉽게 따라할 수 있으면 좋겠습니다.