요약 부분 정리

챕터 1

하나의 데이터는 $n$ 차원의 열벡터 $\textbf{x} = [x_1, x_2, ..., x_n]^T$ 로 표현하며, 데이터 처리는 벡터 연산으로 정의됨
전체 데이터 집합이 이루는 분포 특성을 고려하여 특징을 추출하고 학습을 수행하는 것이 중요함
특징 추출 : 데이터에서 불필요한 정보를 제거하고 데이터 처리를 위한 핵심적 정보인 특징을 얻는 것
학습 시스템 : 데이터로부터 학습을 통해 추출하고자 하는 정보를 표현하는 시스템
목적 함수 : 주어진 데이터 집합을 이용하여 학습 시스템이 달성해야 하는 목표를 기계가 알 수 있는 수학적 함수로 정의한 것
오차 함수 : 학습 시스템의 출력과 원하는 출력의 차이(오차)로 정의되는 목적 함수
성능 평가 기준 : 학습 오차(학습 데이터 집합을 대상으로 계산된 오차), 테스트 오차(테스트 데이터 집합에 대한 오차), 일반화 오차(관찰될 수 있는 모든 데이터를 대상으로 하는 오차)
교차검증법 : 전체 데이터를 여러 집합으로 나누고 각 집합에 대한 오차를 비교함으로 일반화 오차를 계산하는 방법

머신러닝이 다루는 주제 : 분류, 회귀, 군집화, 특징추출
분류 : 입력 데이터가 어떤 부류(클래스)에 속하는지를 자동으로 판단하는 문제
- 학습 데이터는 입력 데이터와 클래스 레이블의 쌍으로 구성됨
회귀 : 학습을 통해 입력 변수와 원하는 출력 변수 사이의 매핑 관계를 분석하고 예측하는 것. 출력은 연속적인 실수값임
군집화 : 주어지는 클래스 정보 없이 단순히 하나의 덩어리로 이루어진 데이터를 받아서, 데이터의 성질 또는 분포 특성을 분석하여 임의로 복수 개의 그룹으로 나누는 것

머신러닝의 유형 : 지도 학습, 비지도 학습, 강화 학습 등
지도 학습(교사 학습) : 학습할 때 목표 출력값을 함께 제공하는 방식. 분류와 회귀 문제에 적합한 유형임
비지도 학습(비교사 학습) : 학습할 때 목표 출력값이 제공되지 않으며 입력 데이터가 이루는 분포의 특성으로부터 패턴을 찾는 방식. 군집화 문제에 적합한 유형임.
강화 학습 : 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법.
과다적합 : 학습 시스템이 학습 데이터에 대해서만 지나치게 적합한 형태로 결정 경계를 형성하여 오히려 일반화 성능이 떨어지는 현상

벡터의 표기 : 벡터는 일반적으로 굵은 글씨체의 소문자 $\mathbf{x}$ 로 표시되거나 또는 오른쪽 방향 화살표가 위에 놓인 이탈릭 글씨체의 소문자 $\vec{x}$ 로 표시됨.
벡터가 동일하다 : 두 벡터의 각 원소가 같은 경우를 뜻 함
기본 연산 : 벡터합, 벡터차, 상수곱
표준 단위 벡터(Standard Unit Vector) : $n$ 차원 공간에서 각 좌표축과 평행한 단위 벡터로, $k$ 번째 요소 값을 $1$ 로 지정함으로 방향을 표현함.
L2 노름(L2 Norm) : 유클리디언 공간에서 $n$ 차원 벡터의 크기를 절댓값으로 나타내어 일반화하는 함수
- $\Vert \mathbf{x} \Vert := \sqrt{\sum_{i=1}^n x_{i}^{2}} = \sqrt{\mathbf{x}\cdot\mathbf{x}}$
벡터의 정규화 : 벡터를 그 노름으로 나눔으로 벡터를 동일한 방향을 가진 단위벡터로 변환하는 방식
- $\hat{\mathbf{x}} = \frac{\mathbf{x}}{\Vert\mathbf{x}\Vert}$
내적(Dot Product) / 스칼라곱 : $\mathbf{x} \cdot \mathbf{y} = \mathbf{x}^{T}\mathbf{y} = \sum_{i=1}^2 x_{i}y_{i} = \Vert \mathbf{x} \Vert \Vert \mathbf{y} \Vert \cos\theta$
- $\theta$ 는 두 벡터 사잇각의 크기
직교 벡터(Orthogonal Vector) : 서로 수직인 두 벡