대부분의 기계 학습 알고리즘에는 **초매개변수(hyperparmeter)**라고 부르는 설정들이 있는데, 그런 설정들은 학습 알고리즘의 외부에서 미리 결정해야 한다.
본질적으로 기계학습은 응용 통계학의 한 형태이다. 일반적인 통계학과는 달리 기계 학습은 컴퓨터를 이용해서 복잡한 함수를 통계적으로 추정하는 것을 좀 더 강조하고, 그런 함들이 속하는 신뢰구간(confidence interval)을 증명하는 데는 관심을 덜 둔다. 그런 차원에서, 이번 장에서는 통계학에 대한 중심적인 접근 방식 두 가지를 제시한다. 하나는 **빈도주의적 추정량(frequentist estimator)**에 기초한 접근 방식이고, 다른 하나는 **베이즈 추론(Bayesian inference)**에 기초한 접근 방식이다.
5.1 학습 알고리즘
- 과제(class of tasks) : $T$
- 수행의 성과를 측정한 측도 : $P$
- 경험 : $E$
5.1.1 과제 $T$
기계 학습의 과제는 일반적으로 기계 학습 시스템이 견본(example)을 처리하는 방식을 서술하는 형태로 정의된다. 여기서 견본이란 기계 학습 시스템의 처리 대상인 어떤 물체나 사건으로부터 정량적으로 측정한 특징(feature)들의 집합이다. 일반적으로 견본은 벡터 $\bm x \in \R^n$으로 표현하는데, 이때 벡터의 각 성분 $x_i$는 각각의 특징이다. 예를 들어, 견본 디지털 이미지의 특징들은 이미지를 구성하는 픽셀값이다.
가장 기계 학습 과제 종류
- 분류(classification) : 이런 종류의 과젱서 컴퓨터 프로그램은 주어진 입력이 $k$개의 범주 중 어떤 범주에 속하는지 판단해야 한다.
- 결측 입력이 있는 자료의 분류(classification with missing input) : 보통의 경우 학습 알고리즘이 분류 과제를 푸는 데 필요한 것은 입력 벡터를 출력 범주로 사상하는 하나의 함수를 배워서 정의하는 것 뿐. 그러나 입력의 일부가 누락될 수 있는 환경, 즉 결측 입력이 있는 환경에서는 학습 알고리즘이 하나의 분류 함수가 아니라 여러 분류 함수들의 집합을 배워야 한다. 그러하 집합의 각 함수는 입력의 서로 다른 결측값들의 부분집합 $\bm x$를 분류하는 분류함수이다. 이런 상황은 의료진단에서 자주 발생한다. 그런 함수들의 큰 집합을 효과적으로 정의하는 한 가지 방법은, 모든 관련 변수에 관한 확률분포를 학습하고 결측값들을 주변화(marginalization)해서 분류 문제를 푸는 것이다.(여기서 주변화는 기존의 marginal distribution에서의 marginalization이 아니라, 그 주변의 값들로 대체(최빈값, 평균값, SMOTE )하는 방식을 의미함) 입력 변수가 $n$가지라고 할 때, 모든 가능한 결측 입력 구성에 각각 대응되는 분류 함수는 총 $2^n$가지이다. 그 모든 함수를 일일이 구하는 것이 가능하긴 하지만, 그 대신 컴퓨터 프로그램(학습 알고리즘)은 그냥 결합확률분포를 서술하는 하나의 함수만 배우면 된다.
- 회귀(regression) : 주어진 입력에 기초해서 하나의 수치를 예측해야 한다. 이 과제를 수행하기 위해 학습 알고리즘이 배워야 할 것은 하나의 함수 $f:\R^n \rightarrow \R$이다.
- 전사(transcription; 또는 옮겨쓰기) : 이 종류의 과제에서 기계 학습 시스템은 비교적 구조적이지 않은 형태로 표현된 어떤 자료를 입력받아서 그 자료에 있는 정보를 이산적인 텍스트 형식으로 출력해야 한다.
예를 들어 OCR이거나 ,STT 등이 있따.
- 기계 번역(machine translation) : 말 그대로 번역
- 구조적 출력(structured output) : 출력이 하나의 벡터(또는 여러 값으로 이루어진 다른 자료구조)이고 벡터의 성분들 사이에 중요한 관계가 존재하는 형태의 모든 과제를 말한다. 예를 들면 **구문 분석(parsing)**등이 있다.