공학적인 의미로는 작업 T에 대한 컴퓨터 프로그램의 성능 P로 측정했을 때 경험 E로 인해 성능이 향상됐다면, 이 프로그램은 작업 T와 성능 측정 P에 대해 경험 E로 학습한 것이다.
사람의 지도 여부
지도학습
대표적인 예로는 분류 와 회귀가 있다.
알고리즘에 주입하는 훈련 데이터에 레이블이라는 답이 있어야 한다.
분류
스팸 필터 같은 간단한 예를 들 수 있다. (Ex. 모 아니면 도)
이진분류, 다중 분류가 있다.
회귀
예측해야 하는 값이 연속적일 때 사용하는 방식이다. 특성을 사용하여 수치를 예측한다.
비지도학습
데이터의 레이블이 없어 프로그램 스스로 패턴을 찾아야 한다.
준지도학습
많은 양에 데이터의 사람이 전부 레이블을 달 수 없는 문제 등 다양한 문제로 인하여 일부 데이터에는 레이블이 있지만 나머지 데이터에는 레이블이 없는 데이터를 이용하여 학습하는 것이다.
실시간으로 점진적인 학습 여부
배치 학습
내가 이해한 바로는 학습을 시킬 때 처음부터 훈련 데이터와 학습 데이터를 나누지 않고 전체 데이터로 학습시키는 것이다. 만약 새로운 버전의 머신러닝 프로그램이 나오는 경우 처음부터 다시해야한다는 단점이 있다. 이로 인해 오프라인에서 진행 후 런칭하므로 오프라인 학습 이라고도 한다.
컴퓨팅 자원이 많이 필요하다.
온라인 학습
배치 단위의 데이터를 미니 배치라는 단위로 쪼개서 온라인에서도 실시간으로 학습시키는 방법을 말한다. 오프라인 학습에 비해 자원 소모가 적고 실시간으로 학습시킬 수 있어 외부 메모리 학습에도 이용된다.
외부 메모리 학습이란?
메모리에 적재시킬 수 없는 양에 데이터를 학습시키려고 할 때 데이터를 미니 배치 사이즈로 나눠서 학습시키는 방식을 말한다. 온라인 학습 중 하나이다.
강화학습
학습하는 시스템 에이전트 에서 환경을 관찰하여 행동을 실행하고, 그 결과로 보상 또는 벌점 이라는 것을 받는다.
정책 이란 메뉴얼이며, 자세히 설명하면 결과에 따라 어떻게 행동해야 하는지를 정의한 것이다
일반화의 방법
사례 기반 학습
스팸을 예로 들어, 스팸과 유사한 구조를 가지고 있는 메일을 다 스팸이라고 한다면 최선, 최악의 방법도 아닐 것이다. 단순히 비교하는 것이 아닌 메일 내용의 유사도를 측정해서 유사도가 높을수록 분류하는 학습 방법
시스템이 훈련 샘플을 기억함으로써 학습. 이후 데이터가 들어올 경우 유사도를 비교하는 식으로 일반화한다.