optimal classification
x를 넣어서(x라는 조건이 기븐일 때) y값에 대한 확률값을 계산해주는 것
확률을 이용해서 커브를 만들고
그 때 커브의 리스크가 존재하는데 리스크가 적게 나올 수 있는 분류기를 만들고 싶음
P(X|Y)=P(Y|X)
x가 여러 variable이 될 때 생기는 interaction에 대해서 무시하겠다 = 나이브 베이즈
#roc커브에서 베스트 cut-off밸류 패키지 써서 구하는 거 배움
#디시전 트리 이질수 동질성 지니 순수성 따지고 그ㅓㄹ로 최적분류기 찾아낸다
#나이브베이즈 = 베이즈 정리 활용한 간단한 예일 뿐
#신경망 모형 맛보기
개념적으로 신경망모델은 좋았지만 컴퓨팅 파워가 너무 안좋았음
그럼에도 꿋꿋하게 남아 연구하던 제프리 힌튼씨
문제점 : 모수가 너무 많아서 학습이 어려웠음
해법 : 오차 역전파법! 1980년대 말 발견! 미적분학의 '체인 룰' 응용!
한계 : 학습할 수 있는 데이터가 한정적 & 알고리즘은 있지만 컴퓨팅 파워 별로
overfitting걱정 없이 데이터 충분히 많으니까 신경망 실습 해보니까 최적임!
결국 data충분 & 모형도 충분히 복잡 & 컴퓨팅 환경 good => 신경망 모형의 boom~
y=f(x) + 입실론
신경망에서는 f(x) 가 엄청 복잡해. 모형이 너어무 복잡
회귀분석이나 다른 쪽에서는 입실ㄹ론이 노말이기 떄문에(y가 랜덤하니까) p-value가 있었는데 또 신뢰구간 등을 구할 수 있었는데
신경망에서는 그런거 없음. 예측값이 30이면 30 50이면 50 딱 거기까지야.
설명력이 없어. 그래서 통계가 아냐
가중치 값을 random하게 또는 사전분포 넣어서 posterior찾아 (베이지안 방법을 써서)
베이지안 머신러닝
신경망은 노드 쌓는게 그냥 많이 쌓고 복잡하게 하면돼 결정할 이유같은 거 없어
모형이 너무 복잡하면 오버핏 되는데 그런 거 피하는 방법이 있음 = 레귤러제이션 & 드랍아웃
댓글