5.Unsupervised learning

비지도 학습

정답이 없음

y가 없고 x만 존재

in 비모수 Kernel Density Estimation(커널밀도추정) 와 비슷 https://darkpgmr.tistory.com/147

Kernel Density Estimation(커널밀도추정)에 대한 이해

얼마전 한 친구가 KDE라는 용어를 사용하기에 KDE가 뭐냐고 물어보니 Kernel Density Estimation이라 한다. 순간, Kernel Density Estimation이 뭐지? 하는 의구심이 생겨서 그 친구에게 물어보니 자기도 잘 모른..

darkpgmr.tistory.com

군집화만 다루겠다.

그룹 내 개체들은 비슷해야겠쥐?

그렇다면 유사성은 어떻게 재는가? '거리' 개념

'거리'

1. 유클리디안 (L2라고도 함) 2. hamming distande :다른카테고리에 들어가있는 놈들의 개수 3. 맨하튼(L1)

1.+ 대각선거리

2.+ 카테고리로 만들어야해 ex) 명기씨 교수님을 보면 성별은 남,여 덩치 상 중 하 나이 노년 중년 청년 어린이/ d=2 (왜냐면 다른 카테고리가 2개거든)

3.+ 네모네모

1.2 k-평균 군집분석

일단 점들을 잡고 거기서

교수님의 경우 다변량 자료를 보면 산점도 행렬을 보심->다차원 자료를 2차원에 뿌려진 자료이므로 대충 어디가 중심들이겠다는 걸 알 수 있음

pairs(iris[,5])

종분류가 목적이아니라 그룹핑이 목적?

그룹의 경계를 찾을려 하는게 아니라 데이터에 멤버십만 부여해주면 끝

이렇게 명확한 경우는 손실함수 가지고 쉽게 된다.

<명확하지 않은 경우>

초기 군집 중심

다중시작 알고리즘=

+는 그룹의 중심이다.

단점: 그룹 수를 정해줘야함

1.3 계층적 군집분석 장점 : 그룹 수 안정해줘도 된다

d에는 distance를 유클리디안으로 해서 국가간의 행렬을 만들어서 d에 저장

dfit <- hclust(d, method="ward.D2"(디폴트))

비즈봉 하우스