비지도 학습
정답이 없음
y가 없고 x만 존재
in 비모수 Kernel Density Estimation(커널밀도추정) 와 비슷 https://darkpgmr.tistory.com/147
Kernel Density Estimation(커널밀도추정)에 대한 이해
얼마전 한 친구가 KDE라는 용어를 사용하기에 KDE가 뭐냐고 물어보니 Kernel Density Estimation이라 한다. 순간, Kernel Density Estimation이 뭐지? 하는 의구심이 생겨서 그 친구에게 물어보니 자기도 잘 모른..
darkpgmr.tistory.com
군집화만 다루겠다.
그룹 내 개체들은 비슷해야겠쥐?
그렇다면 유사성은 어떻게 재는가? '거리' 개념
'거리'
1. 유클리디안 (L2라고도 함) 2. hamming distande :다른카테고리에 들어가있는 놈들의 개수 3. 맨하튼(L1)
1.+ 대각선거리
2.+ 카테고리로 만들어야해 ex) 명기씨 교수님을 보면 성별은 남,여 덩치 상 중 하 나이 노년 중년 청년 어린이/ d=2 (왜냐면 다른 카테고리가 2개거든)
3.+ 네모네모
1.2 k-평균 군집분석
일단 점들을 잡고 거기서
교수님의 경우 다변량 자료를 보면 산점도 행렬을 보심->다차원 자료를 2차원에 뿌려진 자료이므로 대충 어디가 중심들이겠다는 걸 알 수 있음
pairs(iris[,5])
종분류가 목적이아니라 그룹핑이 목적?
그룹의 경계를 찾을려 하는게 아니라 데이터에 멤버십만 부여해주면 끝
이렇게 명확한 경우는 손실함수 가지고 쉽게 된다.
<명확하지 않은 경우>
초기 군집 중심
다중시작 알고리즘=
+는 그룹의 중심이다.
단점: 그룹 수를 정해줘야함
1.3 계층적 군집분석 장점 : 그룹 수 안정해줘도 된다
d에는 distance를 유클리디안으로 해서 국가간의 행렬을 만들어서 d에 저장
dfit <- hclust(d, method="ward.D2"(디폴트))
댓글