데이터가 생성되었던 확률분포를 이해한다. 는 것 = 모수값을 알아내는 것
모수적 모형 : 모수의 값을 가지고 분포의 특성을 완전히 결정하는 모형
Binomial 구체적으로 표현하는 방식 = 이 분포의 pmf로 표현하는 방식
---> nCx p^x * (1-p)^(n-x)
확률변수 = 주사위 던졌을 때 나오는 눈 (X)
X~B(10, p) X는 개념적인 확률변수일 뿐이었는데
모수 p 값만 안다면 X값들을 창조(생성)해내는 신이 될 수 있다.
분포 자체가 좋은 분포여야 겠지
N(Mu,)
데이터를 가장 효율적으로 데이터가 많으면(샘플 수 증가) 불확실성이 줄어듬 (÷루트 n 속도로 표본분산이 줄어듬)
1/n 쓰는 mle!! =>세상에 존재하는 어떤 방법보다 불확실성을 줄이는 빠른 방법
로그함수는 증가함수로 크기변환을 그대로 해주니까 로그를 취해서 최대인 지점을 찾아도 같을 거라는 생각에 착안해서로그 가능도 함수를 최대로 하는 추정치 구함
수치미분에서한 편미분 쓰고 그래디언트 어쎈트 사용함.
likelihood 에서 확률밀도함수를 곱한 세타가 커지는게 뭐가 좋아?
각 데이터 포인트에서의 덴시티 값을 곱한 게 커진다?
다 분포를 모아놓은 차원은 무한대인데 (무한공간) (무한공간에 정규분포의 함수를 모아놓음 서로다른 뮤 시그마 값으로 이루어진)
MLE적용대상 분포 = 정규분포, 이항분포 등 몇몇개 없음
기말고사 때 그래디언트 방법을 활용해서 데이터 주어지구 와이블weibull distribution 분포의 모수를 mle방법으로 구하는 문제 출제 =손으로 편미분 불가함.
히스토그램은 확률밀도함수를 잘 표현할 수 있는 그림임은 맞지만 bin에 따라서 이상하게 보이기도 함
박스플랏 히스토그램 커널 덴시티
뮤하고 시그마 엠엘이로 찾아서 분포함수 식에 모수를 끼워넣으면 되는데
아무것도 분포 모를 때 하는게 히스토그램 커널 덴시티
이 2차원데이터는 선형종속성이 있음 분산공분산구조는 행렬로 표현 됨.

comp1 을 만들기 위한 가중치는 z1

z1스코어가 높으면 ? 어떻게 된다구? 살기좋다구? COMP1도 높아지구?
분산이 커야 변별력 ㅇㅇ COMP1의 var도 크면 정보마니담고있다는 거 지!

N×JN×J인 데이터 행렬 XX의 분산공분산행렬 ΣΣ에 대해 spectral decomposition을 실시 (N>JN>J)
v피쳐 합성할 때 분산공분산행렬 ㅎ\사용해서
다중공선성이 있을 때 (생기는 이유는 코릴레이션 있어서 x변수간에) 해결법
1) 변수 빼던지
2) 피쳐 변수간에 분산공분산 행렬에서 주성분몇개만 쓰는 등 차원 축소가 필요한거지 (이거는 모든 변수간에 수직이 되는 것을 찾아주므로 코릴레이션이 0이거든)
#20190501 기계학습 수업
# 5. 비지도 학습
#old faithful geyser
#간헐천 데이터
#faithful 데이터
#분출하고 있던 시간 & 분출과 분출 사이에 기다린 시간
#히스토그램 그려보자
data(faithful)
par(mfrow = c(1, 2))
hist(faithful$eruptions, probability = TRUE,
xlim = c(0, 7), main = "", col = "gray", border = "white", xlab = "Eruptions")
d<-density(faithful$eruptions)
str(d)
plot(d)
plot(d$x,d$y,pch=20,col="navy")#점으로 플랏 그림
#x=그리드 y=거기에 해당하는 덴시티 값 n=sample size plot
lines(density(faithful$eruptions), col = 2, lwd = 3)#col 빨간색 라인두께 3
#density => 커널 덴시티 !
hist(faithful$eruptions, probability = TRUE, nclass = 20,
xlim = c(0, 7), main = "", col = "gray", border = "white", xlab = "Eruptions")
rug(faithful$eruptions)
lines(density(faithful$eruptions), col = 2, lwd = 3)
#선 볼때 착각하지 말기 사이사이 밀도함수는 원래 붙어있음 간격 없음
set.seed(1)
n<-100
x<-rnorm(100,mean = 5,sd=3)
par(mfrow = c(1, 1))
plot(density(x),ylim=c(0,0.15))
mu.MLE<-mean(x)
sd.MLE<-sqrt(var(x)*(n-1)/n)
mu.MLE
sd.MLE
#그리드 따로 만들어야 하는데 쏘팅해서 쓴다
#교수님 꿀팁
lines(sort(x),
dnorm(sort(x),mean = mu.MLE,sd=sd.MLE),
col="darkred",lwd=3)
rug(x)
#위에꺼는 비지도학습으로 추정한 모수mu,sigma로 그린거쥐?
#이제 참값으로 해봐야징~
lines(sort(x),
dnorm(sort(x),mean = 5,sd=3),
col="blue",lwd=3)
#다르네!파란선이 참값으로 그린거
#3. Dimension reduction
#3.1 Principal Component Analysis, PCA
#(state.x77)데이터 실습
summary(state.x77)
#Frost 랑 Area 는 날씨 면적 인구는 관련 없으니까 가운데있는 인구 소득 문맹 수명 살인
#을 두고 봤따
dat <- scale(state.x77[, 2:6])
#학습
PC <- princomp(dat)
summary(PC)
#데이터 차원:5차원 => 주성분도 5개 나옴
loadings(PC)#해석하려면 이거 보면 됨
plot(PC, main = "Screeplot", cex.main = 0.9, cex.axis = 0.7, cex = 0.7)
PC$scores[1:7,]
3.2 요인분석 FA, factor analysis
- Feature를 합성하는 PCA와 달리, FA는 feature를 발현시키는 몇 개의 잠재요인(latent factor)이 있다고 가정하고 그 잠재요인을 찾는 방법
- 즉, 각 feature가 잠재요인들의 선형결합으로 구성되었다고 가정한다.
- 목적이 pca는 x1,x2들이 같은 z1를 가리키는 선을 통해 z1로 가는데 그럼 여기서 관련이 있을수록 x1,x2의코릴레이션이 크겠지! FA는 RATENT변수 측정하는겨. 과목 점수가 관측이 되어 z1이 수리능력이면 x1,x2 영어성적 국어성적에 해당하는 화살표 값이 작을거다
- z=common factor
- 피쳐 x변수가 잇었고 코베리언스 팩터로 합성하는거지
- 추상적인 공통요인이 있었는데 그것이 발현되어 피쳐?가관측이된다.?
- 화살표에 해당하는 가중치가 L의 성분이 되겠지.
- 잠재변수 Z1와 ,Z2관계가 없다고 가정(잠재변수간의 선형 종속성이 없다고 !독립이라곤 못하는데 일단 독립이라 생각)
- 입실론 끼리는 서로 독립 프사이1=입실론1의 분산
X=(X1,X2,...,Xp)⊤∼⋅(0p,Σ)X=(X1,X2,...,Xp)⊤∼⋅(0p,Σ)일 때,
X=LF+ϵ(p≥m)X=LF+ϵ(p≥m)
로 분해
- 공통 잠재인자 FF는
- E(F)=0m,Var(F)=ImE(F)=0m,Var(F)=Im
- 유일인자(unique factor) ϵϵ는
- E(ϵ)=0p,Var(ϵ)=Ψ=diag(ψ1,...,ψp)
- X하고 E(에러항 입실론)은 독립이라고 가정해야 문제풀이가 쉬워 =>깊이 알려면 계량경제학, 계량통계?대학원
- F노말 E도 노말로 두면 X도 노말로 해서 MLE구하기도하고 / X를 종속변수처럼 보고 회귀분석 방법으로 하기도 햄
- 시그마는 X의 분산공분산행렬인데 좌변은 X의 분산공분산행렬 우변 F의 분산 공분산 행렬..

3.3 독립성분분석 ICA, independent component analysis
- 이름이 PCA와 비슷하지만 성분 추출 과정이 근본적으로 다른 방법임에 유의해야 함
- Factor analysis의 non-normal 버전으로 이해하는 것이 옳음

-
- SjSj들은 서로 독립이고 정규분포를 따르지 않는 잠재변수 =>정규분포에서 먼 분포일수록 좋아
- 행렬 AA는 독립성분들을 믹싱하는 믹싱행렬
- 모형 학습은 XX의 비정규성을 극대화하는 것을 목표로 이루어짐
X끼리 독립이니 코베리언스 당연히 0이고.
X가 마이크 채널 6개에 녹음된 소리 (블라인스 소스)(칵테일파티 프라블롬) 세퍼레이션할 때 데이터 S1,S2,...,S30=한사람한사람의 목소리라 하면 이 소리를 추출하는게 어렵겠지
입실론은 일부러 쉽게 주려고 빼신거
X=AS <=> X=LF 비슷하다고 생각하면됨
학습해야 하는 값 : A
푸는 법 : 연립방정식
MRI 찍을 때 영역이 어떤식으로 분리될 수 있는지 찾아내기도 하고 픽셀복셀 차원축소 할때 쓰기도 함.
다리 떨 때 시계열로 가다가 특정 복셀에서는 값이 바뀌겠지 각 복셀별로 다리를 떨때와 안떨때의 평균을 내 그럼각복셀별로 T값이 꼐속 나오겠지 그럼 유의수준 적용해서 유의한지 안한지 보면 유의한 영역만 빨갛게 표시하면 그 부분이 운동에 관한 영역이지
뇌를 열어보면
고유값 분해와 3차원 정규분포를 시간별?위치별 움직이면서 벡터방향쪽으로 쭉 가주면 신경다발의 생김새를 복원 추적할 수 있다.
DTI (Defusion Tensor Imaging)
https://synapse.koreamed.org/Synapse/Data/PDFData/0016JKRS/jkrs-53-233.pdf
카이스트에서 연구 로봇 보는걸 사람이 화면으로 보면서 풍선터트려야겠다 생각하면 터뜨려줌
이제 뇌경색으로 생각은 하는데 말 못하는 사람에게 연결해주면 말할 수 있게 해주는 연구 진행중
댓글