feature 성질을 유지하며 차원 축소하는 기법

PCA(Principal Component Analysis, 주성분 분석)
- 목표: 분산을 보존하는 직교기저 찾기
- 데이터 행렬 X를 기저 w에 사영한 결과 wTX에 대한 공분산 행렬 wTSw에 대해, wTSw가 최대가 되도록 하는 기저 w는 S의 고유벡터이다.
(고유값 λ이 큰 고유벡터 v가 분산을 보존하는 기저) - 고유값 계산으로 k번째 기저에 사영했을 때, 보존되는 분산량을 구할 수 있다.
λkλ1+λ2+…+λd - 몇 개의 주성분을 사용하는 것이 적절한지 판단하기 위해 아래의 방법을 사용한다.
- 주성분 별 보존되는 분산량 그래프에서 elbow point 찾기
- 누적 보존 분산량 그래프에서 일정 수준 분산량을 만족하는 주성분 찾기

데이터 행렬 X를 기저 w에 사영한 결과 wTX에 대한 공분산 행렬 구하기
V=1n(wTX)(wTX)T=1nwTXXTw=wTSw
wTSw가 최대가 되도록 하는 기저 w 구하기
maxwTSw s.t. wTw=1
L=wTSw−λ(wTw−1)
∂L∂w=0⇒Sw−λw=0⇒(S−λI)w=0
w:S's eigenvector, λ:S's eigenvalue
MDS(Multidimensional Scaling, 다차원 척도법)
- 목표: 객체 간 거리를 보존하는 좌표시스템 만들기
- 객체 간의 distance matrix D(nxn)로 부터 inner product matrix B(nxn)를 만들고
inner product matrix B(nxn)로 부터 좌표시스템 X(dxn)를 만든다.
객체 간의 distance matrix D는 다음과 같이 표현된다.
d2rs=(xr−xs)T(xr−xs)
Inner product matrix B (B=XXT) 각 항목 brs를 drs로 표현하면 다음과 같다.
brs=xTrxs=−12(d2rs−xTrxr−xTsxs)=−12(d2rs−1nn∑s=1d2rs−1nn∑r=1d2rs+1n2n∑r=1n∑s=1d2rs)
Inner product matrix B는 symmetric, positive-definite조건으로 다음과 같이 표현할 수 있다.
B=VΛVT,Λ=diag(λ1,λ2,…,λn),V=[v1,v2,…,vn]
좌표시스템 X가 n개의 벡터로 이뤄진 p차원의 matrix일 때, Inner product matrix B는 (n−p)개의 zero eigenvalue를 가지므로 B1으로 다시 표현하면 다음과 같다.
B1=V1Λ1VT1,Λ1=diag(λ1,λ2,…,λp),V1=[v1,v2,…,vp]
좌표시스템 X는 다음과 같이 구할 수 있습니다.
B1=V1Λ1VT1=(V1Λ121)(V1Λ121)T=XXT

출처
- 01-4: Dimensionality Reduction - PCA
https://youtu.be/bEX6WPMiLvo - 01-5: Dimensionality Reduction - MDA
https://youtu.be/Yv00AT4pLC4
'Business Analytics' 카테고리의 다른 글
AARRR 개념 (5) | 2024.01.10 |
---|---|
1-2. 차원축소 - Feature Selection (0) | 2022.06.26 |
1-1. 차원 축소 - Overview (0) | 2022.06.25 |
댓글