Processing math: 100%
본문 바로가기
Business Analytics

1-3. 차원축소 - Feature Extraction(1); PCA, MDA

by yu901 2023. 1. 11.

feature 성질을 유지하며 차원 축소하는 기법


PCA(Principal Component Analysis, 주성분 분석)

  • 목표: 분산을 보존하는 직교기저 찾기
  • 데이터 행렬 X를 기저 w에 사영한 결과 wTX에 대한 공분산 행렬 wTSw에 대해, wTSw가 최대가 되도록 하는 기저 wS의 고유벡터이다.
    (고유값 λ이 큰 고유벡터 v가 분산을 보존하는 기저)
  • 고유값 계산으로 k번째 기저에 사영했을 때, 보존되는 분산량을 구할 수 있다.
    λkλ1+λ2++λd
  • 몇 개의 주성분을 사용하는 것이 적절한지 판단하기 위해 아래의 방법을 사용한다.
    • 주성분 별 보존되는 분산량 그래프에서 elbow point 찾기
    • 누적 보존 분산량 그래프에서 일정 수준 분산량을 만족하는 주성분 찾기

데이터 행렬 X를 기저 w에 사영한 결과 wTX에 대한 공분산 행렬 구하기

V=1n(wTX)(wTX)T=1nwTXXTw=wTSw

 

wTSw가 최대가 되도록 하는 기저 w 구하기

maxwTSw s.t. wTw=1
L=wTSwλ(wTw1)
Lw=0Swλw=0(SλI)w=0

w:S's eigenvector, λ:S's eigenvalue

 


 

MDS(Multidimensional Scaling, 다차원 척도법)

  • 목표: 객체 간 거리를 보존하는 좌표시스템 만들기
  • 객체 간의 distance matrix D(nxn)로 부터 inner product matrix B(nxn)를 만들고
    inner product matrix B(nxn)로 부터 좌표시스템 X(dxn)를 만든다.

객체 간의 distance matrix D는 다음과 같이 표현된다.

d2rs=(xrxs)T(xrxs)

 

Inner product matrix B (B=XXT) 각 항목 brsdrs로 표현하면 다음과 같다.

brs=xTrxs=12(d2rsxTrxrxTsxs)=12(d2rs1nns=1d2rs1nnr=1d2rs+1n2nr=1ns=1d2rs)

 

Inner product matrix B는 symmetric, positive-definite조건으로 다음과 같이 표현할 수 있다.

B=VΛVT,Λ=diag(λ1,λ2,,λn),V=[v1,v2,,vn]

 

좌표시스템 Xn개의 벡터로 이뤄진 p차원의 matrix일 때, Inner product matrix B(np)개의 zero eigenvalue를 가지므로 B1으로 다시 표현하면 다음과 같다.

B1=V1Λ1VT1,Λ1=diag(λ1,λ2,,λp),V1=[v1,v2,,vp]

 

좌표시스템 X는 다음과 같이 구할 수 있습니다.

B1=V1Λ1VT1=(V1Λ121)(V1Λ121)T=XXT

 

 


출처

'Business Analytics' 카테고리의 다른 글

AARRR 개념  (5) 2024.01.10
1-2. 차원축소 - Feature Selection  (0) 2022.06.26
1-1. 차원 축소 - Overview  (0) 2022.06.25