본문 바로가기

차원축소3

1-3. 차원축소 - Feature Extraction(1); PCA, MDA feature 성질을 유지하며 차원 축소하는 기법 PCA(Principal Component Analysis, 주성분 분석) 목표: 분산을 보존하는 직교기저 찾기 데이터 행렬 \(X\)를 기저 \(w\)에 사영한 결과 \(w^{T}X\)에 대한 공분산 행렬 \(w^{T}Sw\)에 대해, \(w^{T}Sw\)가 최대가 되도록 하는 기저 \(w\)는 \(S\)의 고유벡터이다. (고유값 λ이 큰 고유벡터 \(v\)가 분산을 보존하는 기저) 고유값 계산으로 k번째 기저에 사영했을 때, 보존되는 분산량을 구할 수 있다. $\frac{\lambda_k}{\lambda_1+\lambda_2+\ldots+\lambda_d}$ 몇 개의 주성분을 사용하는 것이 적절한지 판단하기 위해 아래의 방법을 사용한다. 주성분 별 보.. 2023. 1. 11.
1-2. 차원축소 - Feature Selection Exhaustive Search Search all possible combinations ex) 변수 3개에 대해, 7개(=2^3-1) 조합 고려 x1, x2, x3 → y=f(x1), y=f(x2), ..., y=f(x1,x2,x3) Forward Selection From the model with no variables, significant variables are sequentially added Once a variable is selected, it will never be removed Backward Elimination From the model with all variables, irrelevant variables are sequentially removed Once a varia.. 2022. 6. 26.
1-1. 차원 축소 - Overview Curse of dimensionality The number of instances increases exponentially to achieve the same explanation ability when the number of variables increase. 변수의 개수가 선형적으로 늘어날 때, 동일한 설명력을 갖기 위해서 필요한 객체 수는 지수적으로 늘어난다. ex) 두 점 사이 거리가 1인 정보를 표현하기 위해, 1차원에서는 점 2개, 2차원에서는 점 4개, 3차원에서는 점 8개 필요 Sometimes, an intrinsic dimension is relatively low compared to original dimension. 객체의 본질적인 정보를 보존하는 내재적인 차원의 수는 실제.. 2022. 6. 25.