본문 바로가기

Statistics33

선형대수 - 고유값분해~주성분분석 (SVD비교) 주성분분석이란 무엇인가?주어진 데이터의 공분산 행렬(covariance matrix)에 대한 고유값분해(eigendecomposition)이다. *공분산행렬이란? 각 변수(좌표성분)간의 공분산(분산)을 담은 행렬 공분산행렬은 모든 변수간의 관계(공분산)를 담고 있기 때문에 대칭행렬이다.앞서 배웠다. 대칭행렬이면 고유값분해가 가능하고, 직교행렬(고유벡터행렬)과 대각행렬(고유값행렬)을 얻을 수 있다!SVD와 무엇이 다른가?SVD는 대칭행렬/정방행렬 상관없이 전치행렬을 곱해서 만든 고유벡터행렬로 고유값을 찾아내는 분해하는 기법 정리하자면,PCA는 고유값분해의 한가지 사례다.SVD는 고유값분해를 하기위해 전치행렬을 곱하는 :트릭;을 사용한 분해기법이다 PCA의 결과값을 어떻게 해석/활용하나?PCA는 고유값분해의.. 2021. 2. 24.
선형대수 - 고유값분해~특이값분해SVD 모든 데이터분석의 근원같은 개념: 고유값 분해 SVD(특이값분해), Pseudo-Inverse, 선형연립방정식의 풀이, PCA(주성분분석) 등주요 응용이 eigenvalue, eigenvector를 그 밑바탕에 깔고 있기 때문Eigenvalue, Eigenvector이 뭐길래?정방행렬 * 고유벡터 = 고유값 * 고유벡터- 고유벡터(eigenvector) : 선형변환 A에 의한 변환 결과가 자기 자신의 상수배가 되는 0이 아닌 벡터- 고유값(eigenvalue) : 이 상수배 값 고유벡터/고유값은 정방행렬(square matrix)에서만 존재한다.단, 고유벡터/고유값은 최소 0개부터 최대 n개까지 존재할 수 있다.고유값과 고유벡터가 왜 중요한가?1. 고유벡터가 중요한 이유: 변화하는 방향이 일정하다면, 해.. 2021. 2. 24.
MRP - 예제 실습하기 보호되어 있는 글 입니다. 2021. 2. 23.
MRP Concept : Multilevel regression with Poststratification MRP 란? Multilevel Regression with Poststratification 이전에 배운 "선형 믹스 모델"의 업그레이드 버전이다. 믹스 모델은 계층형 구조를 가진 선형모델이다. 그러나 "샘플크기"의 문제에 부딪혀 적절한 fitting이 어려운 점이 생길 때, 이를 해결하고자 등장했다. 빅데이터 시대에 샘플크기가 문제라니? 라고 할 수 잇지만, 빅데이터 시대에도 충분히 발생가능한 일이다. 여러 피쳐의 교집합에 해당하는 표본크기는 경우에 따라서 매우 작을 수 있기 때문이다!! 이를 위해 (베이지안 가정) 사후분포의 샘플링 결과에 과거의 모집단분포( 또는 과거에 사용한 샘플(데이터))를 사용해서 회귀계수를 조정하는 기법이 MRP 다. 과거의 데이터를 활용하면 어떤 이점이 있을까? 현재성을 .. 2021. 2. 23.