목차
- 불확실성을 측정할 수 있을까?
- 불확실성을 측정하는 방법
- 엔트로피란?
- 크로스 엔트로피란?
- 로그로스란?
* 다음시간에 KL Divergence
적국이 암호를 송수신한다. 이를 중간에서 해독하고자 한다. 어떻게 해야할까?
이 상황에서 정보는 암호이다. 몇 번의 시도끝에 암호를 해독했다.
어떤 암호가 "여러운 암호일까?"
해독하는데 가장 많은 시간이 걸리는 것, 최대한 많은 시도를 해야만 하는 것이다.
그렇다면, 암호를 만드는 사람입장에서는 난해하게, 불확실하게 만들어야 함.
정보에 대한 불확실성을 어떻게 측정할까?
정보는 기호(숫자,문자열 등)을 통해 보내진다.
정보(암호/기호)는 질문에 의해 알아낼 수 있다.
모르기 때문에 질문한다는 점에서 질문은 불확실성을 의미한다.
즉, 질문횟수로 불확실성을 측정하자.
불확실성 == 랜덤성, 알수없는 상태
불확실성의 측정개념을 "엔트로피"라 하고, 단위를 bit로 함.
정보량 == 질문횟수 == 엔트로피(H)
*정보량을 질문이라고 생각한 사람의 이름을 따서 H라고 표기함.
얼마나 많은 질문(비트)이 필요할까?
카드게임에서 뽑은 하나의 카드(정보)를 상대방이 스무고개로 맞히려면
binary search로 대소질문(0/1)해야 빨리 찾음.
*binary질문개수== bit개수.
단, 카드(정보) 하나를 알아낼 때 필요한 최소 질문횟수는
전체 카드횟수에 의해 적을수도 클수도 있다.
10개 중 5와 1000개 중 5를 찾는 노력은 다르다.
최소질문횟수 = log2(전체후보개수)
여러 개의 카드를 맞혀야 하면 총 몇 번의 질문(비트)이 필요한가?
맞혀야 하는 카드(정보) 개수만큼 곱하면 된다.
각 정보가 서로 독립적이라고 생각하기 때문에 곱하는거다.
H = n * log2(전체후보개수)
잠깐, 특정카드 개수를 두배 늘린다면, 각 카드의 뽑힐 확률에 변화가 생긴다.
똑같이 binary 질문해야할까? No
특정 카드가 많이 들어가 있다는 "사전"정보를 활용해서 질문해야
더 적은 질문으로 빠르게 찾을 수 있다.
즉, "사전정보"를 활용하면 방황(질문)하는 횟수가 줄어듦.
각 카드의 수학적 확률은 {특정결과 개수/전체 개수}이고
각 카드의 최소질문횟수는 log2{전체 개수/특정결과 개수}(=log2(1/확률))이다.
모든 카드의 최소질문횟수의 평균은 "질문횟수*확률의 합"이다.
엔트로피(H) = EVENT 확률*LOG2(1/확률)의 합
entropy란?
사건을 예측하는 데에 필요한 최소 질문개수다.
최적의 전략 하에서 필요한 질문개수에 대한 기댓값이다.
entropy감소
= 그 사건을 맞히는데 필요한 질문의 개수의 감소
= 정보량의 감소
확률이 랜덤할수록 entropy(불확실성;최소질문수)는 더 높습니다
*모든 사건의 확률이 동률일 때, 엔트로피 최대 & 랜덤 확률
크로스 엔트로피는 무엇인가?
엔트로피 : 하나의 사건에 대한 정보를 알아내기 위해 필요한 최소질문개수.
크로스 엔트로피 : 각 엔트로피 공식에 상대방의 확률을 대입해서 구하는 계산법.
엔트로피는 "내가 가진 확률분포"를 활용해서 최적(최소) 질문개수를 찾아낸다.
하지만, 내가 가진 확률분포가 틀렸다면?
내가 가진 사전정보(확률분포;p)가 틀렸다면,
새로 들어오는 데이터의 확률분포(q)를 활용해서
얼마나 틀렸는지 측정할 수 있다.
p=[0.5, 0.125, 0.125, 0.25]
q=[0.25, 0.25, 0.25, 0.25]
LOG LOSS (Negative log likelihood)는 무엇인가?
엔트로피(H)=EVENT 확률*LOG2(1/확률)의 합이므로
-EVENT 확률*LOG2(확률)의 합이다.
binary값만 가지는 경우, likelihood는 확률^확률의 꼴이다.
여기에 log를 씌우고 -1을 곱하면 cross entropy와 동일함.
즉, likelihood의 최대화 == loss의 최소화
(-1만 곱하면 likelihood 함수도 loss가 됨 ㅎㅎ)
'Statistics > Information Theory' 카테고리의 다른 글
내멋대로 이해하는 정보이론 - KL 다이버전스 (0) | 2021.02.27 |
---|