아래 내용은 “변분추론과 Free Energy”를 배우기 전, 두 확률분포 간의 차이를 수학적으로 어떻게 측정하는지 이해하는 핵심 개념인 **KL Divergence(쿨백-라이블러 발산)**를 다룹니다. 앞서 [1. 기초 수학 & 확률 기초]에서 살펴본 엔트로피와 교차엔트로피를 바탕으로, KL Divergence의 정의와 의미를 천천히 풀어보겠습니다.
2. KL Divergence(쿨백-라이블러 발산) 이해
2.1 KL Divergence란 무엇인가요?
KL Divergence(쿨백-라이블러 발산)는 두 확률분포 $p$와 $q$가 있을 때, 이 둘이 **얼마나 다른지(또는 얼마나 ‘멀리 떨어져’ 있는지)**를 재는 하나의 척도입니다.
- 통계에서 ‘거리’를 정의할 때는 보통 유클리드 거리처럼 $\sqrt{(x-y)^2}$형태를 떠올리실 텐데, 확률분포 사이에서는 이와 같은 단순한 거리 개념을 그대로 적용하기가 어렵습니다.
- 그래서 정보이론 관점에서 개발된 ‘엔트로피’와 ‘교차엔트로피’를 활용하여, KL Divergence라는 독특한 방식으로 두 분포 간 차이를 정의합니다.
직관적 예시
- 어떤 문제에서 “실제 분포(진짜 답) $p$”가 있고, 이를 “모델이 예측한 분포 $q$”로 근사한다고 합시다. KL Divergence가 작을수록 가 를 잘 닮아 있다고 말할 수 있습니다.
2.2 KL Divergence의 정의
2.2.1 이산형(Discrete) 확률분포에서의 정의
이산형 확률변수 $X$에 대해,
$$
⁍
$$
- $p(x)$가 0인 항은 0으로 간주합니다.
- 흔히 $log$는 자연로그($ln$)를 쓰며, 그 결과 단위는 nats(또는 밑이 2라면 bits)라는 개념적 단위를 갖습니다.
2.2.2 연속형(Continuous) 확률분포에서의 정의
연속형 확률변수 $X$에 대해,
$$
KL(p \| q) \;=\; \int p(x) \,\log \frac{p(x)}{q(x)} \, dx
$$
- 마찬가지로, $p(x)$가 0인 지점은 적분에서 기여하지 않는다고 봅니다.
- 구간은 보통 ($−∞,∞$) 전체를 가정하거나, 혹은 관심 있는 특정 구간을 대상으로 설정합니다.