6.1 이제까지의 여정: 왜 이런 수식을 봤을까?
우리가 처음에는 미적분과 확률의 기초, KL Divergence, 변분추론 아이디어, VFE & Surprisal, 그리고 **실제 알고리즘 예시(VAE, BNN, LDA)**를 거쳐 왔습니다.
- “KL Divergence가 분포 간 거리를 어떻게 측정하는지”
- “사후분포가 복잡할 때, 왜 근사 분포 $q$가 필요한지”
- “ELBO가 $\ln p(O)$의 하한(lower bound)이 되고, KL과 맞물려서 근사가 이뤄지는 방식”
- “VAE에서 ELBO를 최적화하는 것이 곧 변분추론과 동일하다” 등등
그 모든 내용이 사실은 아래의 한 줄 공식으로 요약됩니다:
$$
⁍
$$
이 식 하나에 변분추론의 모든 철학이 녹아 있다고 해도 과언이 아닙니다.
6.2 그 유명한 식을 직접 풀어보자
6.2.1 이산형 버전 예시로 이해하기
- $\ln p(O)$라는 말은, “관측 $O$가 실제로 일어날 확률($p(O)$)의 로그”를 뜻합니다.
- 사후분포 $p(S∣O)$는 실제로는 $\frac{p(O,S)}{p(O)}$ 꼴인데, $p(O)$가 적분(혹은 합)으로만 표현되어서 직접 계산하기 어렵습니다.
- 그래서 $q(S)$라는 **인위적 분포(근사 분포)**를 두고, 분수 형태 $\frac{p(O,S)}{p(O)}$를 만들어 로그에 넣어서 전개해보면, 이때 Jensen’s Inequality를 적용하게 됩니다.
- 그 결과가 바로 “ELBO(첫 번째 큰 괄호) + KL(두 번째 항) = $\ln p(O)$” 식으로 돌아오는 것이죠.
이 과정을 조금 ‘굵직굵직’하게 요약하면,
$$
\ln p(O)
\sum_S q(S)\,\ln \frac{p(O,S)}{q(S)}
\;+\;
\text{(무언가)}
$$
여기서 “무언가”가 곧 KL이 되고, 나머지가 ELBO가 되는 식입니다.
- 이때 KL 부분이 0이 되려면, 결국 $q(S)$가 $p(S∣O)$와 같아야 한다고 해석하게 됩니다.