우리가 처음에는 미적분과 확률의 기초, KL Divergence, 변분추론 아이디어, VFE & Surprisal, 그리고 **실제 알고리즘 예시(VAE, BNN, LDA)**를 거쳐 왔습니다.

그 모든 내용이 사실은 아래의 한 줄 공식으로 요약됩니다:

$$ ⁍ $$

이 식 하나에 변분추론의 모든 철학이 녹아 있다고 해도 과언이 아닙니다.

$\ln p(O)$라는 말은, “관측 $O$가 실제로 일어날 확률($p(O)$)의 로그”를 뜻합니다.
사후분포 $p(S∣O)$는 실제로는 $\frac{p(O,S)}{p(O)}$ 꼴인데, $p(O)$가 적분(혹은 합)으로만 표현되어서 직접 계산하기 어렵습니다.
그래서 $q(S)$라는 **인위적 분포(근사 분포)**를 두고, 분수 형태 $\frac{p(O,S)}{p(O)}$를 만들어 로그에 넣어서 전개해보면, 이때 Jensen’s Inequality를 적용하게 됩니다.
그 결과가 바로 “ELBO(첫 번째 큰 괄호) + KL(두 번째 항) = $\ln p(O)$” 식으로 돌아오는 것이죠.

이 과정을 조금 ‘굵직굵직’하게 요약하면,

$$ \ln p(O)

\sum_S q(S)\,\ln \frac{p(O,S)}{q(S)} \;+\; \text{(무언가)} $$

여기서 “무언가”가 곧 KL이 되고, 나머지가 ELBO가 되는 식입니다.