우선, 3장에서 배운 ELBO(Evidence Lower BOund) 공식을 잠깐 되짚어봅시다.
$$ \ln p(O) \;=\; \underbrace{\mathbb{E}{q(S)}\bigl[\ln p(O,S)\bigr] \;-\; \mathbb{E}{q(S)}\bigl[\ln q(S)\bigr]}_{\text{ELBO}} \;+\; KL\bigl(q(S)\,\|\,p(S \mid O)\bigr) $$
이 식에서 KL 항을 좌변으로 옮기면,
$$ KL\bigl(q(S)\,\|\,p(S \mid O)\bigr) \;=\; \ln p(O) \;-\; \Bigl[\mathbb{E}{q(S)}\bigl(\ln p(O,S)\bigr) - \mathbb{E}{q(S)}\bigl(\ln q(S)\bigr)\Bigr] $$
바로 이 오른쪽 항 전체가 “VFE(Variational Free Energy)”라고 불립니다. 다시 한 번 써보면,
$$ \text{VFE} \;=\; \ln p(O) \;-\; \Bigl(\mathbb{E}{q(S)}[\ln p(O,S)] \;-\; \mathbb{E}{q(S)}[\ln q(S)]\Bigr) $$
그리고 이것이 사실상 KL 발산과 동일하다는 점이 중요합니다:
$$ \text{VFE} \;=\; KL\bigl(q(S)\,\|\,p(S \mid O)\bigr) $$
즉, VFE를 최소화한다는 말은 KL을 최소화한다는 말과 똑같습니다. 우리가 “근사 분포 $q$를 사후분포 $p$에 최대한 가깝게 만들자!”라고 외치던 게, 바로 *“VFE를 최소화합시다!”*와 동의어인 셈입니다.
한 줄 요약
$\quad VFE \;\updownarrow\; KL\bigl(q\|p\bigr) \quad$
(VFE가 작아지면, KL도 작아지고, $q$와 $p$가 닮아갑니다.)
이제 Surprisal(놀람)이라는 개념을 알아봅시다. 정보이론에서는 어떤 사건 $x$의 확률이 $p(x)$일 때, 그 사건이 일어났을 때 느끼는 “놀람”의 정도를 다음과 같이 정의합니다.