4. Variational Free Energy(VFE)와 Surprisal

4.1 Variational Free Energy(VFE): “분포 간 차이(KL)를 다른 관점에서 본 것”

4.1.1 다시 보는 ELBO와 KL

우선, 3장에서 배운 ELBO(Evidence Lower BOund) 공식을 잠깐 되짚어봅시다.

$$ \ln p(O) \;=\; \underbrace{\mathbb{E}{q(S)}\bigl[\ln p(O,S)\bigr] \;-\; \mathbb{E}{q(S)}\bigl[\ln q(S)\bigr]}_{\text{ELBO}} \;+\; KL\bigl(q(S)\,\|\,p(S \mid O)\bigr) $$

$\ln p(O)$는 우리가 “관측 데이터 $O$가 실제로 일어날 ‘로그 확률’(또는 ‘로그 증거’)”라고 생각하시면 됩니다.
ELBO는 “우리가 정한 근사 분포 $q$가 사후분포 $p(S∣O)$를 얼마나 잘 설명하느냐”를 평가할 때, 비교적 계산하기 쉬운 항들의 조합입니다.
KL 발산은 “$q$와 $p$가 얼마나 다른가”를 재는 척도였지요.

이 식에서 KL 항을 좌변으로 옮기면,

$$ KL\bigl(q(S)\,\|\,p(S \mid O)\bigr) \;=\; \ln p(O) \;-\; \Bigl[\mathbb{E}{q(S)}\bigl(\ln p(O,S)\bigr) - \mathbb{E}{q(S)}\bigl(\ln q(S)\bigr)\Bigr] $$

4.1.2 “Variational Free Energy(VFE)”의 정체

바로 이 오른쪽 항 전체가 “VFE(Variational Free Energy)”라고 불립니다. 다시 한 번 써보면,

$$ \text{VFE} \;=\; \ln p(O) \;-\; \Bigl(\mathbb{E}{q(S)}[\ln p(O,S)] \;-\; \mathbb{E}{q(S)}[\ln q(S)]\Bigr) $$

그리고 이것이 사실상 KL 발산과 동일하다는 점이 중요합니다:

$$ \text{VFE} \;=\; KL\bigl(q(S)\,\|\,p(S \mid O)\bigr) $$

즉, VFE를 최소화한다는 말은 KL을 최소화한다는 말과 똑같습니다. 우리가 “근사 분포 $q$를 사후분포 $p$에 최대한 가깝게 만들자!”라고 외치던 게, 바로 *“VFE를 최소화합시다!”*와 동의어인 셈입니다.

한 줄 요약

$\quad VFE \;\updownarrow\; KL\bigl(q\|p\bigr) \quad$

(VFE가 작아지면, KL도 작아지고, $q$와 $p$가 닮아갑니다.)

4.2 Surprisal(놀람): “확률이 낮을수록 놀랍다!”

4.2.1 Surprisal의 정의

이제 Surprisal(놀람)이라는 개념을 알아봅시다. 정보이론에서는 어떤 사건 $x$의 확률이 $p(x)$일 때, 그 사건이 일어났을 때 느끼는 “놀람”의 정도를 다음과 같이 정의합니다.