[논문 리뷰]/[최신 논문] / [arXiv 2503.04482] 일반화된 보간 이산 확산: 마스킹과 균등 노이즈의 결합으로 자기 수정이 가능한 확산 언어 모델.md

[arXiv 2503.04482] 일반화된 보간 이산 확산: 마스킹과 균등 노이즈의 결합으로 자기 수정이 가능한 확산 언어 모델

조회

Generalized Interpolating Discrete Diffusion

https://arxiv.org/abs/2503.04482 | GitHub

Dimitri von Rütte, Janis Fluri, Yuhui Ding, Antonio Orvieto, Bernhard Schölkopf, Thomas Hofmann | ETH Zürich, Max Planck Institute for Intelligent Systems | arXiv:2503.04482 | 2025년 3월 | ICML 2025 게재 확정


1. 서론: 자기회귀 모델의 근본적 한계와 이산 확산의 새로운 가능성

현대 언어 모델의 성공은 대부분 자기회귀(autoregressive) 패러다임에 기반하고 있다. GPT 계열을 필두로 한 이 접근법은 시퀀스를 왼쪽에서 오른쪽으로 하나의 토큰씩 생성하며, 각 토큰은 이전에 생성된 모든 토큰을 조건으로 예측된다. 이 방식은 자연어 생성, 코드 작성, 추론 등 광범위한 작업에서 놀라운 성과를 보여주었지만, 본질적으로 두 가지 근본적인 제약을 가지고 있다. 첫째, 길이 $N$의 시퀀스를 생성하려면 정확히 $N$번의 모델 호출이 필요하므로 긴 시퀀스에서의 추론 비용이 선형적으로 증가한다. 둘째, 한 번 생성된 토큰은 이후 단계에서 수정할 수 없어, 초기에 잘못된 토큰이 선택되면 그 오류가 최종 결과까지 전파되는 문제가 발생한다.

이러한 한계를 극복하기 위한 대안으로 확산 모델(diffusion models)이 주목받고 있다. 이미지 생성에서 혁명적 성과를 거둔 연속 공간 확산 모델과 달리, 텍스트와 같은 이산 데이터에는 가우시안 노이즈를 직접 적용할 수 없다는 근본적 제약이 존재한다. 이를 해결하기 위해 마스크 확산 모델(Masked Diffusion Models, MDM)이 등장하여 토큰을 점진적으로 [MASK]로 대체하는 방식을 채택하였다. 그러나 논문은 이 마스크 확산 접근법이 자기회귀 모델의 가장 심각한 한계 중 하나를 그대로 재도입한다고 지적한다. 즉, 한 번 언마스킹된 토큰은 다시 변경할 수 없으므로, 중간에 발생한 오류를 수정할 방법이 없다는 것이다.

이 논문은 바로 이 문제를 해결하기 위해 일반화된 보간 이산 확산(Generalized Interpolating Discrete Diffusion, GIDD)이라는 새로운 프레임워크를 제안한다. GIDD는 마스크 확산을 특수한 경우로 포함하는 보다 일반적인 이산 확산 과정 족(family)을 정의하며, 노이즈 과정의 설계에서 훨씬 큰 유연성을 제공한다. 핵심 아이디어는 노이즈를 추가할 때 토큰을 마스크로만 대체하는 것이 아니라, 임의의 시변 분포(time-varying distribution) $\boldsymbol{\pi}_t$에서 샘플링된 토큰으로 대체할 수 있도록 일반화하는 것이다. 특히 마스킹 노이즈와 균등 노이즈(uniform noise)를 결합한 하이브리드 접근법을 탐구하여, 모델이 자신의 실수를 스스로 식별하고 수정할 수 있는 자기 수정(self-correction) 능력을 획득할 수 있음을 실증적으로 입증한다. 균등 노이즈로 대체된 토큰은 원래의 올바른 토큰과 구별할 수 없는 형태로 존재하므로, 모델은 학습 과정에서 맥락에 기반하여 각 토큰의 올바름을 판단하는 능력을 자연스럽게 개발하게 된다.

논문에 따르면, 자기 수정을 통해 생성 품질(generative perplexity 기준)이 최대 55%까지 개선될 수 있으며, 이는 자기회귀 모델이 본질적으로 갖추기 어려운 능력이다. 자기회귀 모델에서 이미 생성된 토큰을 수정하려면 전체 시퀀스를 재생성하거나 별도의 편집 모델을 사용해야 하지만, GIDD에서는 동일한 모델이 생성과 수정을 모두 수행할 수 있다. 또한 GIDD의 학습 목적함수에 대한 재가중(reweighting) 전략을 통해, 균등 노이즈 없이도 기존 마스크 확산 대비 유의미한 perplexity 개선을 달성한다. 이러한 결과들은 이산 확산 모델에서 노이즈 유형의 선택이 단순한 하이퍼파라미터를 넘어서 모델의 근본적인 능력을 결정짓는 핵심 설계 변수임을 시사하며, 확산 모델 연구에서 노이즈 설계의 중요성에 대한 인식을 새롭게 환기시킨다.

2. 배경 및 관련 연구: 이산 확산 모델의 발전과 마스크 확산의 제약

2.1 이산 확산 모델의 기본 구조와 발전 과정

이산 확산 모델은 이산 상태 공간 $\mathcal{Z}$ 위에서 작동한다. 데이터 분포 $q_0(X)$에서 샘플링된 초기 상태 $X \in \mathcal{Z}$는 마르코프 체인 $Z_1, \ldots, Z_T$를 통해 점진적으로 열화되며, 최종적으로 샘플링이 용이한 사전 분포 $p_T(Z_T)$에 도달한다. 디노이징 과정은 이 마르코프 체인의 역방향 커널을 학습하여, 사전 분포에서 샘플링된 $Z_T$로부터 원래의 데이터를 복원하는 것이다. 상태 공간은 일반적으로 어휘(vocabulary) $V$에서 가져온 길이 $L$의 토큰 시퀀스로 구조화되며, 각 토큰에 독립적으로 노이즈가 추가된다.

이러한 프레임워크에서 핵심적인 설계 선택은 어떤 종류의 노이즈를 데이터에 추가할 것인가이다. 연속 공간에서는 가우시안 노이즈가 자연스러운 선택이지만, 이산 공간에서는 토큰 간 거리나 유사성의 개념이 명확하지 않으므로 다른 접근이 필요하다. D3PM(Austin et al., 2023)은 이산 확산의 선구적 연구로, 흡수(absorbing), 균등(uniform), 이항(binomial) 등 다양한 전이 행렬을 체계적으로 탐구하였다. D3PM은 연속 확산 모델의 전이 행렬을 이산 공간으로 일반화하여 $q(z_t | z_{t-1}) = \mathrm{Cat}(z_t; Q_t \mathbf{z}_{t-1})$ 형태의 정방향 과정을 정의하였으며, 여기서 $Q_t$는 $|V| \times |V|$ 크기의 전이 행렬이다. 이 연구 이후 마스크(흡수) 확산이 가장 단순하면서도 효과적인 선택으로 자리잡게 되었다.

MDLM(Sahoo et al., 2024)은 마스크 확산의 연속 시간 한계를 엄밀하게 분석하고, 가우시안 확산 모델과의 이론적 연결을 확립하였다. 이 연구는 마스크 확산의 ELBO가 마스킹된 토큰에 대한 간단한 가중 교차 엔트로피 손실로 환원됨을 보이며, 대규모 언어 모델링에 적용할 수 있는 실용적 학습 절차를 제시하였다. MD4(Shi et al., 2024)는 마스크 확산에 전용 디퓨전 트랜스포머(DiT) 아키텍처를 도입하고, 노이즈 스케줄 최적화와 효율적 샘플링 전략을 통해 추가적인 성능 개선을 달성하였다. 이들 연구는 확산 언어 모델이 자기회귀 모델과의 격차를 점진적으로 줄여가고 있음을 보여주었지만, 마스크 확산의 근본적 한계는 여전히 해결되지 않은 채 남아 있었다.

관련 연구로는 SEDD(Lou et al., 2024)가 스코어 기반 접근법을 이산 확산에 적용한 연구가 있다. SEDD는 연속 확산의 스코어 매칭을 이산 공간으로 확장하여, 기존의 ELBO 기반 학습과는 다른 관점에서 이산 확산을 정의한다. ELECTRA 스타일의 학습(Clark et al., 2020)은 교체된 토큰 감지(replaced token detection)를 통해 BERT보다 효율적인 사전학습을 달성한 연구로, GIDD의 균등 노이즈 학습과 개념적 유사성을 공유한다. ELECTRA에서는 보조 생성기가 마스크 위치에 토큰을 생성하고, 판별기가 각 토큰이 원본인지 생성된 것인지를 판별하도록 학습되는데, GIDD의 균등 노이즈 학습에서 모델이 각 토큰이 원본인지 무작위로 대체된 것인지를 판단하는 것과 유사한 구조이다. 다만 GIDD에서는 이러한 판별 능력이 별도의 판별기가 아닌 확산 모델 자체에 내재화되어 있다는 점이 핵심적 차이이다.

Block Diffusion(Arriola et al., 2025) 등 자기회귀와 확산을 결합하려는 시도들도 관련 연구로 주목할 만하다. 이러한 하이브리드 접근법은 자기회귀의 장기 의존성 모델링과 확산의 병렬 생성 및 수정 능력을 결합하려는 것인데, GIDD는 순수 확산 프레임워크 내에서 자기 수정 능력을 달성한다는 점에서 차별화된다. 특히 비순서적(any-order) 자기회귀 모델(Welleck et al., 2019)과의 연결도 흥미로운데, 마스크 확산은 랜덤 순서의 자기회귀 생성으로 해석될 수 있으며, GIDD는 이를 넘어서 이미 생성된 토큰을 수정할 수 있는 능력을 추가하여, 순수 자기회귀적 관점에서는 불가능한 편집적(editorial) 생성을 가능하게 한다.

2.2 마스크 확산 모델의 구조와 한계

마스크 확산 모델(MDM)은 데이터 토큰을 특수한 [MASK] 토큰으로 점진적으로 대체하는 방식을 사용한다. 시간 $t$에서 토큰 $z_t$의 주변(marginal) 전이 확률은 데이터와 마스크 사이의 선형 보간으로 표현된다:

$$q_t(z_t | x) = \mathrm{Cat}(z_t; \alpha_t \mathbf{x} + \beta_t \mathbf{m})$$

여기서 $\beta_t = 1 - \alpha_t$이며, $\mathbf{x}$와 $\mathbf{m}$은 각각 데이터 $x$와 마스킹 토큰 $m$의 원-핫 인코딩이다. $\alpha_t$는 시간에 따라 감소하여 신호 대 잡음비(SNR)를 결정한다. MDM의 ELBO는 마스킹된 토큰에 대한 가중 재구성 손실의 형태를 취한다. MDLM(Sahoo et al., 2024), MD4(Shi et al., 2024) 등의 후속 연구들이 이 프레임워크를 발전시켜 확산 언어 모델링에서 상당한 성과를 달성하였다.

그러나 논문은 MDM의 두 가지 근본적인 한계를 지적한다. 첫째, 마르코프 체인의 정의 방식으로 인해 한 번 언마스킹된 토큰은 이후 변경이 불가능하다. 이를 구체적으로 이해하기 위해, 마스크 확산의 역방향 과정을 살펴보자. 시간 $t$에서 토큰이 마스크되지 않은 상태(즉 $z_t \neq m$)라면, 역방향 전이 확률에서 해당 토큰은 높은 확률로 동일한 상태를 유지한다. 이는 마르코프 체인의 흡수적(absorbing) 특성에서 직접 기인하며, 한 번 언마스킹된 토큰이 이후 다른 토큰으로 전이될 경로가 전이 행렬에 존재하지 않기 때문이다. 결과적으로, 중간 단계에서 잘못된 토큰이 선택되면 그 오류가 전체 시퀀스의 최종 품질에 직접적으로 영향을 미치며, 이후에 언마스킹되는 토큰들은 이 잘못된 맥락에 조건화되어 연쇄적 오류 전파가 발생할 수 있다. 이러한 상황은 자기회귀 예측의 한계를 사실상 그대로 재현하는 것이다.

둘째, 마스킹된 토큰만이 손실 신호를 전달하고 언마스킹된 토큰은 항상 노이즈가 없으므로, 유효 학습 신호가 제한된다. 구체적으로, MDM의 ELBO에서 노이즈가 없는 토큰($z_t = x$)에 대한 가중치는 정확히 0이다. 이는 모델이 이미 올바른 토큰이 주어진 위치에서는 아무런 학습도 수행하지 않음을 의미한다. BERT의 마스크 언어 모델링(MLM) 손실에서도 동일한 현상이 관찰되며, 이로 인해 자기회귀 모델 대비 데이터 효율성이 떨어질 수 있다. 논문은 이 두 가지 한계가 서로 연결되어 있다고 주장한다. 즉, 노이즈가 없는 토큰에 대한 학습 신호의 부재로 인해, 모델은 "올바른" 토큰과 "잘못된" 토큰을 구분하는 능력을 개발하지 못하며, 이것이 자기 수정 불가능성의 근본 원인이 된다.

3. 방법론: 일반화된 보간 이산 확산(GIDD) 프레임워크

이 장에서는 GIDD 프레임워크의 이론적 기반을 상세히 설명한다. GIDD의 구조는 크게 네 부분으로 구성된다. (1) 데이터를 점진적으로 열화시키는 정방향 과정의 정의, (2) 이를 역전시키는 역방향 과정의 매개변수화, (3) 모델 학습을 위한 ELBO의 유도, (4) 생성 및 자기 수정을 위한 샘플링 절차. 각 부분은 기존 마스크 확산 이론을 일반화하되, 마스크 확산을 특수한 경우로 환원할 수 있도록 설계되어 있다. 이론적 결과의 증명은 논문의 부록 B에 상세히 수록되어 있으며, 여기서는 주요 결과와 그 의의를 중심으로 설명한다.

3.1 GIDD의 정방향 과정: 혼합 비율과 혼합 분포

GIDD는 마스크 확산을 임의의 시변(time-varying) 보간자(interpolant)로 일반화하는 것을 핵심 아이디어로 삼는다. 구체적으로, GIDD의 주변 정방향 전이는 다음과 같이 정의된다:

$$q_t(z_t | x) = \mathrm{Cat}(z_t; \alpha_t \mathbf{x} + \beta_t \boldsymbol{\pi}_t)$$

여기서 $\boldsymbol{\pi}_t$는 시간에 따라 매끄럽게 변화하는 임의의 확률 분포이다. 마스크 확산은 $\boldsymbol{\pi}_t = \mathbf{m}$인 특수한 경우에 해당한다. GIDD의 혼합 스케줄(mixing schedule)은 두 가지 구성 요소로 이루어진다. 첫째, 혼합 비율(mixing rate) $\alpha_t$는 시간에 따라 1에서 0으로 감소하는 미분 가능한 함수로, $\alpha_0 = 1$(노이즈 없음)에서 $\alpha_1 = 0$(완전한 혼합)까지 변화하며 SNR을 $\alpha_t / \beta_t$로 결정한다. 둘째, 혼합 분포(mixing distribution) $\boldsymbol{\pi}_t$는 $|V|$차원 단체(simplex) 위의 시변 확률 벡터로, 각 시점에서 데이터에 추가되는 노이즈의 유형을 정의한다.

논문의 핵심 이론적 기여 중 하나는 이러한 주변 분포를 생성하는 마르코프 체인이 실제로 존재함을 증명하고, 그 조건부 전이 확률의 닫힌 형태(closed-form) 해를 유도한 것이다. Proposition 3.3에서는 시간 $s \leq t$에서의 전이 확률이 다음과 같은 형태임을 귀납법을 통해 증명한다:

$$q_{t|s}(z_t | z_s) = \mathrm{Cat}(z_t; Q_{t|s} \mathbf{z}_s), \quad Q_{t|s} = \alpha_{t|s} I + \beta_{t|s} \boldsymbol{\pi}_{t|s} \mathbf{1}^\top$$

여기서 $\alpha_{t|s} = \alpha_t / \alpha_s$이고 $\beta_{t|s} \boldsymbol{\pi}_{t|s} = \beta_t \boldsymbol{\pi}_t - (\alpha_t / \alpha_s) \beta_s \boldsymbol{\pi}_s$이다. 이 결과는 임의의 시간 간격 $\Delta > 0$에 대해 성립하며, $\Delta \to 0$의 극한에서도 유효하다. 증명은 이산 시간 마르코프 체인의 누적 전이 행렬을 재귀적으로 전개하고 텔레스코핑을 적용하여 닫힌 형태 해를 도출하는 방식으로 진행된다.

이 결과의 핵심적 의의는 전이 행렬 $Q_{t|s}$가 원래 시점 $s$에서의 상태 $z_s$에 대한 선형 작용이라는 것이다. 즉, 전이 행렬은 항등 행렬 $I$와 랭크-1 행렬 $\boldsymbol{\pi}_{t|s} \mathbf{1}^\top$의 볼록 결합(convex combination)으로 표현되며, 이는 각 토큰이 확률 $\alpha_{t|s}$로 현재 상태를 유지하거나 확률 $\beta_{t|s}$로 조건부 혼합 분포 $\boldsymbol{\pi}_{t|s}$에서 새로운 상태를 샘플링함을 의미한다. 마스크 확산에서 $\boldsymbol{\pi}_{t|s} = \mathbf{m}$이므로 새로운 상태는 항상 마스크 토큰이지만, GIDD에서는 $\boldsymbol{\pi}_{t|s}$가 시점에 따라 변화하므로 마스크 이외의 다양한 상태로의 전이가 가능해진다. 이것이 GIDD가 이미 언마스킹된 토큰도 변경할 수 있는 메커니즘의 수학적 기반이다.

3.2 연속 시간 마르코프 체인의 정방향 전이율

ELBO 유도를 위해서는 대응하는 연속 시간 마르코프 체인(CTMC)의 전이율도 필요하다. 논문은 GIDD의 CTMC 정방향 전이율 행렬 $R_t$를 다음과 같이 유도한다:

$$R_t(z_s, z_t) = \frac{\alpha_t'}{\alpha_t} \delta_{z_s, z_t} + \mathbf{z}_t^\top \left(\beta_t \boldsymbol{\pi}_t' - \frac{\alpha_t'}{\alpha_t} \boldsymbol{\pi}_t\right)$$

여기서 $\alpha_t'$와 $\boldsymbol{\pi}_t'$는 각각 혼합 함수의 시간 미분을 나타낸다. 이 결과는 조건부 전이 확률 $q_{t|s}$에 대한 1차 테일러 전개를 수행하고 정리함으로써 얻어진다. 첫 번째 항은 상태가 유지되는 경우의 율을, 두 번째 항은 상태가 변경되는 경우의 율을 나타내며, 혼합 분포 $\boldsymbol{\pi}_t$의 시간적 변화가 전이 동역학에 어떻게 기여하는지를 명시적으로 보여준다. 구체적으로, 전이율은 두 가지 기여의 합으로 구성된다. 첫 번째는 혼합 비율 $\alpha_t$의 감소에 비례하여 현재 상태가 혼합 분포로 "침식"되는 것이고, 두 번째는 혼합 분포 자체가 시간에 따라 변화하면서 발생하는 추가적 전이이다. 마스크 확산에서는 $\boldsymbol{\pi}_t' = 0$이므로 두 번째 기여가 사라지지만, GIDD에서는 혼합 분포가 시변적이므로 양쪽 기여가 모두 존재한다.

CTMC 표현의 실용적 의의는 연속 시간 ELBO의 유도에 필수적이라는 것이다. 이산 시간 ELBO는 유한한 수의 시간 단계에 의존하여 근사 오차가 발생할 수 있지만, 연속 시간 ELBO는 시간 이산화에 따른 오차가 없는 정확한 가능도 하한을 제공한다. Campbell et al.(2022)은 연속 시간 마르코프 체인에 대한 일반적인 ELBO를 유도하였으며, GIDD는 이 결과를 자신의 전이율에 특화시켜 적용한다.

3.3 역방향 과정의 매개변수화

역방향 과정은 Sohl-Dickstein et al.(2015) 및 Austin et al.(2023)의 정준 형태를 따른다. 모델 분포 $p_\theta(z_s | z_t)$는 다음과 같이 정의된다:

$$p_\theta(z_s | z_t) = q_{t|s}(z_t | z_s) \frac{q_s(z_s | \mathbf{x}_\theta)}{q_t(z_t | \mathbf{x}_\theta)}$$

여기서 $\mathbf{x}_\theta(Z_t, t)$는 노이즈가 추가된 시퀀스 $Z_t$와 시간 $t$가 주어졌을 때 원래 데이터 $x$의 사후 분포를 예측하는 신경망이다. 구체적으로, $\mathbf{x}_\theta$의 출력은 어휘 $V$ 위의 확률 분포로, 각 토큰 위치에서 원래 토큰이 무엇이었는지에 대한 예측을 제공한다. 이 매개변수화는 베이즈 규칙에 기반한다. 진정한 역방향 전이 $q_{s|t}(z_s | z_t, x)$는 정방향 전이 $q_{t|s}(z_t | z_s)$와 사전 분포 $q_s(z_s | x)$의 곱에 비례하며, 여기서 $x$는 알 수 없는 원본 데이터이다. 모델은 $x$를 $\mathbf{x}_\theta$로 대체하여 이 역방향 전이를 근사한다.

이 매개변수화의 장점은 GIDD의 일반적인 전이 행렬 $Q_{t|s}$와 자연스럽게 호환된다는 것이다. 정방향 전이 확률의 닫힌 형태 해(Proposition 3.3)가 존재하므로, 역방향 전이도 닫힌 형태로 계산할 수 있다. 또한 이 매개변수화는 연속 확산에서의 "잡음 예측(noise prediction)" 또는 "$x_0$ 예측"과 개념적으로 동일하다. 연속 확산에서 디노이저가 깨끗한 이미지 $x_0$를 예측하고 이를 사후 평균 계산에 사용하는 것처럼, GIDD의 $\mathbf{x}_\theta$는 깨끗한 토큰 시퀀스 $x$를 예측하고 이를 역방향 전이 확률 계산에 사용한다. 실제 구현에서 모델은 각 토큰 위치에서 $|V|$차원의 로짓(logit) 벡터를 출력하며, 소프트맥스를 통해 확률 분포로 변환한다.

3.4 GIDD ELBO: 새로운 확산 증거 하한의 유도

GIDD 모델을 학습하기 위해서는 가능도의 미분 가능한 추정이 필요하며, 이를 위해 논문은 일반적인 GIDD 확산 과정에 대한 증거 하한(ELBO)을 유도한다. Campbell et al.(2022)의 ELBO를 출발점으로 하여, GIDD의 정방향 및 역방향 전이율을 대입하고 정리하여 다음과 같은 정리를 얻는다.

정리 3.7 (GIDD ELBO): 가중 함수 $w_t(z_t, x)$를 적절히 정의하면, 연속 시간 음의 ELBO(CT-NELBO)는 다음과 같이 표현된다:

$$\text{CT-NELBO} = \mathbb{E}_{t, z_t} \left[ w_t(z_t, x) \left( D_{\text{KL}}[q(\cdot | z_t, x) \| p_\theta(\cdot | z_t)] + D_{\text{IS}}[\hat{p}_x(z_t) \| p_\theta(z_t | Z_t, t)] \right) \right] + C$$

여기서 $D_{\text{IS}}[p \| q] = p/q - \log(p/q) - 1$은 점별(pointwise) 이타쿠라-사이토(Itakura-Saito) 발산으로, 신호 처리 분야에서 스펙트럼 거리 측정에 널리 사용되는 발산이다. IS 발산은 KL 발산과 달리 비대칭적이면서도 스케일 불변(scale-invariant)이 아닌 특성을 가지며, $p = q$일 때에만 0이 된다는 점에서 발산 지표의 기본 요건을 충족한다. GIDD의 ELBO에 IS 발산이 출현하는 것은 흥미로운 이론적 결과인데, 이는 마스크 확산의 ELBO에서는 나타나지 않는 새로운 항이다.

이 ELBO는 두 가지 과제를 공동으로 해결하는 것으로 해석할 수 있다. 첫 번째 과제(KL 항)는 모델을 현재 노이즈 수준에서의 주변 정방향 분포에 맞추는 것이다. 구체적으로, 주어진 $z_t$와 원본 $x$에 대한 사후 분포 $q(z_s | z_t, x)$와 모델의 역방향 전이 $p_\theta(z_s | z_t)$ 사이의 KL 발산을 최소화한다. 이는 마스크 확산에서의 가중 교차 엔트로피 손실과 개념적으로 동일하다. 두 번째 과제(IS 항)는 샘플링된 $z_t$에서 모델과 참 주변 분포 사이의 점별 IS 발산을 최소화하는 것이다. 이 항은 $z_t$가 원본 토큰 $x$도 마스크 $m$도 아닌 경우, 즉 균등 노이즈로 대체된 경우에만 0이 아닌 값을 가진다. 따라서 IS 항은 모델이 균등 노이즈 토큰을 올바르게 처리하도록 유도하는 추가적 학습 신호를 제공한다. 두 과제 모두 모델과 참 분포 사이의 발산을 최소화하므로, $\mathbf{x}_\theta = \mathbf{x}$일 때에만 동시에 최소가 된다.

특히 중요한 것은 Corollary 3.8로, $\boldsymbol{\pi}_t = \mathbf{m}$(마스크 분포)으로 설정하면 GIDD ELBO가 정확히 기존 MDM의 ELBO로 환원됨을 보인다. 마스크 확산에서 $z_t \in \{x, m\}$만 가능하므로, IS 발산 항이 사라지고 마스킹된 토큰에 대한 가중 재구성 손실만 남는다. 이는 GIDD가 마스크 확산의 엄밀한 일반화임을 이론적으로 확인해 준다.

또한 Proposition 3.9에서는 GIDD CT-NELBO의 전역 최솟값이 ELBO 상수 $C$까지 정확히 0이며, 이 최솟값은 모델과 참 분포가 모든 곳에서 일치할 때 달성됨을 증명한다. 수학적으로, KL 발산과 IS 발산 모두 비음수이고, $\mathbf{x}_\theta = \mathbf{x}$일 때에만 동시에 0이 되므로, 두 항의 가중합도 이 조건에서만 0이 된다. 이 결과의 중요성은 혼합 스케줄의 선택이 이론적으로 최선의 모델을 제한하지 않음을 보장한다는 것이다. 즉, 마스크 확산이든 하이브리드 확산이든, 무한한 용량의 모델은 동일한 전역 최적해에 도달할 수 있다. 실제로는 유한한 모델 용량과 최적화 경로에 따라 혼합 스케줄이 학습 동역학과 최종 성능에 영향을 미치지만, 이는 이론적 한계가 아니라 실용적 고려사항이다.

3.5 샘플링과 자기 수정 메커니즘

샘플링은 주어진 샘플링 스케줄 $0 = t_0 < t_1 < \cdots < t_K = 1$을 따라 조상 샘플링(ancestral sampling)을 수행한다. 모든 토큰이 [MASK]인 시퀀스 $Z_K$에서 시작하여, 역방향으로 각 단계에서 $z_{k-1} \sim p_\theta(z_{k-1} | Z_k)$를 반복적으로 샘플링한다. 이 과정은 마스크 확산과 유사하지만, 균등 노이즈가 포함된 혼합 분포를 사용하므로 이미 언마스킹된 토큰도 변경될 수 있다는 중요한 차이가 있다.

논문은 이에 더하여 자기 수정 단계(self-correction step)라는 고정점 반복(fixed-point iteration) 알고리즘을 제안한다(부록 Algorithm 1). 구체적인 절차는 다음과 같다:

  1. 완전히 디노이징된 샘플 $Z_0$를 입력으로 하여, 모델 $\mathbf{x}_\theta(Z_0, 0)$을 평가한다.
  2. 예측 분포를 온도 $\tau$로 리스케일링하여 각 위치에서 후보 토큰 $\hat{z}_i \sim \mathrm{Cat}(\mathbf{x}_\theta(Z_0, 0) / \tau)$를 샘플링한다.
  3. 현재 샘플 $Z_0$와 다른 토큰이 제안된 위치들 중, 모델이 할당한 가능도 $p_\theta(\hat{z}_i | Z_0)$가 가장 높은 하나의 위치를 선택한다.
  4. 해당 위치의 토큰을 $\hat{z}_i$로 교체하여 새로운 $Z_0$를 생성한다.
  5. 자기 정확도(self-accuracy, 모델이 현재 토큰에 최대 확률을 부여하는 위치의 비율)를 계산하고, 인내값(patience) 32로 조기 종료를 판단하여 수렴까지 반복한다.

이 알고리즘의 핵심 통찰은 한 번에 하나의 토큰만 교체한다는 것이다. 여러 토큰을 동시에 교체하면 서로 모순되는 변경이 발생할 수 있으므로, 가장 확신이 높은 하나의 변경만 커밋함으로써 안정적인 수렴을 보장한다. 온도 $\tau$는 탐색(exploration)과 착취(exploitation)의 균형을 조절하며, 논문에서는 $\tau \in [0.1, 0.5]$ 범위가 가장 효과적임을 실험적으로 확인하였다. 자기 수정은 추론 시간의 계산을 추가로 소비하는 대신 샘플 품질을 크게 개선하는 방법이며, 이는 자기회귀 모델에서의 beam search나 best-of-N 샘플링과 유사한 개념이지만, GIDD에서는 이미 생성된 시퀀스의 임의의 위치를 수정할 수 있다는 근본적 차이가 있다.

3.6 혼합 스케줄 설계: 마스킹과 균등 노이즈의 결합

GIDD의 유연성을 실질적으로 활용하기 위해, 논문은 마스킹 노이즈와 균등 노이즈를 결합하는 구체적인 혼합 스케줄을 설계한다. 매개변수 $p_u$를 사용하여 균등 노이즈의 양을 조절하되, 데이터와 노이즈의 중간점($t = 0.5$)에서 균등 토큰의 기대 비율이 최대 $p_u$에 도달하도록 설정한다. 혼합 분포는 다음과 같이 정의된다:

$$\boldsymbol{\pi}_t = \frac{c \cdot g(t) \cdot \mathbf{u} + \mathbf{m}}{c \cdot g(t) + 1}$$

여기서 $\mathbf{u}$는 균등 확률 벡터(각 토큰에 $1/|V|$의 확률 부여), $g(t) = 4t(1-t)$는 $t \in [0, 1]$ 구간에서 중간점 $t = 0.5$에서 최댓값 1을 가지고 양 끝점($t = 0, 1$)에서 0이 되는 이차 함수이며, $c$는 원하는 균등 노이즈 수준 $p_u$에 맞추기 위한 정규화 상수이다. 이 설계의 핵심은 균등 노이즈가 확산 과정의 중간 단계에서만 존재하고, 시작점($t = 0$, 순수 데이터)과 끝점($t = 1$, 순수 마스크)에서는 사라진다는 것이다. $p_u = 0$으로 설정하면 $c = 0$이 되어 $\boldsymbol{\pi}_t = \mathbf{m}$, 즉 마스크 확산이 정확히 복원된다.

이러한 설계의 물리적 직관을 살펴보자. 확산 과정의 초반($t \approx 0$)에서는 대부분의 토큰이 원래 데이터 $x$를 유지하므로, 소수의 마스킹된 토큰만 처리하면 된다. 중간 단계($t \approx 0.5$)에서는 약 절반의 토큰이 열화되어 있으며, 이 중 일부는 마스킹되고 일부는 잘못된 토큰(균등 노이즈)으로 대체된다. 후반($t \approx 1$)에서는 거의 모든 토큰이 마스크 상태이다. 균등 노이즈의 기여가 중간 단계에서 최대인 이유는, 이 영역이 모델이 "올바른" 토큰과 "잘못된" 토큰을 구분하는 능력을 학습하기에 가장 적합하기 때문이다. 너무 적은 노이즈($t \approx 0$)에서는 잘못된 토큰이 거의 없어 학습 신호가 약하고, 너무 많은 노이즈($t \approx 1$)에서는 올바른 토큰도 거의 없어 교정의 참조점이 부족하다. 사전 분포 $\boldsymbol{\pi}_1 = \mathbf{m}$은 모든 토큰이 마스크인 분포로 유지되므로, 샘플링의 시작점은 기존 마스크 확산과 동일하다. 이는 기존 마스크 확산 샘플러와의 호환성을 유지하면서도 중간 단계에서의 자기 수정 능력을 획득할 수 있게 해준다.

3.7 학습 목적함수와 가중치 설계

이론적으로 유도된 ELBO를 실제 학습 목적함수로 사용하기 전에, 가중치 함수 $w_t(z_t, x)$의 수치적 행동을 면밀히 분석할 필요가 있다. 논문은 이 분석을 통해 GIDD ELBO의 실용적 사용에서 발생하는 심각한 문제를 발견하고, 이를 해결하는 가중치 재설계 방안을 제시한다.

ELBO 가중치는 노이즈 수준에 따라 세 가지 경우로 나뉜다. (1) $z_t = m$ (마스킹된 토큰), (2) $z_t \notin \{x, m\}$ (균등 노이즈로 대체된 토큰), (3) $z_t = x$ (노이즈 없는 토큰). 역 시그모이드 함수 $\sigma^{-1}(t)$, 즉 연속 확산에서의 (음의) 로그-SNR에 해당하는 양을 $x$축으로 놓고 가중치를 그리면, 세 경우 모두에서 매우 낮거나 높은 노이즈 수준에서 가중치가 지수적으로 증가하는 문제가 발견되었다. 이러한 극단적인 샘플은 디노이징 과제가 사소하거나(매우 낮은 노이즈: 거의 모든 토큰이 올바름) 불가능한(매우 높은 노이즈: 거의 모든 토큰이 열화됨) 영역에 해당하여 학습 신호가 거의 없음에도 불구하고, 배치 내 다른 샘플을 압도하여 그래디언트를 지배할 수 있다.

ELBO 가중치 분석

Figure 1: ELBO 가중치는 매우 낮거나 높은 노이즈 수준에서 지수적으로 증가한다. 마스킹된 토큰과 균등 토큰의 가중치는 거의 일정하지만, 노이즈 없는 토큰의 가중치는 $p_u$에 따라 크게 변화한다.

이 문제를 해결하기 위해 논문은 두 가지 가중치 조정 방식을 제안한다.

방법 1: 가중치 클램핑($\bar{w}$). 가장 단순한 접근은 가중치를 최댓값 $w_{\max}$로 잘라내는 것이다:

$$\bar{w}_t(z_t, x) = \min(w_t(z_t, x), w_{\max})$$

예비 실험을 통해 $w_{\max} = 5$가 최선임을 확인하였다. 클램핑은 주로 마스크 토큰과 균등 토큰의 가중치에 영향을 미치며, 노이즈 없는 토큰의 가중치는 대부분의 영역에서 이미 $w_{\max}$ 이하이므로 덜 영향을 받는다.

방법 2: 동적 가중치($\tilde{w}$). 보다 원칙적인 접근으로, 최대 손실 가중치를 일정하게 유지하면서 세 가지 토큰 유형(마스킹, 균등, 노이즈 없음) 간의 상대적 가중치를 보존한다. 동적 가중치 함수 $\tilde{w}_t$는 로그-SNR $\sigma^{-1}(t)$의 함수로 정의된다:

$$\tilde{w}_t(z_t, x) = \frac{c_{\text{type}(z_t,x)}}{\max_t w_t(z_t, x)}$$

여기서 $c_{\text{type}}$은 각 토큰 유형에 대한 경험적 상대 가중치이다. 이 방식의 핵심 이점은 노이즈 없는 토큰($z_t = x$)의 기여를 적절히 유지한다는 것이다. 마스크 확산에서는 노이즈 없는 토큰의 가중치가 정확히 0이므로 이 토큰에서 학습이 이루어지지 않지만, $p_u > 0$인 GIDD에서는 노이즈 없는 토큰도 균등 노이즈로 대체된 토큰과 구별되어야 하므로 양의 가중치가 필요하다. 동적 가중치는 이러한 토큰 유형 간의 균형을 유지하면서도 극단적 영역에서의 폭발을 방지한다. 이러한 가중치 재조정은 수학적으로 학습 중 $t$를 비균등 분포에서 샘플링하거나 다른 노이즈 스케줄을 선택하는 것과 동등하다는 점에서, 연속 확산 모델에서의 로그-SNR 기반 샘플링 전략(Kingma & Gao, 2023)과 개념적으로 연결된다.

4. 실험 설정

4.1 데이터셋 및 벤치마크

실험은 OpenWebText(OWT) 데이터셋(Gokaslan et al., 2019)을 사용한다. OWT는 Reddit에서 3점 이상의 투표를 받은 외부 링크의 텍스트를 수집한 약 40GB 규모의 웹 텍스트 코퍼스로, OpenAI의 WebText 데이터셋을 재현하기 위해 구축되었다. 이 데이터셋은 GPT2가 학습한 데이터셋과 유사하며, MDLM, MD4 등 확산 언어 모델 연구에서 표준적으로 사용되어 공정한 비교가 가능하다. 검증을 위해 학습 세트의 마지막 100K 샘플(전체의 약 1.25%)을 예약하였으며, 컨텍스트 길이(512 토큰)를 초과하는 검증 샘플은 무작위 윈도우로 잘라 학습과의 일관성을 유지하였다.

생성 품질 평가에는 Gemma 2 9B(Gemma Team, 2024) 모델 기반의 생성적 perplexity를 사용하였다. 이 지표는 생성된 텍스트 샘플을 더 능력 있는 참조 모델에 입력하여 그 가능도(likelihood)를 측정하는 것으로, 낮은 PPL은 참조 모델 하에서 높은 가능도, 즉 높은 품질을 의미한다. 이전 연구에서 흔히 사용된 GPT2-large(774M 파라미터) 대신 Gemma 2 9B(약 9B 파라미터)를 참조 모델로 사용한 것은, 충분히 더 능력 있는 모델을 사용함으로써 자연어의 참 분포에 대한 보다 신뢰할 수 있는 프록시를 제공하고자 한 것이다. 다만 논문 자체도 생성적 PPL의 한계를 인정하며, 절대적 수치보다는 상대적 비교에 초점을 맞추고 있다.

다운스트림 성능 평가에는 lm-eval-harness를 사용하여 ARC-Easy, ARC-Challenge, BoolQ, HellaSwag, PIQA, OBQA, WinoGrande 등 7개의 제로샷 벤치마크에서 가능도 기반 다중 선택 평가를 수행하였다. ELBO를 통해 토큰별 로그 가능도를 추정하며, 100개의 균등 간격 시간 샘플을 사용하였다.

4.2 구현 세부사항

모델 아키텍처로는 DiT(Diffusion Transformer)(Peebles & Xie, 2023)를 채택하였다. DiT는 원래 이미지 확산을 위해 설계되었으나, 최근 언어 확산에도 널리 적용되고 있다. 토크나이저로는 GPT2 토크나이저(어휘 크기 50,257)를 사용하여 선행 연구와의 직접적 비교를 가능하게 하였다. 세 가지 크기의 모델을 학습하였다:

  • tiny: 12레이어, 12헤드, 768차원 (28.4M 비임베딩 파라미터) — 스케일링 분석용
  • small: 12레이어, 12헤드, 768차원 (92.1M 비임베딩 파라미터, 총 ~110M) — 주요 ablation 및 비교 실험용
  • base: 24레이어, 16헤드, 1024차원 (321.2M 비임베딩 파라미터, 총 ~320M) — 최종 성능 보고용

모든 모델은 컨텍스트 크기 512 토큰, 배치 크기 512로 500K 스텝(총 131B 학습 토큰) 동안 학습되었으며, 일부 모델은 문헌과의 비교를 위해 두 배인 262B 토큰(1M 스텝)까지 학습하였다. 최적화에는 Adam 옵티마이저($\beta_1 = 0.9$, $\beta_2 = 0.999$)를 사용하고, 학습률 $3 \times 10^{-4}$로 처음 10K 스텝 선형 워밍업 후 코사인 스케줄로 감쇄하였다. 그래디언트 클리핑(노름 1.0)과 가중치 감쇄(ablation 시 0.01, 최종 GIDD+ 설정 시 0.02)를 적용하였으며, 8대의 NVIDIA A100/H100-80GB GPU에서 bfloat16 혼합 정밀도로 학습하였다. 시간 인코딩에는 사인파(sinusoidal) 임베딩을 사용하였으며, 학습 중 시간 $t$는 $[0, 1]$ 구간에서 균등하게 샘플링된다.

노이즈 스케줄은 로그 선형(log-linear) 스케줄을 사용하여 $\alpha_t = 1 - t$로 설정하였다. 이는 MDLM에서 사용한 것과 동일한 선택으로, 로그-SNR이 시간에 따라 선형적으로 감소함을 의미한다. 혼합 분포의 균등 노이즈 비율 $p_u$는 $\{0.0, 0.1, 0.2\}$의 세 값을 체계적으로 탐구하였다. $p_u = 0.0$은 마스크 확산에 해당하며, $p_u = 0.1$과 $p_u = 0.2$는 각각 중간 시점에서 기대 균등 토큰 비율이 약 10%와 20%인 하이브리드 설정이다.

4.3 베이스라인

공정한 비교를 위해 확산 모델과 자기회귀 모델 양쪽의 베이스라인을 포함하였다:

  • MDM (재구현): 동일한 아키텍처, 데이터, 하이퍼파라미터 설정에서 학습한 마스크 확산 모델. GIDD의 가장 직접적인 비교 대상이다.
  • MDLM (Sahoo et al., 2024): 연속 시간 마스크 확산의 선행 연구. 원문에서 보고된 수치를 사용한다.
  • MD4 (Shi et al., 2024): DiT 아키텍처 기반 마스크 확산 모델. 524B 토큰으로 학습되어 GIDD보다 두 배의 계산량을 사용하였다.
  • GPT2-small (Radford et al., 2019): OpenAI의 사전학습된 자기회귀 모델로, 유사한 데이터에서 학습되었다.
  • Llama 110M: Llama 아키텍처를 사용하여 동일한 OWT 데이터에서 262B 토큰으로 재학습한 자기회귀 베이스라인. 가장 직접적인 자기회귀 비교 대상이다.

5. 주요 실험 결과

5.1 Ablation Study: 가중치 함수와 균등 노이즈 비율의 효과

Ablation study는 GIDD 프레임워크의 각 구성 요소가 최종 성능에 미치는 영향을 체계적으로 분석하기 위해 설계되었다. 세 가지 핵심 질문에 답하고자 한다. 질문 1: GIDD가 $p_u = 0$일 때 이론적 예측대로 MDM과 동등한 성능을 보이는가? 이는 구현의 정확성과 이론적 등가성을 검증하는 기본적이지만 중요한 확인이다. 질문 2: 균등 노이즈의 추가가 검증 perplexity에 어떤 영향을 미치는가? 균등 노이즈는 학습 과제를 더 어렵게 만들므로 PPL이 악화될 것으로 예상되지만, 그 정도가 얼마인지가 중요하다. 질문 3: 가중치 함수의 설계(클램핑 vs 동적 가중치)가 성능에 어떤 영향을 미치며, 특히 균등 노이즈 설정에서의 PPL 격차를 얼마나 줄일 수 있는가?

모델 (small) PPL ($p_u=0.0$) PPL ($p_u=0.1$) PPL ($p_u=0.2$)
MDM (재구현) 24.37 - -
GIDD (기본) 24.36 26.88 28.22
+ 가중치 클램핑 23.23 25.09 26.40
+ 동적 가중치 23.24 23.90 24.64
+ 가중치 감쇄 (GIDD+) 23.05 23.67 24.38

Table 1: GIDD ($p_u=0.0$)와 MDM의 PPL이 거의 일치하여 이론적 동등성을 확인할 수 있다. 가중치 함수의 적절한 설계가 특히 $p_u > 0$ 영역에서 큰 성능 향상을 가져온다.

실험 결과는 이론적 예측을 정확히 확인한다. GIDD ($p_u = 0$)의 검증 PPL은 24.36으로, MDM 재구현의 24.37과 거의 완벽하게 일치한다. 또한 MDM 재구현은 동일 조건에서 학습된 MDLM(23.21, 262B 토큰)과도 밀접하게 대응된다. 그러나 균등 노이즈를 추가하면 기본 설정에서 PPL이 다소 악화되는데(26.88~28.22), 이는 마스킹과 균등 노이즈를 공동으로 처리해야 하는 과제의 복잡성 증가에 기인한다고 논문은 분석한다.

가중치 함수의 설계가 성능에 미치는 영향은 매우 크며, 이는 본 논문의 가장 실용적인 기여 중 하나이다. 가중치 클램핑($\bar{w}$)은 특히 마스크 전용 설정에서 상당한 개선(24.36 → 23.23, 약 4.6% 감소)을 가져온다. 그러나 균등 노이즈 설정에서는 클램핑만으로는 충분하지 않다($p_u = 0.1$: 26.88 → 25.09). 반면, 동적 가중치 함수($\tilde{w}$)는 균등 노이즈 설정에서의 성능 격차를 극적으로 줄인다(예: $p_u = 0.1$에서 26.88 → 23.90, 약 11.1% 감소). 클램핑과 동적 가중치가 마스크 전용 설정에서는 거의 동일한 효과(23.23 vs 23.24)를 보이는 것과 대조적으로, 균등 노이즈 설정에서는 동적 가중치가 압도적으로 우수하다(25.09 vs 23.90). 이 차이가 발생하는 이유를 논문은 다음과 같이 설명한다. 마스크 확산에서는 노이즈 없는 토큰($z_t = x$)의 가중치가 정확히 0이므로, 이 토큰들은 ELBO에 기여하지 않는다. 따라서 클램핑이 마스크 토큰과 균등 토큰의 가중치만 조절하면 충분하다. 그러나 $p_u > 0$일 때는 노이즈 없는 토큰도 양의 가중치를 가지며, 이 토큰들에 대한 학습 신호가 모델의 자기 수정 능력 발달에 핵심적이다. 동적 가중치는 세 가지 토큰 유형 간의 참 상대적 가중치를 보존하면서 극단적 값을 제한하므로, 이 균형을 효과적으로 유지한다.

최종적으로 적당한 가중치 감쇄(weight decay, 0.02)를 추가하면 학습과 검증 손실이 모두 개선된다. D'Angelo et al.(2024)이 제안한 것처럼, 가중치 감쇄는 확산 모델에서의 과적합을 방지하고 일반화 성능을 향상시키는 효과가 있다. 동적 가중치와 0.02 가중치 감쇄를 결합한 설정을 GIDD+로 명명하며, 이것이 모든 균등 노이즈 수준에서 최선의 구성임을 확인하였다.

모델 (small) 학습 토큰 PPL (↓)
Llama 110M (재학습) 262B 16.11
GPT2 알 수 없음 23.40
MD4* 524B 21.80
MDLM* 262B 23.21
MDM (재구현) 262B 23.36
GIDD+ ($p_u=0.0$) 262B 22.29

Table 2: GIDD+는 동일 계산량의 MDM 베이스라인을 능가하며, 확산 언어 모델링에서 새로운 최고 성능을 달성한다. *원문 논문 보고 수치.

262B 토큰으로 학습한 GIDD+ ($p_u = 0.0$)의 최종 검증 PPL은 22.29로, MDM 재구현의 23.36을 능가하며, MDLM의 23.21보다도 우수한 성능을 보인다. MD4가 524B 토큰(GIDD+의 두 배)을 학습하여 달성한 21.80에는 미치지 못하지만, 동일한 계산 예산 하에서는 GIDD+가 명확히 우수하다. 이는 재가중된 학습 목적함수 덕분에 달성된 계산량 대비 최고 수준(compute-matched state-of-the-art)의 확산 언어 모델링 성능이다. 특히 주목할 점은, $p_u = 0.0$ 설정에서도 가중치 함수의 개선만으로 MDM 대비 상당한 성능 향상이 가능하다는 것이다. 이는 기존 MDM 연구들이 ELBO 가중치의 극단적 행동에 충분히 주의를 기울이지 않았으며, 적절한 가중치 설계가 확산 언어 모델의 실용적 성능을 크게 좌우함을 시사한다.

자기회귀 모델과의 격차에 대해서도 분석할 가치가 있다. 동일한 데이터에서 학습한 Llama 110M 자기회귀 모델의 검증 PPL은 16.11로, GIDD+(22.29)보다 상당히 낮다. 이 격차는 확산 모델과 자기회귀 모델의 근본적인 차이에서 비롯된다. 자기회귀 모델은 이전 토큰을 정확히 관찰한 상태에서 다음 토큰을 예측하는 반면, 확산 모델은 부분적으로 노이즈가 추가된 시퀀스에서 원본을 추정해야 하므로, 조건부 정보의 품질에서 구조적 불리함이 존재한다. 그러나 GIDD+는 이 격차를 이전 연구 대비 상당히 줄였으며, 자기 수정이라는 독특한 능력을 통해 자기회귀 모델이 갖추지 못한 생성 유연성을 제공한다.

5.2 비조건적 텍스트 생성 품질

검증 PPL에서 균등 노이즈 모델이 마스크 전용 모델보다 다소 뒤처지지만, 균등 노이즈를 도입한 핵심 동기인 생성 품질에서는 반대의 양상이 관찰된다. 논문은 Gemma 2 9B 모델을 기준으로 한 생성적 perplexity로 샘플 품질을 정량화하며, 생성된 샘플이 참조 모델 하에서 높은 가능도를 가질수록 높은 품질로 간주한다.

실험 결과, 균등 노이즈로 학습된 모델의 생성적 PPL이 마스크 전용 모델보다 유의미하게 우수함이 확인되었다. 특히 적은 추론 계산량(디노이징 단계 수가 적은 경우)에서의 개선이 두드러졌다. 예를 들어, 32 디노이징 단계에서 GIDD+ (small, $p_u = 0.2$)의 생성적 PPL은 마스크 전용($p_u = 0.0$) 및 MDM 대비 크게 낮았다. 이는 균등 노이즈 학습이 모델이 자신의 출력을 후속 입력으로 받을 때 생성 과정을 안정화시키는 효과가 있음을 시사한다.

이 현상의 직관적 해석은 다음과 같다. 마스크 확산의 디노이징 과정에서 모델은 이전 단계에서 자신이 생성한 토큰을 다음 단계의 입력으로 받는다. 이때 이전 단계에서의 예측이 완벽하지 않으면, 모델은 학습 중 본 적이 없는 "잘못된 토큰이 섞인 시퀀스"를 입력으로 받게 된다. 이는 학습과 추론 사이의 분포 불일치(distribution mismatch)를 야기하며, 이 불일치가 오류 누적의 원인이 된다. 반면, 균등 노이즈로 학습된 모델은 학습 중에도 잘못된(무작위로 대체된) 토큰을 포함하는 시퀀스를 입력으로 받으므로, 추론 시의 분포 불일치에 더 강건(robust)하다. 이러한 해석은 디노이징 과정 자체에서 이미 일정 수준의 암묵적 자기 수정이 일어나고 있을 가능성을 제기하며, 명시적 자기 수정 단계가 이 효과를 더욱 증폭시키는 것으로 이해할 수 있다.

그러나 디노이징 단계 수를 증가시켜도 base 모델의 생성적 PPL은 약 특정 값 아래로는 감소하지 않고 플래토에 도달하였다. 이는 디노이징 과정만으로는 도달할 수 없는 품질의 하한이 존재하며, 이 하한을 돌파하기 위해서는 자기 수정과 같은 추가적인 후처리가 필요함을 시사한다. 이 현상은 확산 모델의 이산화 오차(discretization error)와 관련이 있을 수 있다. 유한한 수의 디노이징 단계를 사용하는 한, 연속 시간 역방향 과정에 대한 근사가 불완전하며, 이 근사 오차가 생성 품질의 상한을 결정하는 것으로 보인다. 자기 수정은 이러한 이산화 오차로 인한 잔류 오류를 사후에 교정하는 역할을 하며, 이는 확산 모델의 추론 과정에서 새로운 차원의 계산-품질 트레이드오프를 제공한다.

디노이징 단계 수에 따른 PPL (small)

Figure 2: 디노이징 단계 수에 따른 생성적 PPL 변화 (small 모델). 균등 노이즈로 학습된 모델이 전 구간에서 더 낮은(더 나은) PPL을 보이며, 특히 적은 단계 수에서 차이가 두드러진다.

디노이징 단계 수에 따른 PPL (base)

Figure 3: 디노이징 단계 수에 따른 생성적 PPL 변화 (base 모델). 균등 노이즈($p_u = 0.1, 0.2$) 모델이 마스크 전용($p_u = 0.0$) 모델을 일관되게 능가하며, 256~512 단계에서 플래토에 도달한다.

5.3 자기 수정 능력의 정량적 평가

GIDD의 가장 핵심적인 실용적 기여는 자기 수정 능력의 실증이다. 비조건적으로 생성된 샘플에 Section 3.5에서 설명한 자기 수정 단계를 반복적으로 적용하여, 모델이 자신의 실수를 식별하고 교정할 수 있는지 직접 평가하였다.

자기 수정 개선율

Figure 4: GIDD를 마스킹과 균등 노이즈의 조합으로 학습하면 모델이 자신의 실수를 식별하고 수정하는 능력을 획득한다. 반복적으로 나쁜 토큰을 더 나은 것으로 교체함으로써 Gemma 2 9B 기준 생성적 PPL이 최대 55%까지 개선된다.

base 모델에 대한 실험 결과, 생성적 PPL과 자기 정확도가 교체된 토큰 수에 따라 일관되게 개선됨을 확인하였다. $p_u = 0.2$ 모델의 경우, 자기 수정을 통해 생성적 PPL이 초기값 대비 크게 감소하고 자기 정확도가 상승하였다. 반면, 마스크 전용 모델은 동일한 수의 토큰을 리샘플링함에도 불구하고 생성적 PPL이나 자기 정확도가 개선되지 않았다. 이는 자기 수정 능력이 학습 중 균등 노이즈가 존재할 때에만 획득됨을 명확히 보여준다.

자기 수정 - 토큰 변경 수 vs 온도 자기 수정 - PPL vs 토큰 변경 수

Figure 5: (좌) GIDD+ (base) 모델의 자기 수정은 균등 노이즈 수준에 관계없이 최대 10%의 토큰을 리샘플링하며, $\tau \in [0.1, 0.5]$의 온도가 가장 효과적이다. (우) 하이브리드 노이즈 모델의 경우 토큰 변경에 따라 생성 품질(PPL)이 유의미하게 개선되지만, 마스크 전용 모델은 개선되지 않는다.

자기 정확도 vs PPL 상관관계

Figure 6: 자기 정확도와 생성적 PPL 간의 상관관계. 하이브리드 모델($p_u > 0$)이 자신의 샘플 품질을 판단하는 데 마스크 전용 모델보다 유의미하게 우수함을 보여준다.

GPT-4o를 활용한 정성적 평가에서도 자기 수정의 효과가 확인되었다. 명확성, 문법, 사실성, 문체, 창의성의 5가지 범주에서 1-10점 척도로 평가한 결과, 하이브리드 노이즈 모델에서의 자기 수정은 모든 범주에서 통계적으로 유의미한 개선을 보였다.

모델 명확성 문법 사실성 문체 창의성
GIDD ($p_u=0.0$) 2.51 2.96 3.61 2.84 4.48
+ 자기수정 ($\tau=0.3$) 1.99 (-20.9%) 2.39 (-19.3%) 3.02 (-16.2%) 2.24 (-21.1%) 3.60 (-19.5%)
GIDD ($p_u=0.1$) 2.51 2.85 3.66 2.78 4.26
+ 자기수정 ($\tau=0.3$) 2.69 (+7.2%) 3.05 (+6.9%) 3.88 (+6.0%) 2.98 (+7.1%) 4.35 (+2.1%)
GIDD ($p_u=0.2$) 2.49 2.82 3.70 2.79 4.25
+ 자기수정 ($\tau=0.3$) 2.90 (+16.5%) 3.29 (+16.6%) 4.01 (+8.5%) 3.16 (+13.4%) 4.48 (+5.5%)

Table 3: GPT-4o 기반 정성 평가. 자기 수정은 하이브리드 균등 노이즈 모델에서만 모든 품질 지표를 유의미하게 개선한다. 마스크 전용 모델에서는 오히려 모든 지표가 악화된다. 가장 높은 수준의 균등 노이즈($p_u = 0.2$)가 전 범주에서 가장 큰 개선과 최고 점수를 달성한다.

마스크 전용 모델($p_u = 0.0$)에서 자기 수정을 적용하면 오히려 모든 품질 지표가 약 20% 악화되는 반면, $p_u = 0.2$ 모델에서는 명확성이 16.5%, 문법이 16.6%, 문체가 13.4%, 사실성이 8.5%, 창의성이 5.5% 향상되었다. 이 결과는 균등 노이즈 학습이 모델에게 "올바른" 토큰과 "잘못된" 토큰을 구분하는 능력을 부여하며, 이 능력이 자기 수정 메커니즘을 통해 생성 품질의 실질적 개선으로 이어짐을 명확히 보여준다.

마스크 전용 모델에서 자기 수정이 오히려 품질을 악화시키는 이유는 깊이 분석할 가치가 있다. 마스크 확산으로 학습된 모델은 학습 중 노이즈가 없는 토큰을 항상 올바른 것으로 간주하도록 학습되었다. 따라서 이러한 모델에게 생성된 샘플을 "노이즈 없는" 상태로 제시하면, 모델은 모든 토큰이 올바르다고 가정하고 최소한의 변경만 제안한다. 그러나 실제로는 생성된 샘플에 오류가 포함되어 있으므로, 모델의 교정 시도는 잘못된 가정에 기반하여 오히려 품질을 떨어뜨린다. 반면, 균등 노이즈로 학습된 모델은 학습 중 "올바르게 보이지만 실제로는 잘못된" 토큰(균등 노이즈로 대체된 토큰)을 반복적으로 접하면서, 맥락에 부합하지 않는 토큰을 감지하고 교정하는 능력을 자연스럽게 발달시킨다. 이것이 ELECTRA(Clark et al., 2020)의 "교체된 토큰 감지(replaced token detection)" 접근법과 유사한 메커니즘이 확산 모델 학습에서 암묵적으로 구현되는 것이라 해석할 수 있다.

논문은 또한 자기 수정의 구체적인 예시를 제시하여 정성적 분석을 보완한다. 예를 들어, 원본 생성에서 문법적 오류나 부적절한 단어 선택이 포함된 문장이 자기 수정 후 더 자연스럽고 문법적으로 올바른 문장으로 변환되는 사례를 보여준다. 특히 흥미로운 것은 사실성(factuality)의 개선인데, 이는 모델이 단순한 표면적 패턴을 넘어서 의미적 일관성까지 고려하여 토큰을 교체할 수 있음을 시사한다. 다만, 이러한 사실성 개선이 모델의 세계 지식에 의한 것인지, 아니면 단순히 학습 데이터에서 더 빈번하게 관찰되는 패턴으로의 회귀인지는 추가 연구가 필요한 부분이다.

5.4 제로샷 벤치마크 성능 비교

크기 모델 토큰 ARC-e ARC-c BoolQ HellaS. PIQA OBQA WinoG. 평균
small GPT2 - 43.81 19.03 48.72 28.92 62.89 16.40 51.62 38.77
Llama (재학습) 262B 40.53 25.51 46.21 33.14 62.73 28.40 50.75 41.04
small MDM (재구현) 262B 30.98 23.63 50.52 31.11 54.13 28.00 49.41 38.25
GIDD+ ($p_u=0$) 262B 30.98 23.55 50.43 31.87 56.42 26.60 51.70 38.79
GIDD+ ($p_u=0$) 131B 31.57 24.57 50.92 31.36 56.31 27.80 52.57 39.30
base GIDD+ ($p_u=0$) 131B 32.58 24.40 50.86 36.62 58.05 29.20 51.54 40.46

Table 4: 제로샷 벤치마크 정확도. GIDD+ base 모델이 MDM 재구현과 GPT2-small을 능가하지만, Llama 기반 자기회귀 베이스라인에는 미치지 못한다.

다운스트림 벤치마크에서 GIDD+ ($p_u = 0.0$, 131B 토큰)의 small 모델은 7개 벤치마크 평균 39.30으로 MDM 재구현(38.25)과 GPT2-small(38.77)을 모두 능가한다. 개별 벤치마크를 살펴보면, GIDD+는 PIQA(56.31 vs 54.13), WinoGrande(52.57 vs 49.41), ARC-Challenge(24.57 vs 23.63) 등에서 MDM 대비 명확한 개선을 보인다. 특히 PIQA와 HellaSwag 같은 상식 추론 과제에서의 개선이 두드러지며, 이는 재가중된 학습 목적함수가 모델의 언어 이해 능력을 전반적으로 향상시킴을 시사한다.

base 모델은 평균 40.46으로 더 높은 성능을 달성하며, HellaSwag(36.62)와 PIQA(58.05)에서 특히 큰 개선을 보인다. 그러나 Llama 기반 자기회귀 베이스라인(41.04)에는 여전히 다소 뒤처지며, 이는 확산 언어 모델과 자기회귀 모델 사이의 성능 격차가 아직 완전히 해소되지 않았음을 시사한다. 다만 이 격차는 small 규모에서의 차이(39.30 vs 41.04, 1.74 포인트)보다 축소되는 추세이며, 더 큰 모델에서의 실험이 이 격차가 계속 줄어드는지 확인하는 것이 중요한 후속 연구 방향이다.

흥미로운 점은 벤치마크 정확도에서는 마스크 전용($p_u = 0.0$) 모델이 하이브리드 모델보다 일관되게 우수하다는 것이다. 예를 들어, small 규모에서 $p_u = 0.0$의 평균 39.30에 비해 $p_u = 0.1$은 38.10, $p_u = 0.2$는 36.80에 그친다. 이는 균등 노이즈가 가능도 추정에는 불리하지만 생성 품질에서는 유리한 트레이드오프를 형성함을 보여주며, 응용 시나리오에 따라 $p_u$의 최적 선택이 달라질 수 있음을 시사한다. 가능도 기반 다운스트림 과제(분류, NLU)에서는 $p_u = 0$이, 생성 과제(텍스트 생성, 편집)에서는 $p_u > 0$이 유리할 가능성이 높다.

6. 추가 분석 및 Ablation Study

6.1 스케일링 분석: 균등 노이즈와 모델 크기의 상호작용

균등 노이즈의 추가가 학습 과제를 더 어렵게 만든다는 관찰은 직관적으로 이해할 수 있다. 모델은 더 이상 모든 언마스킹된 토큰이 올바르다고 가정할 수 없으며, 각 토큰의 맥락을 고려하여 필요한 경우 교정해야 한다. 이 직관적 설명은 성능 차이의 원인이 모델 용량의 부족일 수 있음을 시사하며, 더 큰 모델일수록 균등 노이즈의 추가에 덜 영향받을 것으로 예측한다.

IsoFLOPs 스케일링 p_u=0.0 IsoFLOPs 스케일링 p_u=0.1 IsoFLOPs 스케일링 p_u=0.2

Figure 7: 계산 효율적 프론티어 분석. 좌측부터 $p_u = 0.0$, $0.1$, $0.2$. 균등 노이즈가 높을수록 스케일링 지수가 약간 더 크며, 계산량 증가에 따른 개선이 더 빠르다.

이 가설을 검증하기 위해 tiny(28.4M), small(92.1M), base(321.2M)의 세 크기에서 IsoFLOPs 프론티어를 분석하였다. IsoFLOPs 분석은 Chinchilla 연구(Hoffmann et al., 2022)에서 대중화된 방법으로, 동일한 총 계산량(FLOPs)을 모델 크기와 학습 데이터 양에 다양한 방식으로 배분하여 계산 효율적 프론티어(compute-efficient frontier)를 구성하는 것이다. 각 계산 예산에서의 최적 ELBO를 계산량의 함수로 그리면, 스케일링 법칙의 지수를 추정할 수 있다.

결과적으로 일관되지만 작은 추세를 관찰하였는데, 더 높은 수준의 균등 노이즈가 계산량 증가에 따라 약간 더 빠르게 스케일링되는 양상을 보였다. 구체적으로, ELBO를 계산량의 멱법칙 $L \propto C^{-\gamma}$로 피팅한 결과, 마스크 전용($p_u = 0$)의 스케일링 지수는 $\gamma = 0.0586$인 반면, $p_u = 0.1$과 $p_u = 0.2$의 지수는 각각 $0.0589$와 $0.0621$이었다. 지수의 차이는 작지만($0.0586$ vs $0.0621$), 멱법칙의 특성상 계산량이 증가하면 누적 효과가 커진다. 이 추세를 외삽하면 $p_u = 0.2$ 설정이 약 $10^{22}$ FLOPs 부근에서 $p_u = 0$을 추월할 것으로 예측되며, 이는 중대형 규모의 학습에서 통상적으로 도달하는 계산 예산이다.

다만 논문은 이러한 외삽의 한계를 명확히 인식하고 있다. 세 가지 모델 크기만으로는 스케일링 법칙의 신뢰 구간이 매우 넓으며, 실제로 더 큰 규모에서는 스케일링 행동이 변화할 수 있다. 또한 계산 효율적 프론티어의 형태 자체가 균등 노이즈 비율에 따라 달라질 수 있어, 현재의 지수 추정값이 더 큰 규모에서도 유지될 것이라는 보장이 없다. 그럼에도 불구하고, 이 분석은 균등 노이즈 학습이 추가적인 모델 용량에서 더 큰 혜택을 받을 수 있다는 직관적 설명을 실험적으로 뒷받침하며, 더 큰 규모에서의 실험이 유망한 연구 방향임을 제안한다.

6.2 디노이징 단계 수에 따른 생성 품질 분석

확산 모델의 실용적 측면에서 디노이징 단계 수는 추론 비용과 직결되므로, 단계 수에 따른 생성 품질의 변화를 이해하는 것이 중요하다. 자기회귀 모델이 토큰 수와 동일한 순전파 횟수를 요구하는 것과 달리, 확산 모델은 디노이징 단계 수를 자유롭게 선택할 수 있으며, 이는 생성 속도와 품질 사이의 트레이드오프를 제공한다. 적은 단계(예: 32단계)에서는 빠른 생성이 가능하지만 품질이 저하되고, 많은 단계(예: 512단계)에서는 높은 품질을 달성하지만 시간이 오래 걸린다.

GIDD의 실험 결과에서 특히 주목할 만한 점은 균등 노이즈 모델이 적은 디노이징 단계에서의 품질 저하가 마스크 전용 모델보다 훨씬 완만하다는 것이다. 32 단계에서 $p_u = 0.2$ 모델과 $p_u = 0.0$ 모델의 생성적 PPL 차이는 512 단계에서의 차이보다 더 크다. 이는 실용적으로 매우 중요한 의미를 갖는다. 적은 디노이징 단계로도 높은 품질을 유지할 수 있다면, 실시간 응용이나 대규모 배치 생성에서의 확산 모델의 경쟁력이 크게 향상되기 때문이다. 이러한 강건성은 균등 노이즈 학습이 모델에게 부여하는 노이즈 강건성(noise robustness)에서 기인하는 것으로 해석할 수 있다.

6.3 모델 크기별 다운스트림 성능 분석

크기 모델 ARC-e ARC-c BoolQ HellaS. PIQA OBQA WinoG. 평균
tiny GIDD+ ($p_u=0$) 28.28 24.49 49.97 27.78 54.62 26.20 51.30 37.52
GIDD+ ($p_u=0.1$) 27.69 23.21 50.89 26.75 55.28 24.60 52.25 37.24
GIDD+ ($p_u=0.2$) 26.73 23.12 50.18 25.61 51.52 27.40 49.33 36.27
small GIDD+ ($p_u=0$) 31.57 24.57 50.92 31.36 56.31 27.80 52.57 39.30
GIDD+ ($p_u=0.1$) 28.45 21.93 50.73 28.37 55.82 29.20 52.17 38.10
GIDD+ ($p_u=0.2$) 27.99 22.87 50.46 26.92 52.94 26.40 50.04 36.80
base GIDD+ ($p_u=0$) 32.58 24.40 50.86 36.62 58.05 29.20 51.54 40.46
GIDD+ ($p_u=0.1$) 30.13 23.04 51.10 31.91 56.15 27.60 52.33 38.89
GIDD+ ($p_u=0.2$) 28.75 24.15 50.95 29.82 53.81 26.80 49.25 37.65

Table 5: 세 크기(tiny, small, base)와 세 균등 노이즈 수준($p_u = 0.0, 0.1, 0.2$)에 대한 다운스트림 성능. 모델 크기에 따라 성능이 일관되게 향상되지만, 하이브리드 노이즈 모델은 모든 규모에서 마스크 전용 모델 대비 약간 뒤처진다.

세 크기 모두에서 성능은 모델 크기에 따라 일관되게 향상되며, 이는 균등 노이즈 수준에 관계없이 관찰된다. 예를 들어 $p_u = 0.0$에서 tiny → small → base로 갈수록 평균 벤치마크 정확도는 37.52 → 39.30 → 40.46으로 단조 증가한다. 그러나 하이브리드 노이즈 모델은 다운스트림 벤치마크에서 마스크 전용 모델보다 일관되게 뒤처진다. $p_u = 0.2$의 경우 base 모델에서도 평균 37.65에 그쳐, 동일 크기의 마스크 전용 모델(40.46)에 비해 약 3포인트 차이가 난다.

이러한 결과는 가능도 기반 평가(perplexity, 벤치마크 정확도)와 생성 품질 평가 사이에 명확한 트레이드오프가 존재함을 보여준다. 이 트레이드오프의 원인을 이해하기 위해, 두 평가 방식의 근본적 차이를 살펴보자. 다운스트림 벤치마크에서는 ELBO를 통해 각 선택지의 로그 가능도를 추정하여 가장 높은 것을 선택한다. 이 과정에서 모델의 "밀도 추정 능력"이 직접적으로 평가되며, 균등 노이즈로 인한 학습 과제의 복잡성 증가가 밀도 추정의 정확도를 떨어뜨려 벤치마크 성능에 부정적 영향을 미치는 것으로 보인다. 반면, 생성 과정에서는 모델의 디노이징 능력과 자기 수정 능력이 함께 작용하여, 밀도 추정의 약간의 부정확성을 보상하고도 남는 품질 개선을 가져온다. 이는 확산 언어 모델의 평가가 단순한 perplexity나 벤치마크 정확도만으로는 불완전하며, 생성 품질까지 함께 고려해야 전체적인 모델 능력을 정확히 파악할 수 있음을 시사하는 중요한 통찰이다.

7. 한계점 및 향후 연구 방향

논문에서 직접 언급하거나 실험 결과로부터 도출할 수 있는 한계점과 향후 연구 방향은 다음과 같다.

실험 규모의 제한이 가장 주요한 한계이다. 가장 큰 모델이 약 320M 파라미터이며, 최대 계산 예산은 약 $10^{20}$ FLOPs에 불과하다. 이는 현대 LLM(예: GPT-4, Llama 3 405B 등)이 사용하는 계산 예산과 비교하면 극히 미미한 수준이며, 언어 모델의 핵심적 능력(in-context learning, chain-of-thought 추론 등)이 출현하기 시작하는 약 $10^{22}$ FLOPs보다 2개 자릿수 낮은 규모이다. 따라서 GIDD의 자기 수정 능력이 이러한 출현 능력(emergent abilities)과 어떻게 상호작용하는지, 그리고 균등 노이즈의 스케일링 이점이 더 큰 규모에서 실제로 어떻게 발현되는지는 여전히 미지수이다. 외삽에 기반한 $10^{22}$ FLOPs 부근에서의 교차 예측은 세 개의 데이터 포인트에만 기반하므로 신뢰 구간이 매우 넓으며, 스케일링 법칙의 지수 자체가 규모에 따라 변화할 가능성이 있다.

생성 품질과 가능도 사이의 트레이드오프도 중요한 한계이다. 균등 노이즈가 추가된 모델은 생성적 PPL에서는 우수하지만, 검증 PPL과 다운스트림 벤치마크 정확도에서는 마스크 전용 모델에 뒤처진다. 이는 단일 모델로 두 가지 목표를 동시에 최적화하기 어렵다는 근본적 트레이드오프를 시사한다. 이 트레이드오프의 최적 균형점을 찾는 것, 특히 모델 크기와 계산 예산에 따라 최적의 균등 노이즈 비율 $p_u$가 어떻게 변화하는지 체계적으로 탐구하는 것이 필요하다. 논문의 실험에서 자기 수정의 혜택은 $p_u = 0.2$에서 가장 크지만(55% PPL 개선), 디노이징 과정만의 품질은 $p_u = 0.1$에서 최선인 경우가 많아, 자기 수정의 사용 여부에 따라 최적 $p_u$가 달라질 수 있다. 또한 최적 노이즈 수준이 모델 크기에 의존하는 양상도 관찰되어(small에서는 $p_u = 0.1$, base에서는 $p_u = 0.2$가 더 효과적), 모델 크기-노이즈 수준-계산 예산의 3차원 최적화 문제로 확장될 가능성이 있다.

자기 수정 알고리즘의 효율성과 수렴 보장 측면에서도 개선의 여지가 있다. 현재의 자기 수정은 한 번에 하나의 토큰만 교체하는 고정점 반복이므로, 수렴까지 많은 반복이 필요할 수 있다. 또한 현재의 알고리즘은 수렴의 이론적 보장이 없다. 자기 정확도가 단조 증가하리라는 보장이 없으며, 진동(두 개 이상의 동등한 상태 사이를 오가는 현상)이 발생할 수 있다. 논문에서는 인내값 기반의 조기 종료로 이를 실용적으로 처리하지만, 이론적으로 이 알고리즘이 고정점(fixed point)에 수렴하는 조건을 규명하는 것이 바람직하다. 보다 효율적인 자기 수정 전략, 예를 들어 한 번에 여러 토큰을 동시에 교체하거나, 교체 우선순위를 보다 정교하게 결정하는 방법, 또는 자기 수정을 디노이징 과정에 통합하여 별도의 후처리 없이도 자기 수정의 혜택을 얻는 방법의 탐구가 유망한 향후 연구 방향이 될 것이다.

조건부 생성과 실용적 응용에 대한 탐구도 아직 이루어지지 않았다. 현재 실험은 비조건적 텍스트 생성에 한정되어 있으며, 프롬프트 조건부 생성, 기계 번역, 텍스트 편집 등 실용적 NLP 과제에서의 GIDD의 효용성은 검증되지 않았다. 특히 대규모 언어 모델의 실용적 가치는 주로 지시사항 따르기(instruction following)나 질의응답에서 비롯되는데, 이러한 과제에서 GIDD의 자기 수정 능력이 실제로 유의미한 이점을 제공하는지는 중요한 미해결 질문이다. 또한 GIDD의 일반적인 혼합 분포 $\boldsymbol{\pi}_t$의 설계 공간은 마스킹+균등의 이중 조합 외에도 훨씬 넓은 가능성을 열어두고 있다. 예를 들어, 학습된 임베딩 유사성에 기반한 혼합 분포, 문맥 의존적 혼합 분포, 또는 학습 가능한 혼합 분포 등이 탐구할 가치가 있는 확장이다.

생성적 perplexity 평가 지표의 한계도 논의할 필요가 있다. 논문의 핵심 주장 중 하나인 "최대 55% PPL 개선"은 Gemma 2 9B를 기준 모델로 사용한 생성적 perplexity에 기반하는데, 이 지표는 여러 알려진 문제점을 가지고 있다. 첫째, 기준 모델의 편향이 결과에 직접 반영되며, 기준 모델이 선호하는 패턴을 가진 텍스트가 더 낮은 PPL을 받을 수 있다. 둘째, 생성적 PPL은 다양성(diversity)과 트레이드오프 관계에 있어, PPL의 감소가 다양성의 희생 위에서 이루어졌을 가능성이 있다. 논문은 유니그램 엔트로피를 다양성 지표로 함께 보고하여 이 문제를 부분적으로 완화하지만, 유니그램 엔트로피는 텍스트의 국소적 다양성만 포착하며 주제 다양성이나 구조적 다양성은 반영하지 못한다. 논문 자체도 이 한계를 인정하며, 생성적 PPL은 절대적 수치보다는 상대적 비교에 더 유용하다고 명시하고 있다.

학습 및 추론 비용에 대한 분석도 더 면밀히 이루어질 필요가 있다. 자기 수정은 추가적인 모델 호출을 필요로 하며, 수렴까지 수십에서 수백 번의 반복이 소요될 수 있다. 논문에 따르면 자기 수정은 최대 10%의 토큰을 리샘플링하는데, 512 토큰 시퀀스에서 이는 약 50번의 추가 모델 호출에 해당한다. 각 반복에서 하나의 토큰만 교체하므로, 전체 시퀀스에 대한 완전한 모델 순전파가 매번 필요하다. 이는 기본 디노이징 과정(32~512 단계)에 비해 무시할 수 없는 오버헤드이며, 총 추론 비용을 대략 10~150% 증가시킬 수 있다. 실시간 응용이나 대규모 배치 생성에서의 활용 가능성을 제한할 수 있으므로, 병렬화를 통한 가속이나 배치 자기 수정(한 번에 여러 토큰 교체), KV 캐시를 활용한 증분 추론 등의 최적화가 향후 연구에서 중요한 과제가 될 것이다. 또한 자기 수정의 필요 반복 횟수를 사전에 예측하여 계산 예산을 동적으로 할당하는 적응적(adaptive) 전략도 탐구할 가치가 있다.

8. 결론

이 논문은 마스크 확산 모델을 일반화하여 GIDD(Generalized Interpolating Discrete Diffusion)라는 새로운 이산 확산 모델 족을 제안하였다. GIDD는 시변 혼합 분포 $\boldsymbol{\pi}_t$를 통해 노이즈 과정의 설계에서 큰 유연성을 제공하며, 마스크 확산을 특수한 경우로 포함한다. 논문의 핵심 이론적 기여는 이 일반적인 가족에 대한 닫힌 형태의 누적 전이 확률과 ELBO를 유도한 것이며, ELBO가 모델이 참 분포와 일치할 때 전역 최솟값에 도달함을 증명하였다.

실용적 측면에서는 마스킹과 균등 노이즈를 결합한 하이브리드 접근법을 탐구하여 두 가지 중요한 결과를 달성하였다. 첫째, 재가중된 학습 목적함수(동적 가중치 함수와 가중치 감쇄의 결합)를 통해 마스크 전용 설정에서 계산량 대비 최고 수준의 확산 언어 모델링 성능(검증 PPL 22.29)을 달성하였다. 이는 MDLM(23.21), MDM(23.36)을 능가하며, 가중치 설계만으로도 상당한 성능 향상이 가능함을 보여준다. 둘째, 균등 노이즈의 추가가 모델에게 자기 수정 능력을 부여하여, 생성적 PPL 기준으로 최대 55%의 품질 향상을 가져올 수 있음을 입증하였다. 자기 수정은 문법 오류 교정, 단어 선택 개선, 심지어 사실성 향상까지 가능하게 하며, 이는 자기회귀 모델이 본질적으로 갖추기 어려운 능력이다.

GIDD의 학술적 의의는 여러 층위에서 평가할 수 있다. 이론적 측면에서는 이산 확산의 노이즈 유형을 "설계 변수"로 취급하는 일반적 프레임워크를 제시하고, 이에 대한 엄밀한 수학적 기반을 확립하였다. ELBO의 KL 발산과 IS 발산의 이중 구조는 연속 확산에서의 디노이징 스코어 매칭과 유사한 구조적 통찰을 이산 설정에 제공한다. 실용적 측면에서는 자기 수정이라는 새로운 추론 전략을 제안하여, 확산 언어 모델의 생성 품질을 크게 개선할 수 있음을 보였다. 이는 자기회귀 모델에서의 beam search, 확산 모델에서의 가이던스(guidance)에 이어, 추론 시간 계산을 활용한 품질 향상의 또 다른 경로를 제시한다. 방법론적 측면에서는 ELBO 가중치 설계의 중요성을 실험적으로 규명하여, 이산 확산 모델 학습의 실용적 지침을 제공하였다. GIDD는 이산 확산 모델의 설계 공간을 크게 확장하며, 노이즈 유형의 선택이 모델의 근본적인 능력에 어떤 영향을 미치는지에 대한 중요한 통찰을 제공한다.

9. 개인적 평가 및 전망

GIDD 논문은 이산 확산 모델의 이론적 기반을 견실히 확장하면서도 실용적으로 유의미한 결과를 도출하였다는 점에서 높이 평가할 수 있다. 특히 노이즈 유형의 선택이 모델의 근본적 능력에 미치는 영향을 체계적으로 분석한 것은, 확산 모델 설계에서 흔히 간과되었던 측면에 주의를 환기시킨다. 마스크 확산에서 균등 노이즈를 단순히 추가하는 것만으로 자기 수정이라는 질적으로 새로운 능력이 출현한다는 발견은 의외성과 중요성 모두를 갖추고 있다.

그러나 몇 가지 아쉬운 점도 존재한다. 첫째, 실험 규모가 현대 LLM 연구의 기준에서 상당히 작아, 핵심 주장의 일반화 가능성이 제한적이다. 특히 자기 수정의 이점이 수십억 파라미터 규모에서도 유지되는지, 그리고 충분히 큰 마스크 전용 모델이 더 많은 디노이징 단계를 통해 유사한 수준의 품질에 도달할 수 있는지는 열린 질문이다. 둘째, 비조건적 생성에만 초점을 맞추고 있어, 조건부 생성(프롬프트 기반 생성, 편집 등)에서의 유용성이 검증되지 않았다. 확산 모델의 실용적 가치는 조건부 생성에서 더 두드러지므로, 이 방향의 확장이 시급하다. 셋째, 자기 수정 알고리즘의 한 번에 하나의 토큰만 교체하는 방식은 비효율적이며, 병렬 교체나 배치 교체 등의 가속 방법이 탐구되지 않았다.

향후 이 연구의 영향력은 주로 세 가지 방향에서 결정될 것으로 전망한다. 첫째, 더 큰 규모에서의 검증이 이루어져 균등 노이즈의 스케일링 이점이 확인된다면, 확산 언어 모델의 기본 학습 방법론으로 자리잡을 가능성이 있다. 둘째, 자기 수정 메커니즘이 텍스트 편집, 코드 수정, 반복적 개선(iterative refinement) 등의 실용적 과제에 성공적으로 적용된다면, 자기회귀 모델과 차별화된 확산 모델의 독특한 강점으로 인정받게 될 것이다. 셋째, GIDD의 일반적 프레임워크가 마스킹+균등 이외의 창의적인 혼합 분포 설계를 촉발하여, 이산 확산 모델의 설계 공간 탐색에 새로운 방향을 제시할 수 있다. 예를 들어, 토큰 임베딩 공간에서의 유사성에 기반한 "구조화된 노이즈"나, 학습 과정에서 적응적으로 변화하는 혼합 분포 등이 후속 연구에서 탐구될 수 있을 것이다.

10. 요약 정리

  • GIDD는 마스크 확산 모델을 임의의 시변 혼합 분포 $\boldsymbol{\pi}_t$로 일반화한 이산 확산 프레임워크로, 마스크 확산은 $\boldsymbol{\pi}_t = \mathbf{m}$인 특수한 경우에 해당한다.
  • 일반적인 GIDD 가족에 대한 닫힌 형태의 누적 전이 확률, CTMC 전이율, ELBO를 유도하였으며, ELBO의 전역 최솟값이 모델과 참 분포의 일치 시 달성됨을 증명하였다.
  • 마스킹과 균등 노이즈를 결합한 하이브리드 혼합 스케줄을 설계하여, 매개변수 $p_u$로 균등 노이즈 비율을 조절할 수 있도록 하였다.
  • ELBO 가중치의 극단적 행동에 대응하는 클램핑 및 동적 가중치 함수를 제안하여, 특히 하이브리드 노이즈 설정에서 큰 성능 향상을 달성하였다.
  • 재가중된 학습 목적함수를 통해 마스크 전용 GIDD+(검증 PPL 22.29)가 MDLM(23.21), MDM(23.36) 등 기존 확산 언어 모델 대비 계산량 대비 최고 성능을 달성하였다.
  • 균등 노이즈로 학습된 모델은 자기 수정 단계를 통해 생성적 PPL을 최대 55% 개선할 수 있으며, 이는 문법, 단어 선택, 사실성 등 다양한 품질 차원에서의 향상으로 확인되었다.
  • 마스크 전용 모델은 동일한 자기 수정 절차를 적용해도 품질 개선이 이루어지지 않아, 자기 수정 능력이 학습 중 균등 노이즈의 존재에 본질적으로 의존함을 입증하였다.
  • 제로샷 벤치마크에서 GIDD+ base 모델(평균 40.46)은 GPT2-small(38.77)과 MDM(38.25)을 능가하지만, Llama 자기회귀 베이스라인(41.04)에는 약간 미치지 못한다.
  • 스케일링 분석에서 균등 노이즈 모델이 계산량 증가에 따라 약간 더 빠르게 스케일링되는 추세가 관찰되어, 더 큰 규모에서의 이점 가능성을 시사한다.
  • 가능도 기반 평가에서는 마스크 전용 모델이 우수하지만 생성 품질에서는 하이브리드 모델이 우수한 트레이드오프가 존재하며, 최적 균등 노이즈 비율은 모델 크기에 의존한다.
  • GPT-4o 기반 정성 평가에서 자기 수정은 명확성(-20.9% → +16.5%), 문법(-19.3% → +16.6%), 사실성(-16.2% → +8.5%) 등 모든 범주에서 하이브리드 모델에만 유효하며, 마스크 전용 모델에서는 오히려 악화된다.
  • GIDD의 이론적 프레임워크는 혼합 분포 $\boldsymbol{\pi}_t$의 일반적 설계 공간을 열어두고 있어, 마스킹+균등 이외의 다양한 노이즈 조합 탐구 가능성을 제시한다.
  • 실험 규모(최대 320M 파라미터)의 제한으로 대규모에서의 검증이 필요하며, 조건부 생성과 실용적 NLP 과제에의 적용은 향후 연구 과제로 남아 있다.
  • 이론적으로 GIDD ELBO의 전역 최솟값은 모델과 참 분포가 일치할 때 달성되므로, 혼합 스케줄의 선택이 이론적 최적해를 제한하지 않는다.
  • 디노이징 단계 수가 적은 설정에서 균등 노이즈 모델이 마스크 전용 모델보다 훨씬 강건한 품질을 유지하며, 이는 실시간 응용에서의 실용적 장점이다.

댓글

홈으로 돌아가기

검색 결과

"" 검색 결과입니다.