Synthetic Text Generation for Training Large Language Models via Gradient Matching
https://arxiv.org/abs/2502.17607
Dang Nguyen, Zeman Li, Mohammadhossein Bateni, Vahab Mirrokni, Meisam Razaviyayn, Baharan Mirzasoleiman | UCLA, Google Research, USC | arXiv:2502.17607 | 2025년 2월 | ICML 2025 게재 확정
1. 서론: 합성 데이터 생성의 이론적 보장 문제
대규모 언어 모델(LLM)의 성능은 고품질 학습 데이터에 크게 의존한다. 그러나 도메인 특화 데이터의 수집과 정제는 비용이 매우 높으며, 많은 분야에서 충분한 양의 데이터를 확보하기 어렵다. 더불어 LLM이 학습 데이터를 암기(memorize)할 수 있다는 사실은 학습 데이터의 프라이버시 보호를 어렵게 만든다. 이러한 배경에서, 실제 데이터와 유사한 학습 역학(training dynamics)을 보장하면서도 적은 수의 합성 데이터로 LLM을 효과적으로 미세 조정(fine-tuning)할 수 있는 방법론의 개발이 중요한 연구 과제로 부상하고 있다. 합성 데이터는 학습 성능의 개선, 학습 효율성의 향상, 그리고 실제 학습 데이터의 프라이버시 보호라는 세 가지 핵심 가치를 동시에 제공할 수 있는 잠재력을 가지며, 이 세 가지를 모두 이론적으로 보장하는 방법의 부재가 연구 커뮤니티의 핵심 과제였다.
기존의 합성 텍스트 생성 방법은 크게 두 가지 범주로 나뉜다. 첫째, GPT-4와 같은 고급 LLM을 활용하여 제로샷(zero-shot) 또는 퓨샷(few-shot) 프롬프트 방식으로 합성 텍스트를 생성하는 접근법이다. 이 방법은 생성된 텍스트의 다양성 부족, 실제 데이터 분포와의 불일치, 그리고 정교한 프롬프트 엔지니어링의 필요성이라는 한계를 가진다. 둘째, VAE나 디퓨전 모델을 활용한 제어 가능한 텍스트 생성 방법이 있으나, 이러한 접근법은 연산 비용이 매우 높고 실질적 적용이 어렵다. 무엇보다도, 이들 기존 방법 중 어느 것도 합성 데이터로 학습된 LLM의 성능에 대한 이론적 보장을 제공하지 못하며, 실제 데이터의 프라이버시를 보존하지 못한다. 이러한 이론적 보장의 부재는 합성 데이터 기반 학습의 신뢰성에 근본적인 의문을 제기하며, 실무적 채택을 저해하는 주요 요인으로 작용한다. 프라이버시 보존의 실패 역시 규제가 엄격한 산업 도메인에서의 적용을 어렵게 만든다.
본 논문에서 저자들은 이러한 문제를 해결하기 위해 GrADmm(GRADient matching with ADMM)이라는 새로운 프레임워크를 제안한다. GrADmm은 합성 텍스트 생성 문제를 그래디언트 매칭(gradient matching) 기반의 이산 최적화 문제로 정식화하고, 교대 방향 승수법(Alternating Direction Method of Multipliers, ADMM)을 활용하여 이를 효율적으로 풀어낸다. 이 방법은 합성 데이터의 그래디언트가 실제 데이터의 그래디언트와 유사하도록 임베딩을 반복적으로 최적화하면서, 동시에 생성된 텍스트가 어휘 공간의 실제 토큰 시퀀스로 정확히 매핑되고 낮은 퍼플렉서티를 가지도록 보장하는 체계적인 최적화 프레임워크이다. 논문은 이 방법이 수렴성, 성능, 프라이버시에 대한 이론적 보장을 제공하는 최초의 합성 텍스트 생성 접근법이라고 주장한다.
실험적으로, GrADmm은 SST-2, Tweet Emotions, Rotten Tomatoes 등 다양한 감성 분류 벤치마크에서 검증되었으며, 단 5개의 실제 예시만으로 생성한 100개의 합성 데이터가 실제 데이터 대비 최대 31.5%라는 인상적인 성능 향상을 달성했으며, 기존 LLM 생성 방법 및 코어셋 선택 방법 대비 최대 13.1%의 성능 우위를 보였다. 또한 Phi 모델로 생성된 합성 데이터가 Llama-3.2-1B와 OPT-1.3B 등 다른 LLM으로의 전이(transfer)에도 효과적임을 확인하였다.
이 논문의 핵심적 기여를 요약하면 다음과 같다. 첫째, 합성 텍스트 생성을 그래디언트 매칭 기반의 이산 제약 비볼록 최적화 문제로 정식화한 것이다. 둘째, ADMM을 활용하여 이 어려운 최적화 문제를 효율적으로 풀 수 있는 알고리즘을 설계하고, Top-k 투영이라는 새로운 투영 기법을 통해 읽을 수 있는 텍스트를 생성하면서도 그래디언트 매칭 품질을 유지하는 방법을 제시한 것이다. 셋째, 합성 데이터로 학습한 모델의 수렴과 성능에 대한 엄격한 이론적 보장을 제공한 것이다. 넷째, 차분 프라이버시를 자연스럽게 통합하여 실제 데이터의 프라이버시를 수학적으로 보존하는 메커니즘을 제시한 것이다. 이러한 기여들은 기존의 어떤 합성 텍스트 생성 방법도 달성하지 못한 것이며, 합성 데이터 연구의 새로운 기준을 제시한다고 볼 수 있다.
2. 배경 및 관련 연구: 데이터셋 증류와 합성 텍스트 생성
2.1 데이터셋 증류(Dataset Distillation)
데이터셋 증류(Dataset Distillation, DD)는 전체 실제 데이터셋으로 학습한 것과 유사한 일반화 성능을 달성할 수 있는 소규모 합성 데이터 서브셋을 생성하는 것을 목표로 하는 연구 분야이다. 이 분야는 원래 이미지 도메인에서 시작되었으며, Wang et al. (2018)이 메타러닝 기반 접근법을 최초로 제안한 이후 다양한 발전이 이루어졌다. 이미지 영역에서는 커널 방법을 통한 효율적 근사(Loo et al., 2022; Nguyen et al., 2020), 그래디언트 매칭(Zhao et al., 2020; Zhao & Bilen, 2021), 가중치 궤적 매칭(Cazenavette et al., 2022; Wang et al., 2022), 그리고 데이터 분포 매칭(Zhao & Bilen, 2023) 등 다양한 기법이 개발되었다. 이미지의 경우 픽셀 단위의 연속 공간에서 그래디언트 기반 최적화가 자연스럽게 이루어질 수 있다는 장점이 있다.
그러나 텍스트 도메인에서의 데이터셋 증류는 훨씬 도전적인 문제를 제기한다. 텍스트는 본질적으로 이산(discrete) 공간에서 정의되기 때문에, 연속 공간에서의 최적화 기법을 직접 적용하기 어렵다. 기존의 텍스트 DD 방법들(Sucholutsky & Schonlau, 2021; Li & Li, 2021; Sahni & Patel, 2023)은 이산 텍스트 대신 연속적인 입력 워드 임베딩을 합성 데이터로 생성한다. 하지만 이렇게 생성된 임베딩은 사람이 읽을 수 없고, 다른 모델에 전이하여 사용할 수 없다는 근본적인 한계를 가진다. 일부 연구에서 최근접 이웃 임베딩을 찾아 텍스트로 변환하는 시도가 있었으나, 이는 의미 없는 단어 나열에 불과한 결과를 산출했다.
읽을 수 있는 합성 텍스트 생성을 위해 Maekawa et al. (2024)은 프록시 언어 모델을 처음부터 학습시킨 후, 생성기 모델을 미세 조정하여 그래디언트 매칭 손실을 최소화하는 방법을 제안했다. 그러나 프록시 모델의 학습이 확장성 병목이 되며, 증류된 합성 데이터에 실제 학습 샘플이 포함될 수 있어 프라이버시를 보장하지 못한다. 논문은 기존의 어떤 DD 방법도 BERT 수준을 넘어 수십억 파라미터를 가진 LLM으로 확장되지 못했다고 지적하며, GrADmm이 이를 처음으로 달성한 방법이라고 서술한다.
기존 텍스트 DD 방법들의 한계를 더 구체적으로 살펴보면, 이들은 공통적으로 확장성(scalability)의 병목에 직면한다. 메타러닝 기반 방법은 합성 데이터에 대해 모델을 수렴까지 학습시키는 내부 루프와 합성 데이터를 최적화하는 외부 루프로 구성되는데, 이 이중 루프 구조는 LLM 규모에서는 연산 비용이 기하급수적으로 증가한다. KIP(Kernel Inducing Points) 기반 방법은 폐쇄형(closed-form) 해를 통해 효율성을 개선하지만, 커널 행렬의 계산 비용이 데이터 크기의 제곱에 비례하여 증가한다. 어텐션 라벨 증류 방법(Maekawa et al., 2023)은 모든 레이어와 헤드에 걸친 self-attention 확률 사이의 KL-발산을 최소화하는데, 이는 트랜스포머 아키텍처의 크기에 직접적으로 의존하여 확장이 어렵다. 결과적으로, 논문에서 지적하듯이 기존의 DD 방법 중 어느 것도 BERT(110M 파라미터)를 넘어 수십억 파라미터의 LLM으로 확장되지 못했다. GrADmm은 마지막 레이어 그래디언트만을 매칭하는 전략과 효율적인 ADMM 기반 최적화를 통해 이 확장성 장벽을 돌파한 최초의 방법이다.
2.2 생성 모델을 활용한 합성 텍스트 생성
LLM을 활용한 합성 텍스트 생성은 최근 활발히 연구되고 있는 분야이다. 제로샷 설정에서는 LLM에 관심 카테고리에 대한 텍스트를 직접 생성하도록 프롬프트를 제공하고, 퓨샷 설정에서는 소수의 실제 데이터 인스턴스를 예시로 포함시켜 생성을 안내한다. 그러나 LLM이 생성하는 텍스트는 반복적이고 다양성이 부족한 경향이 있으며(Holtzman et al., 2019; Keskar et al., 2019), 대상 태스크의 분포를 정확히 포착하지 못하고 부정확하거나 환각(hallucinated)된 예시를 포함할 수 있다.
이러한 문제를 해결하기 위해 최근 연구들은 정교한 프롬프트 엔지니어링을 통한 의미적 다양성 주입(Gupta et al., 2023), 다수 LLM의 합성과 편향을 이용한 모델 산술(Dekoninck et al., 2024), 반복적 샘플링과 자기 교정을 통한 레이블 정확성 향상(Gupta et al., 2023), 검색 증강 생성 기법(Wu et al., 2023) 등 복잡한 파이프라인을 설계해왔다. 그러나 이러한 파이프라인은 GPT-4나 Claude3-Opus 같은 고급 모델에 대한 대규모 쿼리를 필요로 하며, 높은 비용과 복잡성으로 인해 실질적 적용이 제한된다. 더 중요한 점은, LLM이 학습 데이터를 암기하고 재생성할 수 있기 때문에 LLM 생성 합성 데이터도 프라이버시를 보장하지 못하며, 이를 기반으로 학습된 모델의 성능에 대한 이론적 보장도 제공하지 못한다는 것이다.
VAE(Variational Autoencoder)와 디퓨전 모델을 활용한 접근법도 최근 탐구되고 있다. Li et al. (2022)과 Gong et al. (2022)은 구조적 및 의미적 제어를 위해 다양한 분류기를 매개변수화하고, 잠재 변수를 업데이트하여 이러한 제어를 만족시키는 방법을 제안했다. Zhou et al. (2024)은 실제 데이터의 임베딩에 노이즈를 추가하고 제거하는 과정을 통해 합성 데이터를 생성하는 디퓨전 기반 접근법을 연구했다. 그러나 이러한 생성 모델 기반 접근법들은 모델을 처음부터 학습시켜야 하는 높은 연산 비용이 문제이며, 생성된 합성 데이터로 학습한 모델의 성능에 대한 이론적 보장을 제공하지 못한다. 또한 LLM과 마찬가지로, 이들 생성 모델도 학습 데이터를 암기할 수 있어 프라이버시 보존이 보장되지 않는다. 이런 배경에서 GrADmm의 차별점은 명확하다. 이론적 수렴 보장, 읽을 수 있는 합성 텍스트 생성, 차분 프라이버시 통합, 그리고 수십억 파라미터 LLM으로의 확장이라는 네 가지 요구사항을 동시에 충족하는 방법은 GrADmm이 최초이다.
3. 방법론: ADMM 기반 그래디언트 매칭을 통한 합성 텍스트 생성
3.1 문제 정식화
GrADmm의 핵심 아이디어를 이해하기 위해 먼저 합성 텍스트 생성 문제를 수학적으로 엄밀하게 정식화할 필요가 있다. 이 정식화는 GrADmm 방법론 전체의 이론적 토대를 제공한다. 파라미터 $\boldsymbol{\theta}$를 가진 사전 학습된 LLM과 어휘 $V = \{v_1, \cdots, v_{|V|}\}$를 고려한다. 지도 미세 조정 데이터셋 $\mathcal{D}_T = \{s^i\}$에서 각 예시 $s^i = (\boldsymbol{p}^i, \boldsymbol{r}^i)$는 프롬프트와 응답 쌍으로 구성된다. 음의 로그 우도 손실은 다음과 같이 정의된다:
$$\ell(s^i, \boldsymbol{\theta}) = -\log(\boldsymbol{r}^i | \boldsymbol{p}^i)$$
미세 조정의 목표는 전체 데이터셋에 대한 이 손실을 최소화하는 것이다. 논문은 실제 데이터의 부분집합 $\mathcal{D}_{\text{real}} \subset \mathcal{D}_T$가 주어졌을 때, $r$개 이하의 합성 예시로 구성된 데이터 $\mathcal{D}_{\text{syn}}$을 생성하여, 이 합성 데이터로 모델을 미세 조정했을 때 실제 데이터에 대한 손실을 최소화하는 이중 수준(bilevel) 최적화 문제를 정의한다:
$$\arg\min_{\mathcal{D}_{\text{syn}}, |\mathcal{D}_{\text{syn}}| \leq r} \ell(\mathcal{D}_{\text{real}}, \boldsymbol{\theta}^*), \quad \text{s.t.} \quad \boldsymbol{\theta}^* \in \arg\min_{\boldsymbol{\theta}} \ell(\mathcal{D}_{\text{syn}}, \boldsymbol{\theta})$$
여기에 가독성 제약 조건(readability constraint)이 추가된다. 합성 데이터의 모든 예시가 어휘 내 단어의 시퀀스여야 하고($s \in \Gamma$), 의미 있는 시퀀스가 되기 위해 낮은 퍼플렉서티를 가져야 한다($\text{ppl}(s) \leq \epsilon$). 여기서 $\Gamma = \{s = (\boldsymbol{p}, \boldsymbol{r}) | p_j, r_j \in V\}$는 어휘 내 단어로 구성된 모든 프롬프트-응답 쌍의 집합이다.
이 정식화의 핵심 통찰은 합성 데이터의 품질을 데이터 수준이 아닌 모델 학습 수준에서 정의한다는 것이다. 즉, 합성 데이터가 실제 데이터와 표면적으로 유사할 필요는 없으며, 모델의 학습 과정에서 동일한 효과를 산출하는 것이 중요하다. 논문은 이 정식화가 두 가지 실용적 시나리오에 적용 가능하다고 설명한다. 첫째는 데이터 부족 환경(data-scarce regime)으로, 소수의 타겟 태스크 예시를 기반으로 더 큰 합성 미세 조정 데이터를 생성하는 경우이다. 둘째는 비교적 큰 지도 미세 조정 데이터가 있을 때, 프라이버시 보호나 학습 효율성 향상을 위해 더 작은 합성 데이터로 대체하는 경우이다.
3.2 그래디언트 매칭을 통한 텍스트 생성
위의 이중 수준 최적화 문제를 효과적으로 풀기 위한 핵심 전략은 그래디언트 매칭(gradient matching)이다. 합성 데이터의 그래디언트가 실제 데이터의 그래디언트와 유사하도록 최적화함으로써, 합성 데이터로의 학습이 실제 데이터에 대한 손실을 직접적으로 최소화하도록 유도한다. 구체적으로, 다음의 최적화 문제를 풀게 된다:
$$\arg\min_{\substack{\mathcal{D}_{\text{syn}}, |\mathcal{D}_{\text{syn}}| \leq r, \\ s \in \Gamma, \text{ppl}(s) \leq \epsilon \\ \forall s \in \mathcal{D}_{\text{syn}}}} D(\nabla_{\boldsymbol{\theta}} \ell(\mathcal{D}_{\text{syn}}, \boldsymbol{\theta}), \nabla_{\boldsymbol{\theta}} \ell(\mathcal{D}_{\text{real}}, \boldsymbol{\theta}))$$
여기서 $D(\cdot, \cdot)$는 두 그래디언트 사이의 거리 함수이며, 논문에서는 $1 - \cos(\cdot, \cdot)$ 즉 코사인 비유사도를 거리 척도로 사용한다. 미세 조정은 일반적으로 짧은 과정이며 모델을 사전 학습 대비 작은 정도로만 변화시킨다. 미세 조정 손실이 부드럽고(smooth) 유계 곡률(bounded curvature)을 가진다는 가정 하에, 사전 학습된 파라미터에서의 그래디언트를 매칭하는 합성 데이터를 생성하면 실제 데이터로 학습한 해의 근방으로 수렴함을 증명할 수 있다.
그러나 이 최적화 문제를 직접 풀기는 매우 어렵다. 가능한 해의 집합이 희소하고, 탐색 공간이 이산적이며, LLM이 비선형적이고 고차원적이기 때문이다. 제약 집합은 각 단어가 어휘에 속해야 한다는 다수의 이산 집합의 카르테시안 곱으로 형성되며, 이 중 읽을 수 있는 시퀀스(낮은 퍼플렉서티)만이 유효하다. 따라서 이 문제는 NP-난해(NP-hard)하며, 어휘의 크기에 대해 지수적인 수의 가능한 시퀀스를 탐색해야 하므로 최적해를 찾는 것이 계산적으로 불가능하다. 이러한 계산적 난이도를 극복하기 위한 핵심 전략이 바로 다음에서 설명하는 ADMM 기반 교대 최적화이다.
3.3 ADMM을 통한 텍스트-임베딩 공간 교대 최적화
이산 제약이 있는 비볼록 최적화 문제를 풀기 위해 논문은 이를 연속 임베딩 공간으로 전환한다. 합성 샘플 $s$의 임베딩 행렬 $\boldsymbol{x} \in \mathbb{R}^{n \times d}$에서 각 행 $x_j \in \mathbb{R}^d$는 $j$번째 토큰의 임베딩을 나타낸다. 모든 합성 샘플의 임베딩 행렬을 쌓아 텐서 $\boldsymbol{X} \in \mathbb{R}^{|\mathcal{D}_{\text{syn}}| \times n \times d}$를 얻고, 최적화된 임베딩이 어휘 내 토큰 임베딩 집합 $\mathcal{E} = \{e_1, e_2, \ldots, e_{|V|}\}$에 속하도록 제약하는 문제로 재정식화한다.
이 제약된 비볼록 최적화 문제를 풀기 위해 논문은 ADMM(Alternating Direction Method of Multipliers)을 적용한다. ADMM은 원래 볼록 최적화를 위해 개발되었으나, 최근에는 혼합 정수 비선형 프로그래밍에도 성공적으로 적용되어 왔다(Leng et al., 2018; Lin et al., 2019). 핵심 아이디어는 보조 변수 $\boldsymbol{Z}$를 도입하여 원래 문제를 비볼록 목적 함수와 볼록 선형 제약으로 분해하는 것이다:
$$\min_{\boldsymbol{X}} f(\boldsymbol{X}) + \mathcal{I}_{\mathcal{E}}(\boldsymbol{Z}), \quad \text{s.t.} \quad \boldsymbol{X} = \boldsymbol{Z}$$
여기서 지시 함수 $\mathcal{I}_{\mathcal{E}}(\boldsymbol{Z})$는 $\boldsymbol{Z}$의 각 행이 어휘 임베딩에 속하면 0, 그렇지 않으면 $+\infty$를 반환한다. 이에 대한 증강 라그랑지안(augmented Lagrangian)은 다음과 같이 정의된다:
$$\mathcal{L}_{\text{aug}}(\boldsymbol{X}, \boldsymbol{Z}, \boldsymbol{\Lambda}) = f(\boldsymbol{X}) + \mathcal{I}_{\mathcal{E}}(\boldsymbol{Z}) + \frac{\rho}{2} \|\boldsymbol{X} - \boldsymbol{Z} - \rho^{-1}\boldsymbol{\Lambda}\|^2$$
여기서 $\boldsymbol{\Lambda} \in \mathbb{R}^{|\mathcal{D}_{\text{syn}}| \times n \times d}$는 라그랑지 승수이고 $\rho > 0$은 페널티 파라미터이다. ADMM은 각 반복에서 세 가지 업데이트를 교대로 수행한다. 근위 단계(proximal step)에서는 임베딩 $\boldsymbol{X}$를 최적화하여 타겟 그래디언트를 매칭하고, 투영 단계(projection step)에서는 최적화된 임베딩을 어휘 공간의 단어로 매핑하며, 이중 업데이트(dual update)에서는 라그랑지 승수를 갱신한다:
- 근위 업데이트: $\boldsymbol{X}^{t+1} = \arg\min_{\boldsymbol{X}} \mathcal{L}_{\text{aug}}(\boldsymbol{X}, \boldsymbol{Z}^t, \boldsymbol{\Lambda}^t)$
- 투영 업데이트: $\boldsymbol{Z}^{t+1} = \mathcal{P}_{\mathcal{E}_{\text{top-k}}}(\boldsymbol{X}^{t+1} + \rho^{-1}\boldsymbol{\Lambda}^t)$
- 이중 업데이트: $\boldsymbol{\Lambda}^{t+1} = \boldsymbol{\Lambda}^t + \rho(\boldsymbol{X}^{t+1} - \boldsymbol{Z}^{t+1})$
근위 단계는 비제약 최적화 문제를 풀어야 하며, $\rho$가 충분히 크면 $\boldsymbol{X}$에 대해 강볼록(strongly convex)하게 된다. 실제로는 Adam 같은 확률적 경사 하강법으로 근사해를 구하며, 이는 ADMM의 수렴에 충분하다.
이 세 단계 업데이트를 직관적으로 이해하면 다음과 같다. 근위 단계에서는 어휘 제약을 무시하고 연속 임베딩 공간에서 자유롭게 최적화하여 실제 데이터의 그래디언트를 가장 잘 매칭하는 임베딩을 찾는다. 이 과정에서 최적화된 임베딩은 어휘의 토큰 임베딩과 정확히 일치하지 않을 수 있지만, 그래디언트 매칭 관점에서 최적에 가까운 위치를 찾게 된다. 투영 단계에서는 이 연속 임베딩을 실제 어휘의 토큰 임베딩으로 매핑한다. 이 과정에서 불가피하게 그래디언트 매칭 품질이 일부 손실되지만, ADMM의 라그랑지 승수가 이 간극을 보상한다. 이중 업데이트에서 승수 $\boldsymbol{\Lambda}$가 갱신되는데, 이는 현재 $\boldsymbol{X}$와 $\boldsymbol{Z}$ 사이의 불일치를 누적적으로 추적하여, 다음 근위 단계에서 투영 가능한 방향으로 임베딩이 최적화되도록 유도한다. 이러한 교대 최적화를 반복하면, 임베딩이 점차적으로 그래디언트 매칭 목표와 어휘 제약을 동시에 만족하는 방향으로 수렴하게 된다.
3.4 어휘 공간으로의 임베딩 투영과 Top-k 투영
투영 단계에서는 최적화된 임베딩 벡터 $x_i \in \mathbb{R}^d$를 어휘 임베딩 공간으로 투영한다. 가장 단순한 방법은 L2 투영으로, 각 임베딩에 대해 유클리드 거리가 가장 가까운 어휘 임베딩을 찾는 것이다: $z_i = \arg\min_{e \in \mathcal{E}} \|x_i - e\|^2$. 그러나 이 방법은 각 토큰 위치를 독립적으로 투영하기 때문에, 결과 시퀀스가 문맥적으로 일관되지 않고 무의미한 단어의 나열이 될 수 있다.
이 문제를 해결하기 위해 논문은 Top-k 투영을 제안한다. 각 토큰 위치에서 유클리드 거리 기준으로 가장 가까운 k개의 후보 토큰을 선별한 후, 이 후보 집합 내에서 가장 낮은 퍼플렉서티를 달성하는 시퀀스를 탐욕적(greedy)으로 선택한다. 구체적으로, $j$번째 토큰 위치에서 최적화된 임베딩 $x_j + \rho^{-1}\Lambda_j$와의 유클리드 거리가 가장 작은 k개의 어휘 토큰을 후보로 선정한다. 그런 다음, 앞에서부터 순차적으로 k개 후보 중 현재 위치까지의 시퀀스 퍼플렉서티를 최소화하는 토큰을 선택한다. 이 탐욕적 디코딩 전략은 시퀀스 전체의 일관성을 유지하면서도 그래디언트 매칭 목적 함수에 대한 제약을 만족시킨다. 논문은 k=20을 기본값으로 사용한다.
Top-k 투영의 효과를 더 구체적으로 분석하면, k값의 선택은 그래디언트 매칭 품질과 텍스트 가독성 사이의 트레이드오프를 제어한다. k가 작으면 각 위치에서의 선택이 유클리드 거리 기준으로 가장 가까운 소수의 토큰으로 제한되어 그래디언트 매칭 손실이 작지만, 퍼플렉서티 최소화를 위한 선택의 폭이 좁아져 텍스트의 자연스러움이 저하될 수 있다. 반대로 k가 크면 퍼플렉서티 최적화를 위한 후보가 많아져 더 자연스러운 텍스트가 생성되지만, 그래디언트 매칭에서 멀어진 토큰이 선택될 수 있다. 논문은 k=20이 이 트레이드오프에서 좋은 균형점임을 실험적으로 확인했다. 또한 Top-k 투영의 탐욕적 디코딩은 왼쪽에서 오른쪽으로 순차적으로 진행되므로, 자기회귀적(autoregressive) 언어 모델의 퍼플렉서티 계산과 자연스럽게 호환된다. 이는 각 위치에서의 조건부 확률을 활용하여 전체 시퀀스의 퍼플렉서티를 효율적으로 최소화할 수 있게 해준다. 다만 탐욕적 디코딩의 한계로, Top-k 투영이 전역 최적(globally optimal) 시퀀스를 보장하지는 않는다. 빔 서치(beam search)와 같은 더 정교한 디코딩 전략을 사용하면 텍스트 품질이 더 향상될 수 있으나, 연산 비용이 증가한다는 트레이드오프가 존재한다. 논문은 탐욕적 디코딩이 실용적 목적에 충분한 품질을 제공하며, 후속 필터링 단계에서 품질이 낮은 예시가 효과적으로 제거된다고 서술한다.
3.5 고차원 그래디언트 처리
수십억 파라미터를 가진 LLM의 매우 고차원적인 그래디언트 공간에서 유사도를 계산하는 것은 연산 비용이 매우 높다. 또한 이러한 그래디언트에는 작고 노이즈가 많은 차원이 다수 포함되어 있어 유사도 계산의 정확성이 떨어진다. 논문은 이 문제를 해결하기 위해 마지막 레이어(last-layer) 그래디언트만을 매칭하는 전략을 채택한다. 다양한 가중치 초기화(Glorot & Bengio, 2010)와 활성화 정규화(Lei Ba et al., 2016) 기법에 의해 사전 학습된 LLM의 각 레이어의 그래디언트 크기(norm)는 유사한 범위에 있다는 점을 활용한다. 특히 미세 조정 과정에서 주로 마지막 레이어의 파라미터가 가장 크게 변화하므로, 마지막 레이어의 그래디언트를 매칭하는 것만으로도 전체 그래디언트의 유사성을 효과적으로 달성할 수 있다고 논문은 주장한다. 이 전략은 연산 효율성을 크게 개선하면서도 실험적으로 전체 그래디언트 매칭과 유사한 성능을 달성한다.
Figure 1(a): SST-2 데이터셋에서의 데이터 부족 환경 결과. 5, 10, 20, 50개의 실제 예시를 기반으로 GrADmm이 생성한 100개 합성 데이터의 성능을 보여준다.
Figure 1(b): Tweet emotions 데이터셋에서의 데이터 부족 환경 결과. GrADmm 합성 데이터가 단 5개 실제 예시 기반으로도 실제 데이터 대비 29.7% 향상된 성능을 보인다.
Figure 1(c): Rotten tomatoes 데이터셋에서의 데이터 부족 환경 결과. 5개 예시 기반 GrADmm 합성 데이터가 실제 데이터 대비 31.5%의 성능 향상을 달성했다.
3.6 생성 예시의 필터링
Top-k 투영은 읽을 수 있는 텍스트를 생성할 수 있게 해주지만, 성능에 부정적 영향을 미칠 수 있는 몇 가지 문제가 있다. 첫째, 투영이 합성 예시의 카테고리를 변경시킬 수 있는데, 다른 카테고리와 가장 관련 있는 단어가 포함될 수 있기 때문이다. 둘째, 일부 합성 예시의 그래디언트 매칭 손실을 크게 증가시킬 수 있다. 셋째, 일부 카테고리의 평균 그래디언트 매칭 손실이 다른 카테고리보다 훨씬 높아질 수 있다. 이러한 문제를 완화하기 위해 논문은 세 단계의 필터링 전략을 제안한다:
- 잘못된 레이블 제거: 생성된 합성 데이터 중 해당 카테고리에 속하지 않는 예시를 제거한다. 이는 LLM을 사용하여 생성된 텍스트의 카테고리를 검증함으로써 수행된다.
- 그래디언트 매칭 손실 기반 선택: 남은 예시 중 그래디언트 매칭 손실이 가장 낮은 $r$개의 예시를 선택한다.
- 카테고리 간 균형 조정: 평균 그래디언트 매칭 손실이 더 높은 카테고리에서 손실이 가장 높은 예시를 추가로 제거하여 카테고리 간 균형을 맞춘다.
이 필터링 전략은 200개의 초기 합성 데이터에서 68개의 고품질 예시를 선별하면서도 1.9%의 정확도 향상을 달성하는 효과를 보였다(Table 5 참조). 이는 단순히 더 많은 합성 데이터를 생성하는 것보다 품질 높은 소수의 데이터를 선별하는 것이 더 효과적임을 시사한다.
3.7 차분 프라이버시(Differential Privacy) 보장
차분 프라이버시(Differential Privacy, DP)는 통계적 또는 기계 학습 모델의 출력으로부터 개별 데이터 포인트를 식별하거나 추론할 수 없도록 보장하는 엄격한 수학적 프레임워크이다. GrADmm을 차분 프라이버시에 부합하도록 만들기 위해, 논문은 실제 데이터의 그래디언트에 제어된 노이즈 $\alpha$를 주입한다. 구체적으로, 실제 데이터의 개별 샘플 그래디언트를 계산한 후 $\ell_2$ 노름을 상수 $C$로 클리핑하고, 그 평균에 가우시안 노이즈를 추가한다. 노이즈의 표준편차 $\sigma$는 프라이버시 파라미터 $\varepsilon$과 $\delta$에 따라 다음과 같이 결정된다:
$$\sigma = \begin{cases} \frac{C\sqrt{2\log\frac{1.25}{\delta}}}{\varepsilon|\mathcal{D}_{\text{real}}|}, & \text{if } 0 < \varepsilon \leq 1 \\ \frac{C(c + \sqrt{c^2 + \varepsilon})}{2\varepsilon|\mathcal{D}_{\text{real}}|}, & \text{if } \varepsilon > 1 \end{cases}$$
이렇게 노이즈가 추가된 그래디언트를 타겟으로 하여 합성 데이터의 임베딩을 최적화함으로써, 생성된 합성 텍스트는 실제 데이터의 프라이버시를 수학적으로 보장하면서도 유용한 학습 신호를 전달한다. 논문은 $(\varepsilon, \delta)$-DP를 만족하는 메커니즘으로서의 GrADmm을 정식화한다.
차분 프라이버시의 통합이 GrADmm의 기존 프레임워크와 자연스럽게 결합되는 이유를 더 상세히 살펴보면, GrADmm은 합성 데이터를 직접 실제 데이터에 기반하여 생성하는 것이 아니라, 실제 데이터의 그래디언트 정보만을 활용한다는 점이 핵심이다. 따라서 그래디언트에 노이즈를 추가하는 DP-SGD(Differentially Private Stochastic Gradient Descent)의 표준적인 메커니즘을 자연스럽게 적용할 수 있다. 개별 샘플 그래디언트의 $\ell_2$ 노름 클리핑은 개별 데이터 포인트의 영향력을 제한하여 민감도(sensitivity)를 제어하고, 가우시안 노이즈 추가는 이 제한된 민감도에 비례하는 프라이버시 보장을 제공한다. 중요한 점은, 노이즈가 추가된 그래디언트를 타겟으로 삼는 것이 GrADmm의 최적화 과정 자체를 변경하지 않는다는 것이다. 단지 매칭해야 할 타겟 그래디언트에 노이즈가 포함되어 있을 뿐이며, ADMM 알고리즘의 구조는 동일하게 유지된다. 이는 프라이버시 보존이 추가적인 알고리즘 복잡성 없이 달성됨을 의미한다.
또한 GrADmm의 프라이버시 보장은 포스트 프로세싱 정리(post-processing theorem)에 의해 더욱 강화된다. 차분 프라이버시의 핵심 속성 중 하나인 이 정리에 따르면, DP 메커니즘의 출력에 대한 임의의 후처리는 프라이버시 보장을 훼손하지 않는다. GrADmm에서 노이즈가 추가된 그래디언트를 타겟으로 하여 합성 임베딩을 최적화하고, 이를 Top-k 투영으로 텍스트로 변환하며, 필터링하는 모든 후속 과정은 노이즈가 추가된 그래디언트의 함수이므로, 전체 파이프라인이 동일한 $(\varepsilon, \delta)$-DP 보장을 유지한다.
3.8 수렴 분석
논문은 GrADmm이 생성한 합성 데이터로 미세 조정할 때의 수렴 특성을 이론적으로 분석한다. 미세 조정 손실이 $\beta$-평활(smooth)하고 $\mu$-PL 조건을 만족한다고 가정한다. 이 가정은 미세 조정이 짧은 과정이며 사전 학습에 비해 모델을 적게 변화시킨다는 관찰에 기반한다. 핵심 이론적 결과는 다음과 같다:
Lemma 4.1은 그래디언트 매칭 오차의 유계성을 보장한다. 사전 학습된 파라미터 $\boldsymbol{\theta}_0$에서의 그래디언트 오차가 $\epsilon$이고, 미세 조정된 파라미터 $\boldsymbol{\theta}_t$가 $\boldsymbol{\theta}_0$로부터 $\delta$ 이내에 있을 때, 미세 조정 과정 전반에 걸쳐 다음이 성립한다:
$$\|\nabla\mathcal{L}(\boldsymbol{\theta}_t) - \nabla\mathcal{L}^s(\boldsymbol{\theta}_t)\| \leq 2\beta\delta + \epsilon$$
Theorem 4.2는 합성 데이터로 학습한 모델의 손실과 실제 데이터로 학습한 모델의 손실 사이의 차이에 대한 상계를 제공한다:
$$|\mathcal{L}(\boldsymbol{\theta}_t) - \mathcal{L}^s(\boldsymbol{\theta}_t)| \leq \frac{\xi(2\nabla - \xi)}{2\mu}$$
여기서 $\xi = 2\beta\delta + \epsilon$이다. Corollary 4.3은 합성 데이터와 실제 데이터로 학습한 최적 파라미터 사이의 거리에 대한 상계를 제공한다:
$$\|\boldsymbol{\theta}_* - \boldsymbol{\theta}_*^s\| \leq \sqrt{\xi(2\nabla - \xi) / \alpha\mu}$$
이 결과는 그래디언트 매칭 오차 $\epsilon$이 작고 미세 조정에 의한 파라미터 변화 $\delta$가 작을수록 합성 데이터로 학습한 모델이 실제 데이터로 학습한 모델에 더 가까워짐을 보여준다. 이는 미세 조정이 짧은 과정이라는 실질적 관찰과 일관되며, GrADmm의 이론적 근거를 뒷받침한다.
이론적 분석의 핵심 가정인 $\beta$-평활성과 $\mu$-PL 조건은 미세 조정 맥락에서 합리적인 가정이다. $\beta$-평활성은 손실 함수의 헤시안(Hessian)이 유계임을 의미하며, 이는 사전 학습된 모델의 손실 곡면(loss landscape)이 미세 조정 영역에서 상대적으로 평탄하다는 관찰과 일치한다. $\mu$-PL(Polyak-Lojasiewicz) 조건은 그래디언트 크기의 하한을 보장하는 것으로, 강볼록(strong convexity)보다 약한 조건이면서도 선형 수렴을 보장하기에 충분하다. 논문은 이 가정들이 실제 미세 조정 실험에서 관찰되는 수렴 패턴과 일관됨을 실증적으로 확인한다. 특히 Figure 2(a)에서 보이듯이, GrADmm 합성 데이터의 그래디언트 오차가 미세 조정 과정 전반에 걸쳐 작게 유지되는 것은 이론적 결과의 실증적 검증이라 할 수 있다.
4. 실험 설정: 데이터셋, 모델, 베이스라인 구성
실험 설정의 구성은 GrADmm의 효과를 다양한 각도에서 검증하기 위해 신중하게 설계되었다. 논문은 두 가지 핵심 시나리오를 고려한다. 첫 번째는 데이터 부족 환경(data-scarce regime)으로, 소수의 검증 데이터만 사용 가능한 상황에서 합성 데이터를 생성하여 학습 데이터를 증강하는 경우이다. 두 번째는 프라이버시 보존 환경으로, 상대적으로 큰 학습 데이터가 있지만 프라이버시나 효율성 이유로 소규모 합성 데이터로 대체하는 경우이다. 두 시나리오 모두 실제 응용에서 빈번히 발생하는 상황이며, GrADmm의 범용성을 검증하는 데 적합하다.
4.1 데이터셋 및 벤치마크
논문은 다양한 분류 태스크에서 GrADmm의 효과를 검증한다. 주요 실험에 사용된 데이터셋은 다음과 같다:
- SST-2 (Stanford Sentiment Treebank): 영화 리뷰에 대한 이진 감성 분류 데이터셋으로, 약 67,000개의 학습 데이터와 900개의 검증 데이터를 포함한다.
- Tweet Emotions: 트윗의 감정(긍정/부정)을 분류하는 데이터셋이다.
- Rotten Tomatoes: 영화 리뷰의 감성을 이진 분류하는 데이터셋이다.
- IMDB: 영화 리뷰 기반 이진 감성 분류 데이터셋으로, 추가 실험에 사용된다.
- Sentence Polarity: 문장 극성 분류 데이터셋으로, 추가 실험에서 활용된다.
4.2 구현 세부사항
합성 데이터 생성을 위한 기본 모델로는 Microsoft Phi 모델을 사용한다. Phi는 상대적으로 작은 규모이면서도 강력한 성능을 보이는 언어 모델로, 그래디언트 계산의 효율성과 성능 사이의 균형을 제공한다. 생성된 합성 데이터의 전이성(transferability)을 검증하기 위해 Llama-3.2-1B와 OPT-1.3B 모델도 추가적으로 사용된다. GrADmm의 주요 하이퍼파라미터는 다음과 같다:
- ADMM 반복 횟수 T: ADMM 최적화 알고리즘의 전체 수렴을 보장하기 위한 외부 루프 반복 수
- 페널티 파라미터 $\rho$: 등식 제약의 위반에 대한 페널티 강도를 제어
- Top-k 투영 파라미터 k: 각 토큰 위치에서 고려할 후보 토큰의 수 (기본값 k=20)
- 차분 프라이버시 파라미터 $\varepsilon$, $\delta$: 프라이버시 보호 수준을 제어
마지막 레이어 그래디언트만을 매칭하는 전략이 기본으로 사용되며, 이는 전체 모델 그래디언트를 매칭하는 것보다 연산 효율적이면서도 더 높은 성능을 보이는 것으로 나타났다. 미세 조정 시에는 학습률과 에폭 수를 포함한 표준적인 미세 조정 설정을 따른다.
4.3 베이스라인
GrADmm의 성능을 공정하게 평가하기 위해 다양한 범주의 베이스라인과 비교한다. 이들 베이스라인은 크게 세 가지 범주로 나뉜다:
- LLM 기반 합성 데이터 생성: 제로샷(Zero-shot)과 퓨샷(Few-shot) 방식으로 LLM이 직접 합성 텍스트를 생성하는 방법이다. 제로샷에서는 카테고리 정보만 제공하고, 퓨샷에서는 소수의 실제 예시를 함께 제공한다.
- 코어셋 선택(Coreset Selection): 실제 데이터에서 대표적인 서브셋을 선택하는 방법으로, Herding과 K-center 기법이 포함된다. Herding은 데이터 분포의 중심에 가까운 예시를 선택하고, K-center는 데이터 공간을 최대한 커버하는 예시를 선택한다.
- 무작위 선택(Random): 실제 데이터에서 무작위로 서브셋을 선택하는 기본 베이스라인이다.
논문은 이 중 GrADmm만이 실제 데이터의 프라이버시를 보존할 수 있는 유일한 방법임을 강조한다. LLM 기반 생성 방법은 LLM의 학습 데이터를 암기할 수 있고, 코어셋 선택과 무작위 선택은 실제 데이터를 직접 사용하므로 프라이버시를 보장하지 못한다. 이러한 프라이버시 보존 능력은 GrADmm의 핵심 차별화 요소 중 하나이다. 특히 의료, 금융, 법률 등 민감 데이터를 다루는 도메인에서는 학습 데이터의 프라이버시가 법적 요구사항일 수 있으며, 이 경우 GrADmm은 현실적으로 적용 가능한 유일한 합성 데이터 생성 방법이 된다.
베이스라인 비교에서 한 가지 주목할 점은 제로샷과 퓨샷 방법에서 사용하는 LLM이 합성 데이터를 생성하기 위해 상당한 양의 쿼리를 필요로 한다는 것이다. 이는 API 비용의 관점에서도 GrADmm과 비교할 때 고려해야 할 요소이다. GrADmm은 로컬에서 모델을 실행하여 그래디언트를 계산하므로 외부 API에 대한 의존성이 없으며, 이는 보안에 민감한 환경에서도 사용할 수 있음을 의미한다. 반면 제로샷/퓨샷 방법은 GPT-4 등의 외부 모델에 실제 데이터의 레이블 정보를 전송해야 하므로, 이 과정에서 간접적인 프라이버시 위험이 발생할 수 있다.
5. 주요 실험 결과: 데이터 부족 환경과 프라이버시 보존 설정
5.1 GrADmm 알고리즘의 전체 파이프라인 요약
실험 결과를 살펴보기 전에, GrADmm 알고리즘의 전체 파이프라인을 정리하면 다음과 같다. 단계 1(초기화)에서는 어휘에서 무작위로 선택된 토큰 시퀀스로 합성 데이터의 임베딩 $\boldsymbol{X}$를 초기화한 후, 그래디언트 매칭 손실을 최소화하도록 임베딩을 사전 최적화한다. 이 초기화 단계에서는 어휘 제약을 적용하지 않고 연속 공간에서 자유롭게 최적화하여, ADMM의 시작점을 좋은 위치에 놓는다. 단계 2(ADMM 반복)에서는 T번의 반복 동안 세 가지 업데이트(근위 단계, Top-k 투영, 이중 업데이트)를 교대로 수행한다. 각 반복에서 임베딩은 그래디언트 매칭과 어휘 제약을 동시에 만족하는 방향으로 점진적으로 수렴한다. 단계 3(필터링)에서는 최종 ADMM 출력에 대해 Top-k 투영을 적용한 후, 잘못된 레이블 제거, 그래디언트 매칭 손실 기반 선택, 카테고리 간 균형 조정의 세 단계 필터링을 수행하여 고품질의 합성 데이터 서브셋을 선별한다. 전체 과정에서 차분 프라이버시를 적용하는 경우, 단계 1의 초기 최적화와 단계 2의 모든 근위 단계에서 실제 데이터의 그래디언트에 노이즈를 추가한다.
이 전체 파이프라인을 GrADmm의 알고리즘 수도코드(Algorithm 1)와 대조하면 더 명확해진다. Algorithm 1에서 Step 1은 초기화로, 무작위 텍스트에서 시작하여 그래디언트 매칭 손실을 사전 최적화한다. Step 2가 ADMM의 핵심 루프로, 임베딩 업데이트($\boldsymbol{X}$), Top-k 투영($\boldsymbol{Z}$), 이중 변수 업데이트($\boldsymbol{\Lambda}$)를 T번 반복한다. Step 3은 필터링으로, 카테고리 검증, 손실 기반 선택, 균형 조정을 순차적으로 적용한다. 이 간결한 알고리즘 구조는 구현의 용이성과 이론적 분석의 접근성을 동시에 제공한다. 이 파이프라인에서 연산 비용의 대부분은 단계 2의 ADMM 반복에 소요된다. 각 근위 단계에서는 합성 데이터의 임베딩에 대한 그래디언트 매칭 손실의 기울기를 계산해야 하며, 이를 위해 모델의 순전파와 역전파가 필요하다. Top-k 투영 단계에서는 각 토큰 위치에서 k개 후보에 대한 퍼플렉서티 계산이 필요하다. 그러나 마지막 레이어 그래디언트만을 매칭하는 전략 덕분에, 전체 모델 그래디언트를 계산하는 것보다 연산 비용이 크게 절감된다. 또한 합성 데이터의 각 예시에 대한 최적화는 독립적으로 수행될 수 있어 병렬화가 가능하다.
5.2 데이터 부족 환경에서의 합성 데이터 증강
첫 번째 실험 시나리오는 타겟 태스크에 대한 데이터가 극히 부족한 상황이다. 검증 데이터에서 5, 10, 20, 50개의 예시만 무작위로 선택하여 GrADmm을 적용해 100개의 합성 예시를 생성하고, 이를 Phi 모델의 미세 조정에 사용한다. Figure 1은 SST-2, Tweet emotions, Rotten tomatoes 세 데이터셋에서의 결과를 보여준다.
실험 결과, GrADmm은 매우 적은 수의 실제 예시만으로도 고품질의 합성 미세 조정 데이터를 성공적으로 생성할 수 있음을 확인하였다. 특히 주목할 만한 점은, 단 5개의 실제 예시만을 기반으로 생성한 합성 데이터로 미세 조정한 모델이 해당 5개 실제 예시로 직접 미세 조정한 모델보다 SST-2에서 15.7%, Tweet emotions에서 29.7%, Rotten tomatoes에서 31.5%의 성능 향상을 달성했다는 것이다. 이는 GrADmm이 소수의 예시에서 그래디언트 정보를 효과적으로 추출하여, 이를 바탕으로 학습에 유용한 다양한 합성 데이터를 생성할 수 있음을 입증한다. 예시 수가 증가할수록 GrADmm의 성능도 향상되며, 50개 예시 기반으로 생성한 합성 데이터는 세 데이터셋 모두에서 일관되게 높은 성능을 보인다.
이 결과의 실용적 의미는 매우 크다. 많은 실제 응용에서 타겟 태스크에 대한 레이블된 데이터를 수집하는 것은 비용이 높고 시간이 많이 소요된다. 의료 텍스트 분류, 법률 문서 분류, 특수 도메인의 감성 분석 등에서는 전문가의 어노테이션이 필요하여 대규모 데이터셋 구축이 어렵다. GrADmm은 이러한 상황에서 단 5-50개의 레이블된 예시만으로도 효과적인 미세 조정 데이터를 합성할 수 있음을 보여주며, 이는 low-resource 환경에서의 LLM 적용 가능성을 크게 확장한다. 특히 데이터가 부족할수록(예: 5개 vs 50개) GrADmm의 상대적 성능 향상이 더 두드러진다는 점은, 이 방법이 데이터 부족 문제가 심각한 상황에서 가장 큰 가치를 발휘함을 시사한다.
5.3 대규모 미세 조정 데이터 기반 합성 데이터 생성
두 번째 실험 시나리오는 비교적 큰 지도 미세 조정 데이터가 있을 때, 이를 기반으로 작은 합성 데이터를 생성하여 실제 데이터를 대체하는 것이다. 이 설정은 학습 데이터의 프라이버시 보호나 학습 효율성 향상을 목적으로 한다. 이 실험에서 GrADmm은 전체 학습 데이터의 그래디언트를 매칭하여 합성 데이터를 생성하며, 생성된 합성 데이터의 수는 5개에서 50개까지 다양하게 설정된다. 합성 데이터의 수가 실제 학습 데이터보다 훨씬 적음에도 불구하고 경쟁력 있는 성능을 달성한다는 것은, GrADmm이 학습 신호를 효율적으로 압축할 수 있음을 보여준다. 차분 프라이버시를 적용한 경우($\varepsilon = 0.05$)의 결과도 함께 보고되어, 프라이버시 보존 하에서의 성능 저하 정도를 정량적으로 파악할 수 있다. Table 1은 이 시나리오에서의 상세한 결과를 보여준다.
| Dataset | # data | GrADmm ($\varepsilon=\infty$) | GrADmm ($\varepsilon=0.05$) | Zero-shot | Few-shot | Herding | K-center | Random |
|---|---|---|---|---|---|---|---|---|
| SST-2 | 5 | 86.5 | 84.2 | 71.6 | 80.2 | 76.8 | 71.3 | 73.4 |
| 10 | 88.3 | 85.9 | 71.6 | 80.2 | 82.7 | 78.6 | 80.5 | |
| 20 | 90.0 | 87.5 | 71.6 | 80.2 | 86.4 | 83.4 | 84.2 | |
| 50 | 90.8 | 88.1 | 71.6 | 80.2 | 87.9 | 85.3 | 86.7 | |
| Tweet emotions | 20 | 86.1 | 84.3 | 79.9 | 73.0 | 79.6 | 82.5 | 81.4 |
| 50 | 87.3 | 85.7 | 79.9 | 73.0 | 83.1 | 84.2 | 84.6 | |
| Rotten tomatoes | 20 | 88.8 | 86.5 | 79.1 | 79.7 | 77.8 | 82.3 | 83.5 |
| 50 | 90.1 | 87.8 | 79.1 | 79.7 | 84.6 | 86.1 | 86.8 |
Table 1에서 확인할 수 있듯이, GrADmm은 모든 데이터셋과 데이터 크기에서 모든 베이스라인을 일관되게 능가한다. 특히 프라이버시를 보존하지 않는 설정($\varepsilon = \infty$)에서 GrADmm은 베이스라인 대비 최대 13.1%의 성능 향상을 달성한다. 프라이버시를 보존하는 설정($\varepsilon = 0.05$)에서도 대부분의 베이스라인보다 우수한 성능을 유지한다. 주목할 점은 GrADmm이 생성한 합성 데이터의 퍼플렉서티가 실제 데이터와 유사한 수준인 반면, LLM 생성 합성 데이터(제로샷, 퓨샷)는 훨씬 낮은 퍼플렉서티를 보인다는 것이다. 이는 GrADmm의 합성 데이터가 LLM 생성 데이터보다 더 다양하고 실제 데이터의 분포를 더 잘 반영함을 의미한다.
5.4 다른 LLM으로의 전이성
GrADmm의 중요한 장점 중 하나는 생성된 합성 텍스트가 사람이 읽을 수 있는 실제 텍스트이므로, 생성에 사용된 모델이 아닌 다른 LLM에도 전이하여 사용할 수 있다는 것이다. Table 2는 Phi 모델의 그래디언트를 매칭하여 생성된 20개의 합성 예시로 Llama-3.2-1B와 OPT-1.3B를 미세 조정한 결과를 보여준다.
| Model | Dataset | Pretrained | GrADmm | Zero-shot | Few-shot | Herding | K-centers | Random |
|---|---|---|---|---|---|---|---|---|
| Llama-3.2-1B | SST-2 | 68.6 | 89.4 | 82.4 | 79.7 | 85.4 | 64.6 | 88.4 |
| Tweet emotions | 43.7 | 85.8 | 83.4 | 74.4 | 76.1 | 88.5 | 83.9 | |
| Rotten tomatoes | 67.5 | 87.8 | 80.5 | 78.5 | 73.6 | 87.8 | 84.3 | |
| OPT-1.3B | SST-2 | 62.3 | 87.0 | 83.9 | 85.6 | 85.8 | 73.8 | 88.7 |
| Tweet emotions | 43.7 | 78.5 | 77.8 | 76.9 | 75.3 | 74.7 | 77.7 | |
| Rotten tomatoes | 63.1 | 87.9 | 74.9 | 80.6 | 80.8 | 84.8 | 85.5 |
GrADmm이 생성하는 합성 텍스트의 전이성은 기존 임베딩 기반 DD 방법에 비해 근본적인 장점이다. 기존 방법들이 생성하는 연속 임베딩은 특정 모델의 임베딩 가중치에 종속적이어서 다른 모델에 적용할 수 없다. 반면 GrADmm은 실제 텍스트를 생성하므로, 어떤 모델이든 이 텍스트를 입력으로 받아 미세 조정에 활용할 수 있다. 결과를 살펴보면, Phi 모델의 그래디언트를 매칭하여 생성된 합성 데이터가 다른 LLM(Llama-3.2-1B, OPT-1.3B)의 미세 조정에도 효과적임을 확인할 수 있다. GrADmm의 합성 데이터는 대부분의 경우에서 제로샷, 퓨샷 방법 및 Herding, K-center 코어셋 선택 방법보다 우수한 성능을 보인다. 예를 들어, Llama-3.2-1B에서 SST-2 데이터셋의 경우 GrADmm(89.4%)은 제로샷(82.4%)과 퓨샷(79.7%)을 크게 능가하며, 사전 학습 모델(68.6%) 대비 20.8%포인트의 성능 향상을 달성한다. 이는 GrADmm이 생성하는 합성 텍스트가 특정 모델에 과적합되지 않고, 범용적인 학습 신호를 담고 있음을 시사한다.
전이성 결과에서 흥미로운 점은, 일부 경우에서 코어셋 선택 방법(Random, K-centers)이 GrADmm보다 높은 성능을 보이는 케이스가 있다는 것이다. 예를 들어 OPT-1.3B에서 SST-2의 경우, Random 선택(88.7%)이 GrADmm(87.0%)보다 높다. 이는 코어셋 방법이 실제 데이터를 직접 사용하므로 해당 모델과의 호환성이 더 높을 수 있음을 시사한다. 그러나 코어셋 방법은 실제 데이터를 그대로 사용하므로 프라이버시를 보존할 수 없다는 근본적 한계가 있으며, 이 점에서 GrADmm과 직접 비교하기는 어렵다. 프라이버시 보존이 요구되는 환경에서는 GrADmm이 유일한 선택지이며, 대부분의 경우에서 코어셋 방법을 능가하는 성능을 보인다는 점이 더 의미 있는 결과이다.
전이성이 가능한 이유에 대한 직관적 설명은 다음과 같다. GrADmm이 최적화하는 것은 특정 모델의 파라미터가 아니라, 합성 텍스트의 내용(content)이다. 그래디언트 매칭 과정에서 합성 텍스트는 실제 데이터의 학습 신호를 포착하는 방향으로 최적화되며, 이 학습 신호는 특정 모델에 종속적이기보다는 태스크 자체의 특성을 반영한다. 즉, "영화에 대한 긍정적인 감성을 표현하는 텍스트"가 Phi 모델에서 유용하다면, 이 텍스트는 Llama나 OPT에서도 유사한 학습 효과를 제공할 것이다. 물론 모델 아키텍처와 임베딩 공간의 차이로 인해 완벽한 전이는 불가능하지만, GrADmm의 실험 결과는 이러한 전이가 실용적으로 충분히 효과적임을 입증한다.
6. 추가 분석 및 Ablation Study: 그래디언트 유사성과 데이터 분포
이 장에서는 GrADmm의 각 설계 선택이 최종 성능에 미치는 영향을 분석하고, 합성 데이터의 특성을 다양한 관점에서 조사한다. 이러한 추가 분석은 GrADmm이 단순히 경험적으로 효과적인 방법이 아니라, 각 구성 요소가 이론적으로 뒷받침되는 원칙적인 방법임을 입증하는 데 중요하다. 논문은 그래디언트 유사성, 데이터 분포 유사성, 프라이버시 파라미터의 영향, 그리고 주요 구성 요소의 ablation 등 다각도의 분석을 통해 GrADmm의 작동 메커니즘을 깊이 있게 이해할 수 있도록 한다.
6.1 합성 데이터의 그래디언트 유사성 분석
Figure 2(a): SST-2에서 미세 조정 중 정규화된 마지막 레이어 그래디언트 오차. GrADmm 생성 데이터(파란색)가 제로샷 베이스라인(주황색)보다 현저히 낮은 그래디언트 오차를 보인다.
GrADmm의 핵심 이론적 주장은 합성 데이터의 그래디언트가 실제 데이터의 그래디언트와 유사하게 유지된다는 것이다. Figure 2(a)는 SST-2 데이터셋에서 GrADmm 합성 데이터로 Phi를 미세 조정할 때, 정규화된 마지막 레이어 그래디언트 오차를 보여준다. 구체적으로, 이 오차는 $(\|\nabla_{\boldsymbol{\theta}_L}\mathcal{L}(\theta_t) - \nabla_{\boldsymbol{\theta}_L}\mathcal{L}^s(\theta_t)\|) / \|\nabla_{\boldsymbol{\theta}_L}\mathcal{L}(\theta_t)\|$로 정의된다.
결과를 보면, GrADmm이 생성한 합성 데이터의 그래디언트 오차는 사전 학습된 파라미터에서 작으며, 이 관계가 미세 조정 전체 과정에 걸쳐 유지된다. 특히 GrADmm 생성 데이터는 제로샷 베이스라인보다 미세 조정 중 훨씬 작은 그래디언트 오차를 보여, 실제 데이터와의 더 밀접한 정렬(alignment)을 나타낸다. 이는 GrADmm의 우수한 성능을 그래디언트 수준에서 뒷받침하는 중요한 실증적 증거이다. 부록에서 다른 데이터셋과 전체 그래디언트 오차에 대해서도 유사한 결과가 확인된다.
Figure 2(b): GrADmm 합성 텍스트와 가장 가까운 실제 학습 데이터 사이의 L2 임베딩 거리 분포. 합성 데이터가 실제 데이터와 충분한 거리를 유지하면서도 유용한 학습 신호를 담고 있음을 보여준다.
6.2 합성 데이터의 분포 분석
GrADmm이 생성한 합성 데이터가 실제 학습 데이터의 분포를 얼마나 잘 반영하는지를 정량적으로 분석하기 위해, 논문은 FID(Frechet Inception Distance) 기반의 임베딩 발산(divergence)을 측정한다. Table 3은 SST-2 데이터셋에서 학습 데이터 분포와 (i) 소수의 실제 예시, (ii) GrADmm 합성 데이터, (iii) 제로샷 합성 데이터 사이의 FID를 비교한다.
| # data | (Train || Val) | (Train || GrADmm) | (Train || Zero-shot) |
|---|---|---|---|
| 5 | 71.8 | 44.2 | 56.0 |
| 10 | 59.8 | 43.3 | |
| 20 | 51.6 | 39.8 | |
| 50 | 40.8 | 39.7 |
결과를 보면, GrADmm의 합성 데이터는 모든 경우에서 소수의 실제 예시보다 더 낮은 FID를 보이며, 이는 GrADmm이 소수의 예시로부터 학습 데이터의 분포를 더 잘 복원할 수 있음을 의미한다. 예를 들어 5개 예시 기반의 경우, 실제 예시의 FID는 71.8인 반면 GrADmm 합성 데이터의 FID는 44.2로, 27.6 포인트 더 낮다. 또한 GrADmm 합성 데이터는 제로샷 합성 데이터(FID 56.0)보다도 일관되게 낮은 FID를 보여, 실제 학습 데이터의 분포에 더 가까운 합성 데이터를 생성함을 확인할 수 있다. 이는 GrADmm의 우수한 성능을 데이터 분포 수준에서 뒷받침한다.
6.3 프라이버시 파라미터의 영향
Figure 2(c): 차분 프라이버시 파라미터 $\varepsilon$의 변화에 따른 GrADmm 성능 변화. $\varepsilon$이 증가할수록(프라이버시 보호 약화) 성능이 향상되며, 프라이버시-유용성 트레이드오프를 보여준다.
Figure 2(c)는 차분 프라이버시 파라미터 $\varepsilon$의 변화에 따른 GrADmm의 성능을 보여준다. $\varepsilon$이 작을수록 더 강한 프라이버시 보호를 제공하지만, 그래디언트에 추가되는 노이즈가 커져 합성 데이터의 품질이 저하될 수 있다. 반대로 $\varepsilon$이 클수록(또는 무한대에 가까울수록) 프라이버시 보호가 약해지지만 합성 데이터의 품질은 향상된다. 실험 결과, $\varepsilon = 0.05$의 매우 엄격한 프라이버시 설정에서도 GrADmm은 대부분의 베이스라인보다 우수한 성능을 유지하며, 이는 GrADmm이 프라이버시와 유용성 사이의 균형을 효과적으로 달성할 수 있음을 보여준다.
6.4 Ablation Study: 마지막 레이어 vs 전체 그래디언트 매칭
논문의 핵심 설계 선택 중 하나는 전체 모델 그래디언트가 아닌 마지막 레이어의 그래디언트만을 매칭하는 것이다. Table 4는 SST-2 데이터셋에서 이 선택의 영향을 보여주는 ablation 결과를 제시한다.
| Method | Acc | #data | ppl |
|---|---|---|---|
| GrADmm (last-layer + top-k) | 90.0 | 68 | 5.2 |
| GrADmm with full grad | 89.6 | 89 | 5.5 |
| GrADmm w/o top-k projection | 80.8 | 57 | 13.3 |
Ablation study는 GrADmm의 핵심 설계 선택들의 기여도를 정량적으로 분석하여, 각 구성 요소의 필요성을 검증한다. 결과를 분석하면, 마지막 레이어 그래디언트 매칭(90.0%)이 전체 그래디언트 매칭(89.6%)보다 약간 더 높은 정확도를 달성하면서도 더 적은 합성 데이터(68개 vs 89개)를 사용한다. 이는 마지막 레이어 그래디언트가 미세 조정에 가장 핵심적인 정보를 담고 있으며, 전체 그래디언트의 고차원성에서 오는 노이즈가 오히려 최적화를 방해할 수 있음을 시사한다. 또한 Top-k 투영 없이 L2 투영만 사용한 경우(80.8%) 정확도가 9.2%포인트 크게 하락하며 퍼플렉서티도 13.3으로 급증한다. 이는 Top-k 투영이 읽을 수 있고 의미 있는 텍스트를 생성하는 데 필수적인 구성 요소임을 보여준다.
6.5 필터링 전략의 효과
논문은 세 단계 필터링 전략의 각 단계가 성능에 미치는 영향을 분석한다. Table 5는 SST-2 데이터셋에서의 결과를 보여준다.
| Method | Acc | #data | ppl |
|---|---|---|---|
| ADMM (no filtering) | 88.1 | 200 | 4.6 |
| + Removing wrong labels | 89.4 | 169 | 4.6 |
| + Selecting data with lowest loss | 89.4 | 100 | 5.4 |
| + Balancing avg loss of categories | 90.0 | 68 | 5.2 |
필터링 전략의 각 단계가 기여하는 바를 분석하면, 첫 번째로 잘못된 레이블을 가진 예시를 제거하는 것이 가장 큰 성능 향상(88.1% → 89.4%)을 가져온다. 이는 200개 중 31개의 예시가 잘못된 카테고리로 분류되었음을 의미하며, Top-k 투영 과정에서 카테고리 전환이 발생할 수 있음을 확인시킨다. 두 번째 단계에서 그래디언트 매칭 손실이 가장 낮은 100개를 선택하면 데이터 수는 줄지만 성능은 유지된다. 마지막으로 카테고리 간 균형 조정을 통해 68개로 더 줄이면서도 0.6%의 추가 성능 향상을 달성한다. 전체적으로 데이터를 200개에서 68개로 66% 줄이면서 1.9%의 정확도 향상을 달성하는 것은, 양보다 질이 더 중요함을 보여주는 인상적인 결과이다. 이 결과는 합성 데이터 생성에서 필터링과 품질 관리가 얼마나 중요한지를 역설적으로 보여준다. ADMM 기반 최적화가 모든 합성 예시에 대해 균일하게 높은 품질을 보장하지는 못하며, 일부 예시는 Top-k 투영 과정에서 품질이 크게 저하될 수 있다. 특히 이진 분류와 같이 카테고리 간 경계가 미묘한 태스크에서는, 투영이 예시의 카테고리 소속을 변경시킬 위험이 있다. 따라서 체계적인 필터링을 통해 이러한 문제를 사후적으로 교정하는 것이 전체 파이프라인의 성능에 결정적인 역할을 한다.
필터링 전략의 설계에서 주목할 점은 세 단계가 상호 보완적이라는 것이다. 첫 번째 단계(레이블 정확성 검증)는 명백한 오류를 제거하고, 두 번째 단계(그래디언트 매칭 손실 기반 선택)는 학습 신호의 품질을 최적화하며, 세 번째 단계(카테고리 간 균형)는 학습 데이터의 클래스 분포를 교정한다. 이러한 다단계 필터링은 단일 기준으로는 포착할 수 없는 다차원적인 품질 문제를 체계적으로 해결한다. 또한 필터링 과정 자체가 추가적인 모델 학습을 필요로 하지 않고, 이미 계산된 그래디언트 매칭 손실과 LLM의 레이블 예측만을 활용하므로 연산 비용이 매우 낮다.
프라이버시 파라미터에 대한 분석은 GrADmm의 실용적 가치를 더욱 부각시킨다. 많은 실제 응용 분야에서 학습 데이터는 민감한 개인정보를 포함할 수 있으며(예: 의료 기록, 금융 데이터, 개인 메시지), 이러한 데이터를 직접 사용하는 것은 법적, 윤리적 제약을 받을 수 있다. GrADmm은 그래디언트에 제어된 노이즈를 추가하는 간단하면서도 이론적으로 견고한 메커니즘을 통해 차분 프라이버시를 보장한다. $\varepsilon = 0.05$라는 매우 강한 프라이버시 설정에서도 유의미한 성능을 유지한다는 것은, GrADmm이 프라이버시에 민감한 도메인에서 합성 데이터 기반 LLM 학습의 실현 가능한 경로를 제시함을 의미한다. 기존의 LLM 생성 방법이나 코어셋 선택 방법은 이러한 프라이버시 보장을 제공할 수 없다는 점에서 GrADmm의 차별성이 더욱 두드러진다.
6.6 생성된 합성 텍스트 예시
Figure 3: GrADmm이 SST-2 데이터셋에서 생성한 합성 텍스트 예시. 긍정/부정 감성에 대한 다양하고 읽을 수 있는 텍스트가 생성되었다.
Figure 3은 GrADmm이 SST-2 데이터셋에서 생성한 합성 텍스트의 실제 예시를 보여준다. 생성된 텍스트는 사람이 읽을 수 있는 자연스러운 문장이며, 해당 카테고리(긍정/부정)의 감성을 적절히 반영하고 있다. 이는 기존의 임베딩 기반 DD 방법들이 생성하는 무의미한 단어 나열과는 근본적으로 다른 결과이다. GrADmm의 Top-k 투영과 퍼플렉서티 기반 디코딩이 문맥적으로 일관되고 읽을 수 있는 텍스트를 효과적으로 생성함을 확인할 수 있다. 부록에서는 Rotten Tomatoes와 Tweet Emotions 데이터셋에 대한 추가 생성 예시도 제공된다.
논문은 부록에서 GrADmm이 생성한 합성 텍스트의 구체적인 예시를 다수 제시한다. SST-2의 긍정 레이블 예시로는 영화에 대한 호의적인 평가를 담은 문장들이 생성되며, 부정 레이블 예시로는 비판적인 톤의 영화 평을 담은 문장들이 생성된다. Rotten Tomatoes와 Tweet Emotions에 대해서도 마찬가지로 각 카테고리에 적합한 감성을 표현하는 다양한 합성 텍스트가 생성된다. 이러한 예시들은 GrADmm이 단순히 그래디언트 매칭 목적 함수를 최적화하는 것에 그치지 않고, 실제로 대상 태스크의 특성을 반영하는 의미 있는 텍스트를 생성할 수 있음을 보여준다. 기존의 임베딩 기반 DD 방법들이 최근접 이웃 투영으로 "무관한 단어의 나열"만을 생성했던 것과 비교하면, GrADmm의 Top-k 투영에 의한 질적 개선은 극적이라 할 수 있다.
6.7 추가 데이터셋에서의 결과
논문의 부록에서는 IMDB와 Sentence Polarity 두 개의 추가 데이터셋에 대한 실험 결과도 보고된다. 데이터 부족 환경에서 GrADmm을 적용하여 100개의 합성 예시를 생성한 결과, 단 5개의 실제 예시만으로 생성한 합성 데이터가 실제 데이터 대비 IMDB에서 8.9%, Sentence Polarity에서 12.5%의 성능 향상을 달성했다. 이는 GrADmm이 다양한 분류 태스크에 걸쳐 일관되게 효과적임을 입증한다. IMDB와 Sentence Polarity는 SST-2, Tweet Emotions, Rotten Tomatoes와는 데이터 규모, 텍스트 길이, 도메인 특성 등에서 차이가 있음에도 불구하고, GrADmm이 일관되게 효과적인 합성 데이터를 생성할 수 있었다는 점은 방법론의 범용성을 뒷받침하는 중요한 증거이다. 특히 IMDB 데이터셋은 텍스트의 평균 길이가 다른 데이터셋보다 상당히 길어, GrADmm이 다양한 길이의 텍스트에 대해서도 효과적으로 작동함을 시사한다.
또한 마지막 레이어 그래디언트 오차와 전체 그래디언트 오차에 대한 추가 분석에서도 일관된 결과가 관찰된다. GrADmm은 마지막 레이어의 그래디언트만을 매칭함에도 불구하고, 전체 그래디언트 오차 역시 제로샷 베이스라인보다 현저히 낮게 유지된다. 이는 마지막 레이어 그래디언트 매칭이 전체 모델의 학습 역학을 효과적으로 포착하는 근사(proxy)임을 강하게 뒷받침한다.
Figure 4: 다양한 데이터셋에 대한 제로샷 프롬프트 예시. GrADmm과 비교되는 제로샷 베이스라인에서 사용된 프롬프트 구성을 보여준다.
부록에 제시된 추가 분석에서도 GrADmm의 강건성이 확인된다. 전체 그래디언트 오차(full gradient error)에 대한 실험에서, GrADmm이 마지막 레이어의 그래디언트만을 매칭함에도 불구하고 전체 그래디언트 오차 역시 제로샷 베이스라인보다 현저히 낮게 유지되는 것이 관찰된다. 이는 Section 3.5에서 논의한 마지막 레이어 그래디언트 매칭 전략의 유효성을 추가적으로 뒷받침하는 증거이다. 구체적으로, SST-2, Tweet Emotions, Rotten Tomatoes 세 데이터셋 모두에서 GrADmm의 전체 그래디언트 오차는 미세 조정 전 과정에 걸쳐 제로샷 베이스라인의 약 절반 수준으로 유지된다. 이는 마지막 레이어 그래디언트 매칭이 단순히 연산 효율을 위한 타협이 아니라, 모델 전체의 학습 역학을 효과적으로 포착하는 근사임을 강하게 시사한다.
L2 임베딩 거리 분석(Figure 2(b))에서도 흥미로운 결과가 관찰된다. GrADmm이 생성한 합성 텍스트와 가장 가까운 실제 학습 데이터 사이의 임베딩 거리 분포를 분석한 결과, 합성 데이터가 실제 데이터와 충분한 거리를 유지하면서도 학습에 유용한 정보를 담고 있음이 확인된다. 이 거리가 너무 작으면 합성 데이터가 실제 데이터를 거의 복제하는 것이 되어 프라이버시 보존이 어렵고, 너무 크면 실제 데이터의 분포에서 벗어나 학습 효과가 떨어진다. GrADmm의 합성 데이터는 이 두 극단 사이에서 적절한 균형을 달성하며, 이는 그래디언트 매칭 목적 함수가 데이터 수준이 아닌 학습 신호 수준에서의 유사성을 최적화하기 때문으로 해석된다.
7. 한계점 및 향후 연구 방향: 생성 태스크와 확장성
GrADmm은 합성 텍스트 생성에 있어 이론적 보장과 실질적 효과를 모두 달성하는 의미 있는 기여를 했지만, 몇 가지 한계점이 존재한다. 첫째, 현재 실험은 분류(classification) 태스크에 초점을 맞추고 있다. 요약, 번역, 대화 생성 등 더 복잡한 생성 태스크에서의 효과는 검증되지 않았다. 이러한 태스크에서는 출력 시퀀스가 길고 다양하여, 그래디언트 매칭 기반 접근의 효과가 달라질 수 있다.
둘째, 모델 규모의 확장성에 대한 의문이 남는다. 현재 실험에서 사용된 모델들(Phi, Llama-3.2-1B, OPT-1.3B)은 상대적으로 작은 규모이다. 수십억에서 수백억 파라미터를 가진 더 큰 모델에서의 효과는 추가 검증이 필요하다. 마지막 레이어 그래디언트만을 매칭하는 전략이 더 큰 모델에서도 유효한지는 확인되지 않았다.
셋째, GrADmm의 연산 비용도 고려해야 할 요소이다. ADMM의 각 반복에서 모델의 순전파와 역전파가 필요하며, Top-k 투영에서의 탐욕적 디코딩도 추가적인 연산을 요구한다. 논문에서는 연산 시간에 대한 구체적인 보고가 포함되어 있지 않으나, 수십억 파라미터 모델에서의 반복적 그래디언트 계산은 상당한 GPU 자원을 필요로 할 것으로 추정된다. 제로샷이나 퓨샷 생성이 단일 LLM 추론만으로 완료되는 것과 비교하면, GrADmm의 연산 비용은 상당히 높을 수 있다. 다만 마지막 레이어 그래디언트만을 매칭하는 전략이 이 비용을 크게 절감하며, 합성 데이터 생성이 오프라인으로 한 번만 수행되면 된다는 점에서 실용적 적용은 가능하다. 또한 한 번 생성된 합성 데이터는 동일 태스크에 대해 반복적으로 재사용될 수 있으므로, 장기적 관점에서의 비용 효율성은 상당할 수 있다.
넷째, GrADmm의 효과는 가용한 실제 예시의 다양성에 의존한다. 논문은 무작위로 선택된 소수의 예시에서도 효과적임을 실증적으로 보여주지만, 매우 편향되거나 비대표적인 예시가 주어진 경우의 강건성(robustness)은 충분히 분석되지 않았다. 예를 들어, 모든 실제 예시가 특정 하위 주제에 편중된 경우, 생성된 합성 데이터 역시 해당 주제에 편향될 가능성이 있으며, 이는 모델의 일반화 능력을 제한할 수 있다.
다섯째로, 현재 GrADmm은 이진 분류 및 다중 클래스 분류 태스크에서만 검증되었으며, 모든 실험 데이터셋이 감성 분석 관련이라는 점도 일반화 가능성에 대한 의문을 제기한다. 자연어 추론(NLI), 질의 응답(QA), 독해(reading comprehension) 등 다른 유형의 분류 태스크나, 입력-출력 구조가 다른 태스크에서의 효과는 추가 검증이 필요하다.
향후 연구 방향으로는 여러 유망한 축이 존재한다. 첫째, 요약, 번역, 대화 생성 등 다양한 생성 태스크로의 확장이다. 이를 위해서는 길이가 가변적인 출력 시퀀스에 대한 그래디언트 매칭 기법의 개발이 필요할 것이다. 둘째, 70B 이상의 더 큰 규모 모델에서의 검증과, 이에 수반되는 연산 효율화 기법의 개발이다. 셋째, 다중 레이어 그래디언트 매칭의 효율적 구현으로, 마지막 레이어만이 아닌 선택적 중간 레이어의 그래디언트를 함께 매칭하는 방법이 성능을 더 개선할 수 있을 것이다. 넷째, 연속 학습(continual learning) 설정에서의 합성 데이터 활용으로, 이전 태스크의 데이터를 합성 데이터로 대체하여 망각(catastrophic forgetting)을 방지하는 접근이 가능하다. 다섯째, GrADmm의 이론적 프레임워크를 강화 학습이나 선호 최적화(preference optimization) 등 다른 LLM 학습 패러다임으로 확장하는 것도 흥미로운 방향이다. 마지막으로, 합성 데이터의 품질 평가를 위한 더 체계적인 메트릭의 개발도 필요하다. 현재는 다운스트림 태스크 성능으로 간접적으로 평가하지만, 합성 데이터 자체의 다양성, 대표성, 정보량 등을 직접 측정할 수 있는 지표가 있다면 더 효율적인 합성 데이터 생성이 가능할 것이다.
종합하면, GrADmm의 한계점들은 대부분 이 방법이 다루는 문제의 본질적 어려움에서 비롯된 것이며, 현재 단계에서는 분류 태스크에서의 검증만으로도 의미 있는 기여를 한다고 평가할 수 있다. 특히 이론적 보장과 프라이버시 보존이라는 두 가지 핵심 가치는 기존 방법에서 전혀 달성되지 못했던 것으로, 향후 확장 연구의 견고한 토대를 제공한다.
8. 결론: 이론적 보장을 갖춘 합성 텍스트 생성의 새로운 패러다임
본 논문은 LLM 미세 조정을 위한 합성 텍스트 생성에 있어 수렴성, 성능, 프라이버시에 대한 이론적 보장을 제공하는 최초의 방법론인 GrADmm을 제안했다. GrADmm의 핵심 혁신은 텍스트 생성 문제를 그래디언트 매칭 기반의 이산 제약 비볼록 최적화 문제로 정식화하고, ADMM을 활용하여 이를 연속 임베딩 공간에서의 최적화와 어휘 공간으로의 투영으로 분해하여 풀어낸 것이다. Top-k 투영 기법은 읽을 수 있고 문맥적으로 일관된 텍스트를 생성하면서도 그래디언트 매칭 목적 함수를 만족시키는 효과적인 해결책을 제공한다.
실험 결과는 GrADmm의 효과를 다각도에서 입증한다. 데이터 부족 환경에서 단 5개의 예시로 생성한 합성 데이터가 실제 데이터 대비 최대 31.5%의 성능 향상을 달성하며, 대규모 데이터 기반 설정에서도 베이스라인 대비 최대 13.1%의 성능 우위를 보인다. Phi 모델로 생성된 합성 데이터가 Llama-3.2-1B와 OPT-1.3B로의 전이에도 효과적이며, 차분 프라이버시를 통한 실제 데이터의 프라이버시 보존도 달성한다. 이론적으로는 합성 데이터의 그래디언트 오차가 미세 조정 전반에 걸쳐 유계임을 증명하고, 합성 데이터로 학습한 모델이 실제 데이터로 학습한 해의 근방으로 수렴함을 보장한다.
GrADmm은 합성 데이터 생성 연구에 있어 휴리스틱 기반 접근에서 이론적으로 근거 있는 방법론으로의 전환을 제시하며, 데이터 효율적이고 프라이버시를 보존하는 LLM 학습의 새로운 패러다임을 열 수 있는 잠재력을 가진다.
방법론적 관점에서 GrADmm이 제시하는 ADMM 기반 프레임워크는 텍스트 도메인 이상으로 확장될 수 있는 범용적 가치를 지닌다. 이산 공간에서의 최적화와 연속 공간에서의 그래디언트 기반 최적화를 ADMM을 통해 결합하는 접근은, 다른 이산 구조를 가진 데이터(예: 그래프, 분자 구조 등)에 대한 합성 데이터 생성에도 적용될 수 있다. 또한 마지막 레이어 그래디언트 매칭이라는 효율적 근사가 전체 그래디언트 매칭과 동등하거나 더 나은 성능을 보인다는 발견은, 대규모 신경망의 학습 역학에 대한 이해를 깊게 하는 이론적 통찰이기도 하다. 미세 조정 과정에서 마지막 레이어가 가장 중요한 정보를 담고 있다는 관찰은 전이 학습(transfer learning)과 파라미터 효율적 미세 조정(parameter-efficient fine-tuning, PEFT) 연구에도 의미 있는 시사점을 제공한다.
실용적 관점에서 GrADmm은 데이터 프라이버시가 중요한 의료, 법률, 금융 등의 도메인에서 특히 가치가 높을 것으로 기대된다. 이들 도메인에서는 민감한 데이터를 직접 사용한 모델 학습이 규제에 의해 제한될 수 있으며, GrADmm의 차분 프라이버시 보장은 이러한 규제를 만족하면서도 효과적인 모델 학습을 가능하게 하는 경로를 제시한다. 코드가 공개되어 있어(https://github.com/BigML-CS-UCLA/GRADMM) 재현성과 후속 연구의 접근성도 확보되어 있다. 이 코드 공개는 연구의 투명성을 높이고, 다른 연구자들이 GrADmm을 자신의 도메인과 태스크에 적용하여 검증할 수 있는 기반을 제공한다는 점에서 특히 의미가 있다.
GrADmm이 학계에 미칠 영향을 전망하면, 이 연구는 합성 데이터 생성의 패러다임을 근본적으로 변화시킬 잠재력을 가진다. 기존의 합성 데이터 연구가 주로 경험적 성능에 초점을 맞추었다면, GrADmm은 이론적 보장이라는 새로운 기준을 제시한다. 이는 후속 연구에서 합성 데이터 방법의 평가에 이론적 분석을 포함하는 새로운 표준을 확립할 수 있다. 또한 ADMM이라는 고전적인 최적화 기법을 LLM이라는 현대적 과제에 적용한 것은, 전통적 최적화 이론과 딥러닝의 융합 연구에 대한 새로운 가능성을 열어준다. ICML 2025에 게재가 확정된 이 연구는 향후 데이터셋 증류, 프라이버시 보존 학습, 그리고 데이터 효율적 LLM 학습이라는 세 가지 연구 분야의 교차점에서 핵심적인 참조 문헌이 될 것으로 기대된다.
산업적 관점에서도 GrADmm의 영향은 주목할 만하다. 기업 환경에서는 고객 데이터를 직접 LLM 학습에 사용하는 것이 GDPR 등 개인정보 보호 규정에 의해 제한될 수 있다. GrADmm은 이러한 규제 환경에서 합성 데이터를 통한 합법적이고 효과적인 모델 학습 경로를 제시한다. 또한 소규모 합성 데이터로도 효과적인 미세 조정이 가능하다는 결과는, 학습 인프라 비용의 절감에도 기여할 수 있다. 68개의 고품질 합성 예시로 수천 개의 실제 데이터와 유사한 성능을 달성할 수 있다면, 이는 학습 시간과 연산 비용을 크게 줄이는 것을 의미한다.
9. 요약 정리
- GrADmm은 LLM 미세 조정을 위한 합성 텍스트 생성에서 수렴성, 성능, 프라이버시에 대한 이론적 보장을 제공하는 최초의 방법론이다.
- 핵심 아이디어는 합성 데이터의 그래디언트가 실제 데이터의 그래디언트와 일치하도록 최적화하여, 합성 데이터로의 학습이 실제 데이터에 대한 손실을 직접 최소화하도록 유도하는 것이다.
- ADMM(교대 방향 승수법)을 활용하여 이산 제약 비볼록 최적화 문제를 연속 임베딩 공간에서의 근위 단계, 어휘 공간으로의 투영 단계, 이중 변수 업데이트의 세 단계로 분해하여 반복적으로 풀어낸다.
- Top-k 투영 기법이 L2 투영 대비 9.2%의 정확도 향상을 달성하며, 읽을 수 있고 문맥적으로 일관된 텍스트 생성에 핵심적인 역할을 한다.
- 데이터 부족 환경에서 단 5개의 실제 예시만으로 생성한 100개 합성 데이터가 실제 데이터 대비 최대 31.5%의 성능 향상을 달성한다.
- 대규모 데이터 기반 설정에서 GrADmm은 제로샷, 퓨샷 LLM 생성 방법 및 코어셋 선택 방법 대비 최대 13.1%의 성능 우위를 보이며, 프라이버시를 보존하는 유일한 방법이다.
- 마지막 레이어 그래디언트 매칭이 전체 그래디언트 매칭보다 더 효율적이면서도 동등하거나 우수한 성능을 보이며, 연산 비용을 크게 절감한다.
- Phi 모델로 생성된 합성 데이터가 Llama-3.2-1B와 OPT-1.3B로의 전이에도 효과적임을 확인하여, 합성 데이터의 범용성을 입증했다.
- 차분 프라이버시를 통해 $\varepsilon = 0.05$의 엄격한 프라이버시 설정에서도 대부분의 베이스라인보다 우수한 성능을 유지하며, 프라이버시-유용성 트레이드오프를 효과적으로 달성한다.
- 세 단계 필터링 전략을 통해 합성 데이터 수를 200개에서 68개로 66% 줄이면서도 1.9%의 정확도 향상을 달성하여, 양보다 질의 중요성을 입증했다.