[논문 리뷰]/[최신 논문] / [arXiv 2604.02324v1] GTI: 새 어휘 토큰을 사전학습 임베딩 공간에 정렬하는 생성형 추천의 초기화 전략.md

[arXiv 2604.02324v1] GTI: 새 어휘 토큰을 사전학습 임베딩 공간에 정렬하는 생성형 추천의 초기화 전략

조회

Grounded Token Initialization for New Vocabulary in LMs for Generative Recommendation

https://arxiv.org/abs/2604.02324v1

Daiwei Chen, Zhoutong Fu, Chengming Jiang, Haichao Zhang, Ran Zhou, Tan Wang, Chunnan Yao, Guoyao Li, Rui Cai, Yihan Cao, Ruijie Jiang, Fedor Borisyuk, Jianqiang Shen, Jingwei Wu, Ramya Korlakai Vinayak | University of Wisconsin-Madison, LinkedIn Corporation, Northeastern University, University of California Davis | arXiv:2604.02324v1 | 2026년 4월 | COLM 2026 계열 프리프린트


대규모 언어모델을 특정 도메인으로 확장할 때 가장 자주 쓰이는 방식 중 하나는 새로운 토큰을 어휘에 추가하는 것이다. 생성형 추천에서는 상품이나 후보자를 직접 텍스트로 분류하지 않고, 아이템을 의미론적 코드 시퀀스로 바꾼 뒤 모델이 그 코드를 생성하게 만든다. 이런 구성은 거대한 후보군 위에서 사용자-아이템 내적을 매번 계산하는 전통적 검색 시스템을 대체할 수 있다는 장점이 있지만, 동시에 사전학습 언어모델이 한 번도 본 적 없는 수천 개의 새 토큰을 다뤄야 한다는 부담을 만든다. 이 논문은 바로 그 지점, 즉 새 어휘의 초기화 방식 자체가 성능 병목일 수 있다는 문제의식에서 출발한다.

기존 실무에서는 새 토큰 임베딩을 기존 어휘 임베딩 평균으로 두는 mean initialization이 널리 쓰인다. 이유는 단순하다. 완전히 랜덤한 벡터보다는 사전학습 임베딩 분포 위에 놓이는 편이 안정적이고, 언어모델의 출력 분포를 과도하게 흔들지 않는다고 알려져 있기 때문이다. 하지만 논문은 이 선택이 모든 새 토큰을 사실상 같은 점에 몰아넣는다는 사실을 정면으로 지적한다. 초기 위치가 같으면 토큰 간 구별 정보가 사라지고, 이후 supervised fine-tuning만으로는 그 붕괴를 완전히 복구하기 어렵다. 저자들은 이 현상을 token-embedding misalignment로 정리하고, 초기화가 단순한 사소한 디테일이 아니라 전체 파이프라인의 의미 구조를 좌우하는 핵심 설계라고 주장한다.

이 문제를 해결하기 위해 제안된 방법이 GTI(Grounded Token Initialization)다. 핵심 아이디어는 새 토큰을 무작정 평균 벡터에 겹쳐 놓는 대신, 자연어 설명과 짝지어진 감독 신호를 활용해 사전학습 임베딩 공간 안의 구별 가능한 의미 위치로 먼저 배치한 뒤 본격적인 fine-tuning으로 넘어가는 것이다. 논문은 이를 Grounded Token Initialization Hypothesis라고 부른다. 즉, 새 토큰이 언어모델이 이미 익숙한 언어적 기하 구조 위에 의미 있게 꽂혀 있어야, 이후의 attention과 feed-forward 층도 그 토큰을 더 잘 활용할 수 있다는 가설이다.

흥미로운 점은 이 방법이 거대한 보조 모듈이나 복잡한 추가 목적함수를 요구하지 않는다는 사실이다. GTI 단계에서는 언어모델 본체를 얼리고 새 토큰 임베딩만 학습한다. 다시 말해 계산량을 크게 늘리지 않으면서도, 가장 문제가 되는 초기 조건을 직접 고친다. 생성형 추천처럼 Semantic ID를 다뤄야 하는 환경에서 특히 설득력이 큰 이유는, 이 토큰들이 단순한 분류 레이블이 아니라 RQ-VAE가 압축한 계층적 의미 구조를 담고 있기 때문이다. 평균 초기화가 이런 구조를 모두 지워 버린다면, 후속 학습이 해야 할 일은 단순 미세조정이 아니라 거의 재구성에 가까워진다.

GTI grounding stage overview

Figure 1: GTI grounding stage의 전체 개요

Figure 1은 GTI의 전체 흐름을 한 장으로 요약한다. 언어모델 백본과 기존 어휘 임베딩은 모두 고정하고, 새로 도입된 Semantic-ID 토큰 임베딩만 학습 대상으로 남긴다. 그 위에 텍스트 설명에서 SID를 예측하는 방향과, SID에서 설명을 복원하는 역방향 프롬프트를 함께 써서 양방향 정렬을 수행한다. 이 설계 덕분에 GTI는 새 토큰이 입력으로 읽힐 때와 출력으로 생성될 때 모두 의미 구조를 공유하도록 만든다.

1. 서론: 생성형 추천에서 드러난 새 어휘 초기화의 병목

논문이 겨냥하는 대표 응용은 generative retrieval이다. 전통적인 추천이나 검색 시스템은 사용자와 아이템을 각각 dense embedding으로 바꾸고, 대규모 후보 집합에서 내적을 통해 순위를 매긴다. 반면 생성형 추천은 아이템을 여러 단계의 이산 코드로 바꾼 뒤, 언어모델이 사용자 이력 또는 질의를 조건으로 그 코드를 순차적으로 생성하게 만든다. 이 구조는 추천을 일종의 시퀀스 생성 문제로 환원하기 때문에, 거대한 LLM을 추천 엔진으로 활용할 수 있는 길을 열어 준다. 동시에 각 코드 조각이 새로운 어휘 항목이 되므로, 새 토큰 초기화가 단순 전처리 문제가 아니라 모델 동작의 출발점이 된다.

저자들은 이 설정이 단순한 특수 사례가 아니라, 도메인별 기호를 LLM에 추가해야 하는 광범위한 상황을 대표한다고 본다. 예를 들어 상품 코드, 문서 코드, 전문가 시스템의 기호 토큰, 혹은 멀티모달 파이프라인에서 생성된 이산 시각 토큰도 모두 비슷한 문제를 겪을 수 있다. 사전학습 언어모델은 본래 자연어 단어와 구문에 최적화된 임베딩 공간을 가지고 있는데, 여기에 새 토큰을 대량으로 삽입하는 순간 기존 공간의 구조와 신입 토큰의 의미 구조가 서로 어긋난다. 논문은 이 어긋남을 세밀하게 보여 주는 실험을 통해, 후속 fine-tuning이 모든 문제를 자동으로 해결해 줄 것이라는 낙관을 반박한다.

특히 생성형 추천의 새 토큰은 의미를 거의 갖지 않는 임의 ID가 아니다. RQ-VAE가 아이템 표현을 계층적으로 양자화하면서 만들어 낸 코드이기 때문에, 같은 레벨의 코드끼리도 근접성과 군집 구조가 존재하고, 여러 레벨을 조합한 시퀀스는 아이템의 의미론적 위치를 담는다. 따라서 새 토큰 임베딩이 모두 동일한 평균 벡터에서 시작하면, 모델은 학습 초기에 서로 다른 아이템 조각을 동일한 기호처럼 읽는 상태로 출발하게 된다. 논문은 이 초기 붕괴가 이후에도 상당 부분 남아 있는지를 스펙트럼 분석과 코사인 유사도 행렬로 추적한다.

요약하면 서론의 핵심은 두 문장으로 정리된다. 첫째, 새 어휘 도입은 단순히 tokenizer를 바꾸는 일이 아니라 사전학습 임베딩 공간과 도메인 기호 사이의 정렬 문제다. 둘째, 이 정렬을 뒤로 미루고 mean initialization 후 SFT에만 맡기면, 언어모델이 이미 가진 일반 언어 지식을 새 토큰에 제대로 전이하지 못한다. GTI는 바로 이 두 지점을 정면에서 건드리는, 작지만 구조적으로 직접적인 수정이다.

  • 문제 설정: 생성형 추천에서 아이템을 Semantic-ID 시퀀스로 표현한다.
  • 기존 관행: 새 토큰은 기존 어휘 임베딩 평균으로 초기화한다.
  • 논문의 진단: 평균 초기화는 토큰 간 차이를 지우며 의미 붕괴를 유발한다.
  • 핵심 가설: 새 토큰을 먼저 언어적 의미 공간에 grounding하면 후속 학습이 더 잘 작동한다.

2. 배경 및 관련 연구: 어휘 확장, Semantic ID, 그리고 정렬의 실패

2.1 어휘 확장과 mean initialization의 구조적 한계

논문은 먼저 새 토큰 초기화에 널리 사용되는 평균 초기화 공식을 다시 쓴다. 사전학습 어휘를 $\mathcal{V}_{\mathrm{text}}$, 새 토큰 집합을 $\mathcal{V}_{\mathrm{SID}}$라고 하면, 모든 새 토큰 $c$의 초기 임베딩은 다음처럼 동일한 평균 벡터로 주어진다. $$\mathbf{e}_c := \frac{1}{|\mathcal{V}_{\mathrm{text}}|}\sum_{v\in\mathcal{V}_{\mathrm{text}}}\mathbf{e}_v, \quad \forall c\in\mathcal{V}_{\mathrm{SID}}.$$ 이 식은 새 토큰을 사전학습 분포 안쪽에 배치한다는 점에서는 안전해 보이지만, 동시에 새 토큰 전체를 한 점으로 수축시킨다. 서로 다른 SID가 같은 위치에서 출발하면 attention이 처음 보는 문맥에서 이들을 분리해 해석할 근거가 사라진다.

저자들은 평균 초기화가 여전히 널리 쓰이는 배경도 공정하게 설명한다. 랜덤 초기화는 사전학습 임베딩 공간과 전혀 상관없는 위치에 새 토큰을 놓기 때문에 더 불안정할 수 있다. 실제로 기존 연구는 mean initialization이 출력 확률 변화 측면에서 더 나은 KL 상한을 가진다고 지적해 왔다. 문제는 안정성 확보와 의미 구별 유지가 서로 다른 목표라는 점이다. 평균 초기화는 전자는 어느 정도 만족하지만 후자는 거의 완전히 포기한다. 논문이 강조하는 포인트는, 생성형 추천처럼 수천 개의 새로운 SID가 동시에 도입되는 환경에서는 이 손실이 누적되어 실제 검색 품질 차이로 이어진다는 사실이다.

또 하나의 비교 대상은 LC-Rec처럼 보조 과제를 추가하는 접근이다. LC-Rec 역시 mean initialization에서 출발하지만, fine-tuning 과정에 자연어 정렬을 돕는 multi-task objective를 넣어 의미 구조를 회복하려 한다. 이 방식은 완전히 무의미한 초기화보다 낫지만, 논문은 시점이 중요하다고 본다. 즉, 초기화 자체를 잘못해 놓고 나중 단계에서 보조 목적함수로 교정하려는 것보다, 애초에 새 토큰을 적절한 위치에 놓고 SFT를 시작하는 쪽이 더 직접적이라는 주장이다. 실험부의 LC-Rec 대 GTI 비교는 바로 이 차이를 보기 위한 통제 실험으로 설계되었다.

2.2 생성형 추천에서 Semantic ID가 하는 일

생성형 추천에서 아이템은 먼저 텍스트 설명이나 메타데이터에서 얻은 dense representation $\mathbf{z}_i\in\mathbb{R}^d$로 표현된다. 이후 RQ-VAE는 이를 여러 단계의 codebook으로 양자화해 $(c_1,\dots,c_L)$ 형태의 Semantic ID 시퀀스로 바꾼다. 논문은 이 과정을 다음처럼 쓴다. $$\mathbf{r}_1:=\mathbf{z}_i,\qquad c_l=\arg\min_k \|\mathbf{r}_l-\mathbf{q}^{(l)}_k\|_2,\qquad \mathbf{r}_{l+1}:=\mathbf{r}_l-\mathbf{q}^{(l)}_{c_l}.$$ 여기서 각 $c_l$은 해당 레벨 codebook의 항목을 뜻하고, 전체 시퀀스가 최종 아이템 식별자로 작동한다. 중요한 점은 이 코드들이 단순한 정수 인덱스가 아니라, 아이템 의미를 압축한 계층적 표현이라는 사실이다.

이 구조 덕분에 추천은 사용자의 상호작용 이력이나 검색 질의 $\mathbf{x}$를 입력으로 받아 SID 시퀀스를 autoregressive하게 생성하는 문제로 바뀐다. 논문은 이를 $$P_\theta(c_1,\ldots,c_L\mid \mathbf{x})=\prod_{t=1}^{L}P_\theta(c_t\mid c_{<t},\mathbf{x})$$로 정식화한다. 이렇게 되면 기존의 거대한 candidate scoring 대신, 언어모델이 다음 토큰 예측 능력으로 적절한 아이템 코드를 만들어 내는 것이 목표가 된다. 생성형 추천이 최근 산업계와 학계에서 동시에 주목받는 이유도 여기에 있다. 모델 크기와 데이터가 커질수록 성능 향상 여지가 있으며, 추천 문제를 언어모델 스케일링의 연장선에서 다룰 수 있기 때문이다.

하지만 이 설정은 동시에 새 토큰 임베딩 품질에 극도로 민감하다. SID 시퀀스는 모델이 직접 생성하고 읽어야 하는 토큰이므로, 입력 임베딩과 출력 헤드가 공유되는 tied embedding 구조 아래에서는 초기화된 새 임베딩이 읽기와 생성 양쪽을 동시에 결정한다. 논문은 바로 이 점을 이용해 GTI가 효과를 내는 이유를 설명한다. 새 토큰 임베딩을 grounding stage에서 먼저 정렬해 두면, 모델은 해당 토큰을 문맥 속에서 더 자연스럽게 해석하고, 동시에 출력에서도 더 분별력 있게 생성할 수 있다.

Mean initialization collapse and GTI grounding

Figure 2: 평균 초기화의 collapse와 GTI의 grounding 효과

Figure 2는 논문의 문제 진단과 해결 전략을 가장 선명하게 보여 준다. 왼쪽 패널은 평균 초기화가 모든 SID 토큰을 사실상 동일한 위치로 보낸다는 점을 개념적으로 묘사하고, 오른쪽 패널은 GTI가 새 토큰을 서로 다른 영역으로 퍼뜨려 배치하는 모습을 보여 준다. 아래쪽의 스펙트럼과 유사도 구조까지 함께 보면, 단순히 초기 점이 흩어진다는 수준이 아니라 fine-tuning 이후에도 더 높은 유효 랭크와 계층적 블록 구조가 유지된다는 것이 핵심이다.

2.3 관련 연구와 이 논문의 차별점

관련 연구 관점에서 보면 이 논문은 세 흐름이 만나는 지점에 있다. 첫째는 language model vocabulary extension 연구다. 새로운 토큰을 사전학습 모델에 넣는 문제는 도구 사용, 멀티모달 토큰, 특수 도메인 용어 확장 등 다양한 문맥에서 반복되어 왔다. 둘째는 generative recommendation 연구다. TIGER와 후속 연구들은 RQ-VAE나 semantic code를 이용해 추천을 생성 문제로 변환했고, LC-Rec는 자연어 alignment 보조 과제로 이를 보완했다. 셋째는 표현 기하와 collapse를 다루는 분석 연구다. 임베딩의 유효 랭크, 코사인 구조, 스펙트럼 붕괴가 downstream 성능과 연결된다는 문제의식이 여기에 겹친다.

이 논문의 차별점은 새로운 거대 모델을 제안하는 데 있지 않다. 오히려 가장 작고 국소적인 수정으로, 기존 파이프라인이 놓치고 있던 초기 조건 문제를 정면으로 다룬다. LC-Rec가 auxiliary task를 fine-tuning 단계에 얹는다면, GTI는 본 학습 전에 grounding stage를 삽입한다. 랜덤 초기화가 token distinction은 주지만 사전학습 공간과 단절된다면, GTI는 distinction과 manifold coherence를 동시에 노린다. 그래서 이 논문의 기여는 특정 추천 벤치마크에 국한된 성능 향상보다, 새 어휘 도입을 보는 관점을 “후처리되는 잡음”에서 “직접 설계해야 하는 정렬 문제”로 바꿔 놓는 데 있다.

  • 관련 흐름 1: 사전학습 언어모델의 새 어휘 확장
  • 관련 흐름 2: RQ-VAE 기반 생성형 추천과 Semantic ID
  • 관련 흐름 3: 표현 붕괴와 임베딩 기하 분석
  • 이 논문의 차별점: 보조 목적함수를 늘리기보다 초기화 시점을 직접 개입한다.

3. 방법론: Grounded Token Initialization의 설계와 학습 절차

3.1 GTI의 핵심 아이디어와 최적화 대상

GTI는 구현 자체는 단순하지만, 무엇을 언제 학습하느냐를 매우 엄격하게 제한한다. 확장된 어휘를 $\mathcal{V}=\mathcal{V}_{\text{text}}\cup\mathcal{V}_{\text{new}}$라고 놓고, 입력 임베딩 행렬 $E$를 기존 어휘 부분 $E_{\text{text}}$와 새 토큰 부분 $E_{\text{new}}$로 나누면, grounding stage에서 업데이트되는 것은 오직 $E_{\text{new}}$뿐이다. 백본 transformer, 기존 텍스트 임베딩, lm head는 모두 고정된다. 논문은 이를 통해 새 토큰 임베딩이 기존 언어 공간 안에서 의미적으로 적절한 위치를 찾게 하고, 그 다음 단계에서만 전체 파라미터를 풀어 downstream task에 맞춘 적응을 수행한다.

grounding 데이터는 각 도메인 엔티티의 자연어 설명 $x_i$와 해당 새 토큰 시퀀스 $y_i=(c_{i,1},\dots,c_{i,L})$의 쌍으로 구성된다. 생성형 추천의 경우 $x_i$는 아이템 제목과 설명이고, $y_i$는 해당 아이템의 Semantic ID다. 논문은 여기에 역방향 쌍도 함께 넣는다. 즉 텍스트에서 SID를 생성하는 방향뿐 아니라, SID를 보고 제목이나 설명을 복원하는 방향도 학습한다. 이 양방향 구성은 새 토큰이 입력과 출력 모두에서 의미를 담도록 만드는 역할을 한다. tied embedding 구조에서 이 선택은 특히 중요하다.

최적화 식은 매우 직접적이다. grounding corpus $\mathcal{D}_{\text{ground}}$에 대해, 프롬프트된 입력에서 목표 시퀀스를 생성하도록 하는 음의 로그우도를 $E_{\text{new}}$에 대해서만 최소화한다. $$\min_{E_{\text{new}}}\sum_{(x,y)\in\mathcal{D}_{\text{ground}}}\sum_{t=1}^{|y|}-\log P_\theta\big(y_t\mid y_{<t}, \texttt{prompt}(x)\big).$$ 이때 $\theta$는 모델 전체 파라미터를 뜻하지만, 실제 업데이트는 새 임베딩 행에만 걸린다. 결과적으로 GTI는 새로운 토큰을 자연어 설명과 연결된 의미 있는 좌표로 먼저 옮긴 뒤, 그 좌표를 downstream SFT의 초기값으로 넘긴다.

3.2 프롬프트 설계와 양방향 grounding

논문 부록은 GTI가 과도하게 복잡한 프롬프트 공학에 의존하지 않는다는 점도 보여 준다. 대표적인 정방향 프롬프트는 “이 제목과 설명을 가진 아이템은 무엇인가?”라는 질문 뒤에 해당 ITEM SEMANTIC_ID를 출력하게 하는 형태다. 반대 방향에서는 “이 Semantic ID가 어떤 제목과 설명을 가지는가?”를 묻는다. 저자들은 제목만 사용한 프롬프트, 설명만 사용한 프롬프트, 제목+설명을 합친 프롬프트를 모두 활용한다. 이 구성은 새 토큰이 단순 식별자 수준을 넘어, 자연어 의미와 연결된 코드라는 점을 모델에 반복해서 주입한다.

양방향 grounding이 중요한 이유는 단순한 data augmentation보다 깊다. 정방향만 학습하면 새 토큰은 자연어 문맥을 보고 생성되는 출력 기호로만 다뤄질 수 있다. 반대로 역방향까지 포함하면, 모델은 새 토큰을 입력 토큰으로 읽을 때도 해당 토큰 주변에 어떤 의미가 붙어야 하는지를 같이 배운다. 논문은 이 점이 pairwise similarity 구조와 RSA 결과에 반영된다고 해석한다. 즉, GTI의 성능 향상은 단순히 초기 손실을 줄여서가 아니라, 새 토큰을 양방향 의미 매개체로 정렬한 데서 나온다는 것이다.

또한 이 설계는 LC-Rec와의 차이를 명확하게 만든다. LC-Rec는 multi-task SFT 동안 auxiliary language alignment를 섞어 넣지만, GTI는 full fine-tuning 전 단계에서 새 임베딩만 대상으로 한다. 말하자면 LC-Rec가 “학습 도중 보정”이라면, GTI는 “학습 시작점 자체를 재배치”하는 방식이다. 실험 결과에서 GTI가 LC-Rec보다 추가 이득을 보인다면, 이는 단순히 더 많은 언어 감독을 넣었기 때문이 아니라, 언제 그 감독을 적용했는지가 중요했다는 뜻이 된다.

3.3 알고리즘 관점에서 본 GTI

부록의 pseudo-code는 GTI를 매우 투명하게 드러낸다. 먼저 모델 전체 파라미터를 얼린 뒤, 새 토큰 인덱스 집합 $\mathcal{T}$에 해당하는 행만 1인 binary mask를 만든다. 이후 각 배치에 대해 일반적인 LM loss를 계산하되, gradient update는 $\nabla E\odot \mathbf{M}$ 형태로 마스킹해서 새 임베딩 행에만 적용한다. 이 절차는 구현 난도가 낮고 기존 Hugging Face/TRL 기반 학습 스택에 바로 얹을 수 있다. 논문이 “가벼운 grounding stage”라고 부르는 이유가 여기에 있다.

흥미로운 점은 GTI가 새 토큰 임베딩을 단독으로 학습하면서도, 사실상 사전학습 언어모델의 전체 구조를 활용하고 있다는 것이다. 백본을 얼린다는 것은 기존 attention, MLP, positional pathway가 이미 학습한 언어적 구조를 바꾸지 않는다는 뜻이다. 따라서 GTI는 새 토큰을 그 구조에 맞는 위치로 끼워 넣는 작업에 가깝다. 논문은 이것이 곧 general-purpose knowledge transfer를 더 잘 일으키는 이유라고 설명한다. 새 토큰이 기존 어휘와 적절한 친연성을 가지면, 백본은 추가 대수술 없이도 그 토큰을 처리할 수 있다.

구성 요소 GTI에서 하는 일 의도
백본 언어모델 고정 사전학습된 언어적 기하와 문맥 처리 능력 보존
기존 텍스트 어휘 임베딩 고정 새 토큰이 기존 공간 쪽으로 정렬되도록 기준점 유지
새 Semantic-ID 임베딩 grounding stage에서만 업데이트 의미 있는 초기 위치 확보
프롬프트 데이터 텍스트→SID, SID→텍스트 양방향 입력/출력 양쪽에서 의미 결속 형성
후속 단계 전체 파라미터를 풀고 SFT 정렬된 초기 상태에서 downstream 최적화 수행

이 표는 논문의 알고리즘을 실제 시스템 관점으로 옮겨 적은 것이다. GTI의 핵심은 무엇을 더 많이 학습하느냐보다, 어떤 파라미터를 언제 고정하고 언제 풀어 주느냐에 있다. 그 결과 복잡한 추가 모듈 없이도 새로운 토큰의 의미 구조를 사전학습 공간에 먼저 연결할 수 있고, 이후 SFT는 붕괴 복구가 아니라 본래 과제 적응에 더 집중할 수 있게 된다.

  • 정방향 grounding: 제목/설명에서 Semantic-ID 시퀀스를 생성
  • 역방향 grounding: Semantic-ID에서 제목/설명을 복원
  • 학습 파라미터: grounding 단계에서는 새 임베딩만 업데이트
  • 후속 학습: grounding 완료 후 일반 SFT 절차로 전체 모델 fine-tuning

4. 실험 설정: 산업 검색과 공개 벤치마크에서 본 초기화 효과

4.1 데이터셋 및 벤치마크: 산업 후보 검색과 Vibrent Clothes Rental

실험은 서로 성격이 다른 두 환경에서 수행된다. 첫 번째는 산업 규모 candidate retrieval 데이터셋이다. 세계적인 채용 플랫폼의 job requirement–candidate 쌍으로 구성되며, 내부 LLM judge가 각 쌍을 good match, good & maybe match, not match 세 단계로 분류한다. 저자들은 privacy와 data-sharing 제약 때문에 이 데이터셋에서는 절대 수치 대신 baseline 대비 상대 향상률만 보고한다. 대신 여러 cutoff와 relevance 기준에서 일관된 개선이 있는지를 중점적으로 살핀다.

두 번째는 공개 벤치마크인 Vibrent Clothes Rental이다. 이 데이터셋은 익명화된 사용자-의류 대여 기록을 포함하며, 논문은 이를 생성형 retrieval 문제로 재구성한다. 사용자를 query, 의류 아이템을 candidate로 두고, 과거 대여 상호작용을 positive relevance signal로 간주한다. 공개 데이터셋을 함께 사용하는 이유는 명확하다. 산업 데이터만으로는 방법이 특정 proprietary 분포에 과적합한 것처럼 보일 수 있기 때문에, 공개 환경에서도 GTI의 효과가 유지되는지를 검증해야 하기 때문이다.

벤치마크 질의/후보 정의 보고 방식 논문에서 확인하려는 것
산업 candidate retrieval job requirement 대 candidate SFT baseline 대비 상대 향상률 실서비스 규모에서 GTI의 직접적 uplift
Vibrent Clothes Rental 사용자 이력 대 의류 아이템 상대 향상률과 절대 Recall/NDCG 공개 데이터에서의 일반화 및 controlled comparison

이 표에서 보듯 실험 설계는 산업성과 일반화를 동시에 확보하려는 방향으로 짜여 있다. 산업 데이터는 실전 relevance 정의를 반영하고, 공개 데이터는 재현 가능한 수치 비교를 제공한다. GTI가 두 환경 모두에서 개선된다면, 초기화 병목이 특정 서비스 도메인에 국한되지 않는다는 논거가 강해진다.

4.2 구현 세부사항: Qwen3-0.6B, RQ-VAE, 그리고 H100 4장

모든 방법은 동일한 backbone을 사용한다. 언어모델은 Qwen3-0.6B이며, GTI의 grounding stage는 batch size 128로 8,000 step 동안 진행되고, 이어서 모든 파라미터를 풀고 같은 batch size로 8,000 step을 더 학습한 뒤, baseline과 동일한 SFT 절차를 수행한다. 실험은 NVIDIA H100 4장에서 진행된다. 이처럼 backbone과 하드웨어를 통일한 것은 성능 차이를 모델 규모나 학습 예산이 아니라 오직 새 토큰을 도입하는 방식에 귀속시키기 위한 설정이다.

산업 데이터에서는 후보 의미 표현을 얻기 위해 Mistral-E5를 two-tower 구조로 미세조정해 1024차원 embedding을 만든다. 여기에 대해 RQ-VAE는 $L=3$ codebook level과 레벨당 $K=8{,}192$ 코드를 사용한다. 이후 SFT baseline은 batch size 512로 1,600 step 학습한다. 공개 Vibrent 데이터에서는 Qwen3-Embedding-0.6B로 1024차원 item representation을 만들고, 3층 MLP encoder-decoder와 ReLU를 가진 RQ-VAE를 사용한다. 이 경우는 $L=4$, 레벨당 $K=256$, code dimension 32이며, codebook 활용의 균형을 위해 diversity regularizer를 넣고 20K epoch 동안 RQ-VAE를 학습한다.

부록에는 더 구체적인 구현 요소도 제시된다. 공개 데이터 쪽 RQ-VAE encoder의 hidden dimension은 [1024, 512, 256]이고 dropout은 0.1이다. 언어모델 적응에는 QLoRA가 사용되며 rank 8, alpha 32, dropout 0.05 설정으로 q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj를 대상으로 한다. 이 세부사항은 논문의 메시지를 더 분명히 만든다. GTI는 거대한 추가 파라미터를 넣어 얻은 이득이 아니라, 동일 backbone과 비교적 표준적인 미세조정 스택 위에서 얻은 개선이다.

항목 산업 데이터 설정 공개 Vibrent 설정
LLM backbone Qwen3-0.6B Qwen3-0.6B
semantic encoder Mistral-E5 two-tower, 1024차원 Qwen3-Embedding-0.6B, 1024차원
RQ-VAE $L=3$, $K=8192$ 3-layer MLP, $L=4$, $K=256$, code dim 32
grounding stage 8,000 step, batch 128 8,000 step, batch 128
후속 학습 unfreeze 8,000 step 후 SFT, baseline SFT 1,600 step 동일 절차, leave-one-out 평가
하드웨어 NVIDIA H100 4장 NVIDIA H100 4장

실험 설정 표를 보면 GTI는 계산량 측면에서 완전히 공짜는 아니지만, 기존 파이프라인에 비해 과도한 비용을 요구하지도 않는다. 핵심은 ground stage가 full-model adaptation보다 훨씬 좁은 파라미터 집합에만 작용한다는 점이다. 따라서 실제 시스템에서는 이미 존재하는 추천 LLM 스택에 사전단 하나를 추가하는 수준으로 도입할 수 있으며, 이는 실용성을 강조하는 논문의 톤과도 일치한다.

여기서 특히 주목할 만한 부분은 학습 예산의 배치 방식이다. GTI는 모델 전체를 오래 다시 학습하는 대신, 새 어휘 행만 조정하는 짧은 준비 단계를 먼저 둔다. 이는 운영 환경에서 새로운 아이템 taxonomy나 codebook이 주기적으로 갱신될 때 유용하다. 전체 추천 모델을 반복적으로 크게 흔드는 대신, 먼저 새 토큰만 의미 공간에 정렬해 두고 나중에 task-specific adaptation을 수행하면, 학습 안정성과 배포 주기를 함께 관리하기가 더 쉬워진다. 논문이 H100 4장과 표준적인 QLoRA 설정을 명시한 것도, 이 절차가 과도한 인프라 전용 해법이 아니라는 점을 강조하려는 의도로 읽힌다.

또한 산업 데이터와 공개 데이터가 서로 다른 semantic encoder와 다른 RQ-VAE 하이퍼파라미터를 쓰는데도 GTI를 같은 절차로 적용했다는 사실은 중요하다. 이는 GTI가 특정 codebook 크기나 특정 encoder에만 맞는 편법이 아니라, 새 토큰이 언어모델에 들어오기 직전의 정렬 단계라는 더 추상적인 위치를 차지하고 있음을 보여 준다. 다시 말해 upstream에서 어떤 임베딩 모델을 쓰든, downstream에서 어떤 ranking objective를 얹든, 그 사이의 vocabulary hand-off가 불안정하면 성능이 깎일 수 있고 GTI는 바로 그 hand-off를 다듬는다. 실무적으로는 검색 시스템의 여러 구성요소를 모두 다시 설계하지 않고도 개입할 수 있는 지점이 생긴다는 뜻이다.

4.3 베이스라인과 평가 지표: 무엇을 비교하고 어떻게 해석하는가

베이스라인은 세 가지다. 첫째 Vanilla SFT는 mean initialization 후 downstream supervised fine-tuning만 수행한다. 둘째 LC-Rec는 같은 mean initialization에서 시작하지만, fine-tuning 중 auxiliary language alignment 목적을 추가한다. 셋째가 GTI다. 모든 방법이 동일한 backbone과 동일한 RQ-VAE 구조를 공유하기 때문에, 비교의 초점은 오직 “새 토큰을 어떤 상태에서 fine-tuning에 넘기느냐”로 모아진다. 이 설정은 GTI의 장점을 과장하지 않으면서도, 초기화가 실제로 독립적 병목인지 검증하게 해 준다.

평가 지표는 추천 문제에서 익숙한 Precision@K, Recall@K, NDCG@K다. 산업 데이터는 평가 query로 200개의 job을 샘플링해, 각 job에 대해 200 candidate를 검색한다. 공개 Vibrent는 표준 leave-one-out 분할을 쓴다. 논문은 산업 데이터에서는 privacy 제약 때문에 절대 성능을 감추고 상대 향상률만 제시하지만, 이는 오히려 GTI의 기여를 보기에 적절한 면도 있다. baseline을 0으로 두고 LC-Rec와 GTI의 추가 개선을 보면, grounding stage가 독립적으로 얼마나 uplift를 만드는지 직접 읽어낼 수 있기 때문이다.

  • Baseline: mean initialization + vanilla SFT
  • LC-Rec: mean initialization + multi-task SFT
  • GTI: grounding stage 후 downstream SFT
  • 핵심 비교 질문: auxiliary objective보다 initialization correction이 더 중요한가

5. 주요 실험 결과: 산업 검색 성능과 공개 데이터 일반화

5.1 산업 규모 candidate retrieval: Precision과 NDCG에서 나타난 일관된 우위

산업 데이터 결과는 논문의 메시지를 가장 직접적으로 뒷받침한다. strict한 Good Match 기준에서, GTI+Multi-task SFT는 baseline 대비 P@5에서 +21.63%의 상대 향상을 기록한다. 같은 조건의 LC-Rec는 +6.38%에 그치므로, GTI가 만들어 낸 추가 이득은 +15.25%다. P@10에서는 +13.59% 대 +5.20%, P@20에서는 +8.16% 대 +3.87%로 차이가 이어진다. 더 완화된 Good & Maybe Match 기준에서도 P@5는 +15.83% 대 +5.63%, P@10은 +10.89% 대 +5.35%다. 즉, relevance 정의가 바뀌어도 GTI의 우위는 유지된다.

NDCG에서도 같은 패턴이 반복된다. 산업 데이터의 composite NDCG@5는 GTI가 baseline 대비 +17.88%, LC-Rec는 +6.94%를 기록해 extra gain이 +10.94%다. NDCG@10, @20, @50, @100으로 내려가도 GTI의 추가 이득은 각각 +7.65%, +4.96%, +3.04%, +1.88%로 남아 있다. 절대적인 개선 폭이 작은 K에서 가장 크고, 후보 폭이 넓어질수록 줄어드는 것은 추천 시스템에서 자연스러운 현상이다. 중요한 것은 컷오프가 커져도 향상 방향이 뒤집히지 않는다는 점이다. 이는 GTI가 상위 몇 개만 운 좋게 맞춘 것이 아니라, ranking quality 자체를 전반적으로 끌어올렸다는 해석을 가능하게 한다.

방법 Good Match P@5 P@10 P@20 Good&Maybe P@5 P@10
MI + Vanilla SFT 0.00% 0.00% 0.00% 0.00% 0.00%
MI + Multi-task SFT (LC-Rec) +6.38% +5.20% +3.87% +5.63% +5.35%
GTI + Multi-task SFT +21.63% +13.59% +8.16% +15.83% +10.89%
GTI extra gain over LC-Rec +15.25% +8.39% +4.29% +10.20% +5.54%

이 표는 Table 1의 핵심 수치만 추려 재구성한 것이다. 가장 눈에 띄는 특징은 GTI의 효과가 작은 K에서 특히 크게 나타난다는 점이다. 추천의 상위 랭크는 실제 사용자 경험과 직접 연결되기 때문에, P@5나 NDCG@5 개선은 단순한 수치 상승 이상의 의미를 가진다. 동시에 중간과 큰 cutoff에서도 성능 우위가 유지되므로, GTI가 일부 극단적 케이스만 개선하는 기법이 아니라는 해석이 가능하다.

Industrial relative gains by candidate pool size

Figure 3: 산업 데이터에서 candidate pool size 변화에 따른 상대 성능 향상

Figure 3은 candidate pool size를 바꿔도 GTI의 우세가 유지된다는 점을 보여 준다. Good Match, Good & Maybe Match, Composite NDCG 모두에서 GTI 곡선이 LC-Rec와 baseline 위에 놓이며, 특히 작은 K에서 개선 폭이 가장 크다. shaded area는 반복 실험 간 변동성을 뜻하지만, 곡선 간 간격이 전반적으로 유지되기 때문에 GTI의 이득을 단일 seed 효과로 보기 어렵다. 추천 시스템 관점에서는 상위 몇 개 후보의 정밀도가 높을수록 실제 활용 가치가 크므로, 이 그래프는 GTI의 실무적 설득력을 보강한다.

방법 NDCG@5 NDCG@10 NDCG@20 NDCG@50 NDCG@100
MI + Vanilla SFT 0.00% 0.00% 0.00% 0.00% 0.00%
MI + Multi-task SFT (LC-Rec) +6.94% +4.38% +1.94% +1.95% +1.01%
GTI + Multi-task SFT +17.88% +12.03% +6.90% +4.99% +2.89%
GTI extra gain over LC-Rec +10.94% +7.65% +4.96% +3.04% +1.88%

Table 2의 핵심은 GTI가 정밀도뿐 아니라 ranking quality 지표에서도 우수하다는 점이다. NDCG는 상위 랭크의 relevance를 더 강하게 반영하므로, 이 지표에서의 개선은 추천 후보의 순서 자체가 더 나아졌음을 시사한다. 논문은 이것을 grounding이 단순한 token identity disambiguation을 넘어서, 실제 의미적 ranking 구조까지 보존했다는 근거로 해석한다.

5.2 공개 Vibrent 데이터: multi-task 없이도 나타나는 일반화 효과

공개 Vibrent 데이터에서는 더 흥미로운 비교가 가능하다. 여기서 논문은 GTI + Vanilla SFTLC-Rec를 직접 비교한다. 즉 GTI는 grounding stage만 추가하고 downstream에서는 추가 auxiliary objective 없이 vanilla SFT를 수행한다. 그럼에도 Recall@20에서 GTI는 baseline 대비 +26.02%, LC-Rec는 +13.41%다. Recall@10은 +22.03% 대 +11.86%, Recall@50은 +21.55% 대 +12.03%, Recall@100은 +18.54% 대 +15.73%다. multi-task objective를 후속 학습에 넣지 않아도 GTI가 더 높은 재현율을 보인다는 점은, 성능 향상의 핵심이 보조 과제 자체가 아니라 초기 grounding 단계에 있다는 논문의 해석을 강하게 밀어 준다.

NDCG에서는 양상이 조금 더 미묘하다. GTI는 NDCG@5에서 -5.19%로 baseline보다 약간 낮지만, NDCG@20에서는 +12.23%, NDCG@50에서는 +12.83%로 가장 높다. LC-Rec는 NDCG@5와 @10, @100에서 우세하다. 이 결과는 GTI가 공개 데이터에서 항상 모든 지표를 압도하는 것은 아니라는 사실을 보여 준다. 그러나 논문은 이를 오히려 솔직한 근거로 사용한다. GTI가 특히 후보 회수 능력을 크게 개선하며, 일부 저차 cutoff의 ranking refinement는 multi-task objective가 여전히 도움이 될 수 있다는 것이다. 즉 GTI는 LC-Rec를 완전히 대체한다기보다, 초기화 병목을 해결하는 독립적 축으로 읽는 편이 더 정확하다.

방법 Recall@5 Recall@10 Recall@20 NDCG@20 NDCG@50
MI + Vanilla SFT 0.00% 0.00% 0.00% 0.00% 0.00%
MI + Multi-task SFT (LC-Rec) +7.69% +11.86% +13.41% +11.30% +11.18%
GTI + Vanilla SFT +1.71% +22.03% +26.02% +12.23% +12.83%

이 표는 Table 3의 상대 향상률 중 공개 데이터에서 논문이 강조하는 부분을 요약한 것이다. 특히 Recall 지표가 더 크게 오르는 현상은 GTI가 아이템 코드 간 의미적 혼동을 줄여 더 많은 정답 후보를 상위권에 끌어오는 데 유리하다는 해석과 맞닿는다. 생성형 retrieval 관점에서 보면 이는 모델이 올바른 SID 경로로 진입할 확률을 높였다는 뜻이기도 하다.

Public dataset relative gains by K

Figure 4: 공개 데이터에서 cutoff 변화에 따른 Recall/NDCG 상대 향상

Figure 4는 공개 데이터에서 cutoff를 움직였을 때 GTI의 이득이 어떻게 변하는지 보여 준다. Recall 곡선에서는 GTI가 중간 이상 cutoff에서 LC-Rec보다 확실히 우세하고, NDCG에서는 저차 cutoff에서 비슷하거나 다소 뒤질 수 있지만 중간 영역에서 다시 앞선다. 이 그림은 GTI가 “항상 모든 지표를 전면 장악”하는 방식이 아니라, 초기 의미 구조를 복구해 retrieval coverage를 넓히는 방향으로 특히 강하다는 점을 시각적으로 드러낸다.

이 결과는 생성형 retrieval의 디코딩 관점에서도 해석할 수 있다. 아이템이 여러 단계 Semantic-ID 시퀀스로 표현될 때, 앞쪽 코드가 잘못 선택되면 뒤쪽 토큰이 아무리 좋아도 전체 아이템 경로가 엇나갈 가능성이 높다. GTI가 Recall@10과 Recall@20에서 큰 이득을 보인다는 사실은, 모델이 초기에 올바른 코드 군집으로 진입할 확률을 높였다는 정황과 잘 맞아떨어진다. 반면 NDCG@5처럼 극단적으로 짧은 cutoff에서 항상 이기지 못하는 이유는, 올바른 군집에 들어간 뒤 그 안에서 세밀한 순서를 조정하는 문제는 여전히 downstream objective와 rank calibration의 영향을 강하게 받기 때문으로 읽을 수 있다.

즉 공개 데이터 결과는 GTI의 한계와 강점을 동시에 보여 준다. GTI는 retrieval funnel의 앞단, 다시 말해 "정답 후보를 충분히 놓치지 않고 회수하는 단계"를 크게 개선한다. 이 덕분에 중간 K 이상의 Recall과 NDCG가 높아진다. 그러나 가장 짧은 K에서의 미세한 순서 최적화는 auxiliary objective나 추가 ranking loss가 더 잘 담당할 수 있다. 논문이 GTI와 LC-Rec를 경쟁 기법으로만 제시하면서도, 결과 해석에서는 둘이 서로 다른 실패 모드를 줄인다고 읽히는 이유가 여기에 있다. 초기화 정렬과 후속 랭킹 정렬을 분리해서 보는 관점이 이 논문의 중요한 해석 프레임이다.

방법 Recall@5 Recall@10 Recall@20 Recall@50 Recall@100
MI + Vanilla SFT 0.0226 0.0342 0.0475 0.0771 0.1031
MI + Multi-task SFT (LC-Rec) 0.0243 0.0382 0.0539 0.0863 0.1194
GTI + Vanilla SFT 0.0230 0.0417 0.0599 0.0937 0.1222

부록 Table 4의 절대 Recall 수치는 GTI의 장점을 더 직관적으로 보이게 한다. LC-Rec가 Recall@5에서 0.0243으로 가장 높지만, GTI는 Recall@10부터 0.0417, 0.0599, 0.0937, 0.1222로 모두 최고다. 이는 GTI가 사용자의 다음 아이템 후보를 더 넓고 안정적으로 회수한다는 뜻이며, 공개 데이터에서도 산업 데이터와 유사한 방향성이 유지된다는 점에서 일반화 근거로 충분하다.

방법 NDCG@5 NDCG@10 NDCG@20 NDCG@50 NDCG@100
MI + Vanilla SFT 0.0150 0.0188 0.0222 0.0280 0.0322
MI + Multi-task SFT (LC-Rec) 0.0163 0.0208 0.0247 0.0311 0.0365
GTI + Vanilla SFT 0.0143 0.0203 0.0249 0.0316 0.0362

절대 NDCG에서는 LC-Rec와 GTI가 서로 다른 강점을 보인다. LC-Rec는 NDCG@5, @10, @100에서 약간 앞서고, GTI는 NDCG@20과 @50에서 가장 높다. 이 패턴은 GTI가 초저차 정밀 순위보다는 더 넓은 중간 구간에서 의미 구조를 안정적으로 보존하고 있다는 해석과 잘 맞는다. 논문이 GTI를 전능한 단일 해법으로 포장하지 않고, 초기화 품질이 독립적으로 중요한 축임을 보여 주는 증거로 사용하는 이유도 여기에 있다.

5.3 결과의 해석: 왜 GTI는 Recall에서 특히 강한가

산업 데이터와 공개 데이터 결과를 함께 보면 GTI의 개선은 단순히 평균적인 점수 상승이 아니라, retrieval 파이프라인의 실패 양상을 바꾸는 방향으로 읽힌다. 공개 Vibrent에서 GTI가 Recall@10 이상에서 크게 앞서는 반면, NDCG@5 같은 극저차 순위에서는 LC-Rec가 근소하게 우위인 구간이 있다는 점이 대표적이다. 이는 GTI가 먼저 올바른 semantic branch로 진입할 확률을 높이고, 그 이후 세밀한 순위 미세조정은 다른 목적함수의 도움을 더 받을 수 있음을 뜻한다. 생성형 retrieval에서 앞단의 토큰 하나가 틀리면 전체 코드가 무너질 수 있기 때문에, 초기 semantic separation이 recall과 coverage를 먼저 끌어올리는 현상은 충분히 자연스럽다.

산업 데이터의 P@5와 NDCG@5에서 GTI가 큰 폭으로 이기는 것은 또 다른 해석을 가능하게 한다. 산업 검색은 relevance 기준이 공개 데이터보다 더 구조적이고, candidate space도 훨씬 복잡할 가능성이 높다. 이런 환경에서는 새 토큰이 서로 섞여 있는 상태에서 출발하면 추천 혹은 검색 모델이 상위 후보를 잘못 묶어 버릴 위험이 커진다. GTI가 그 문제를 줄이면, 작은 K에서의 precision과 ranking quality가 동시에 개선될 수 있다. 반면 공개 Vibrent는 도메인 규모가 상대적으로 작고 아이템 설명도 비교적 균일할 수 있어, multi-task objective가 low-K ordering을 보정하는 효과가 더 잘 드러났을 가능성이 있다. 즉 데이터 분포 차이까지 고려하면, GTI와 LC-Rec의 상대적 장단점은 서로 모순이라기보다 각 데이터셋의 구조를 반영한 결과에 가깝다.

이런 관점은 실제 시스템 설계에도 도움이 된다. 만약 운영 환경에서 문제가 “정답 후보 자체를 못 찾는다”에 가깝다면 GTI 같은 grounding 기반 초기화가 더 직접적인 해법일 수 있고, 반대로 “정답 후보는 찾지만 최상위 몇 개 순서가 아쉽다”라면 ranking-aware objective가 더 중요할 수 있다. 논문은 두 문제를 구분해서 보여 준다. GTI는 새 어휘가 언어모델 내부에 들어오는 순간의 구조적 손상을 줄이고, 그 결과 더 많은 정답 후보를 올바른 semantic neighborhood 안에 배치하게 만든다. 이는 결국 어휘 확장 문제를 단일 메트릭 최적화가 아니라, token geometry와 ranking behavior의 연쇄 관계로 보게 만든다.

또 하나 주목할 점은 GTI가 baseline 대비 개선뿐 아니라, LC-Rec 대비 추가 이득(extra gain)을 명시적으로 제시한다는 것이다. Table 1과 Table 2의 회색 행은 매우 중요하다. 예를 들어 산업 데이터 Good Match P@5에서 GTI의 extra gain은 +15.25%, NDCG@5에서는 +10.94%다. 이는 “언어 감독을 넣었기 때문”이 아니라, 그 감독을 초기화 단계에서 사용했기 때문에 생긴 차이라고 읽어야 한다. 논문이 GTI hypothesis를 설득력 있게 제시하는 이유도 이 통제 방식에 있다. 같은 언어적 정보가 있더라도, 처음 자리를 잘 잡은 토큰이 훨씬 더 큰 downstream 효과를 낸다는 것이다.

6. 추가 분석 및 Ablation Study: 왜 GTI가 통하는가

6.1 pairwise similarity와 의미 구조 보존

GTI의 설득력은 단순히 리더보드 수치에서만 오지 않는다. 논문은 mean initialization이 실제로 어떤 구조적 손실을 만들고, GTI가 그것을 어느 정도 복구하는지 시각화한다. 먼저 pairwise cosine similarity matrix를 보면, 랜덤 초기화는 새 토큰 블록이 무작위 잡음처럼 보이고, 평균 초기화는 거의 균일한 하나의 덩어리로 나타난다. 반면 GTI는 새 토큰 내부에서 서로 다른 군집과, 기존 pretrained token과의 비균일한 친연성을 동시에 만들어 낸다. 이는 새 토큰이 사전학습 공간에 무턱대고 끼워 넣어진 것이 아니라, 의미적으로 분화된 상태로 정렬되었음을 뜻한다.

Pairwise cosine similarity matrices under different initializations

Figure 5: 초기화 전략별 pairwise cosine-similarity matrix 비교

Figure 5는 랜덤, 평균, GTI 초기화가 만들어 내는 토큰 기하를 직접 비교한다. 평균 초기화에서는 SID 토큰끼리 거의 동일한 유사도 블록이 나타나며, 이것이 곧 inter-token distinction의 붕괴를 뜻한다. GTI에서는 같은 SID 블록 안에서도 계층적 패턴이 생기고, pretrained token과의 관계도 균일하지 않다. 논문은 이를 두고 GTI가 단순한 noise injection이 아니라 언어적 grounding을 통해 구조적 차이를 심었다고 해석한다.

6.2 fine-tuning 이후에도 남는 계층 구조와 스펙트럼

더 중요한 질문은 이런 차이가 fine-tuning 후에도 유지되느냐이다. 논문은 공개 데이터의 fine-tuned checkpoint에서 SID 임베딩 유사도 행렬을 다시 본다. 결과는 GTI가 유일하게 blockwise hierarchical semantics를 유지한다는 것이다. mean initialization과 random initialization은 SFT 이후에도 평평하거나 노이즈가 많은 패턴을 보인다. 이는 downstream supervised signal만으로 초기 붕괴를 완전히 복구하기 어렵다는 저자들의 핵심 주장과 정확히 연결된다.

Pairwise SID similarity after fine-tuning

Figure 6: fine-tuning 이후 SID 임베딩의 pairwise similarity 구조

Figure 6은 GTI가 단지 학습 초반을 부드럽게 해 주는 warm-start가 아니라, 최종 표현 자체를 바꾸는 초기화라는 점을 보여 준다. GTI에서만 SID 블록이 뚜렷한 계층 구조를 유지한다는 사실은, 추천 모델이 아이템 코드를 더 의미 있게 조직하고 있음을 시사한다. 결국 retrieval 성능 향상은 별도의 우연한 regularization 효과가 아니라, 임베딩 기하가 실제로 더 정보적인 상태로 수렴했기 때문이라는 해석이 가능하다.

논문은 여기에 singular-value spectraeffective rank 분석을 더한다. mean initialization에서 시작한 SID embedding matrix는 SFT 후에도 singular value가 급격히 감소하고, 유효 랭크가 낮다. 이는 표현 공간의 실질 차원이 줄어 있다는 뜻이다. 반면 GTI는 더 완만한 스펙트럼 감쇠를 보이며, 더 높은 effective rank를 유지한다. 즉, 새 토큰들이 여러 방향으로 충분히 분화되어 있다는 의미다. 생성형 추천에서는 각 토큰이 아이템 의미 조각을 담당하므로, 이 차원 다양성은 성능과 직접 연결될 가능성이 높다.

Singular value spectra and RSA after fine-tuning

Figure 7: fine-tuning 이후 SID embedding의 스펙트럼과 RSA 결과

Figure 7은 GTI의 구조 보존을 더 정량적으로 보여 준다. 좌측 스펙트럼은 GTI 초기화가 mean initialization보다 훨씬 느린 singular-value decay를 보인다는 점을 나타낸다. 우측의 Representational Similarity Analysis는 잘 학습된 RQ-VAE codebook 벡터의 pairwise geometry와, 언어모델이 학습한 SID 임베딩 geometry 사이의 상관을 측정한다. Pearson $r$와 Spearman $\rho$ 모두에서 GTI가 가장 높은 값을 기록하는 것은, 새 토큰 임베딩이 원래 semantic code 구조를 더 충실히 보존한다는 뜻이다.

6.3 후보군 크기 변화와 산업 데이터 추가 스펙트럼 분석

산업 데이터에서도 저자들은 추가 스펙트럼 분석을 제시한다. 별도의 Figure 8은 산업 데이터의 fine-tuned SID embedding matrix에서도 GTI가 더 완만한 singular-value decay를 보인다는 점을 보여 준다. 공개 데이터와 산업 데이터가 모두 같은 패턴을 보인다는 사실은 중요하다. 특정 공개 데이터셋의 artifact가 아니라, 새 어휘를 대량 도입할 때 평균 초기화가 만들어 내는 표현 병목이 더 일반적 현상일 가능성을 높이기 때문이다.

또한 candidate pool size를 바꿔 가며 본 Figure 3, 4의 sweep은 일종의 실무형 ablation로 읽을 수 있다. 만약 GTI의 이득이 특정 cutoff에서만 우연히 발생했다면, 후보군 크기나 평가 범위를 바꾸는 순간 패턴이 깨졌어야 한다. 그러나 논문은 산업 데이터와 공개 데이터 모두에서 GTI의 상대 이득이 여러 K 구간에 걸쳐 유지된다고 보고한다. 이는 GTI가 단일 지표에 과적합된 기법이 아니라, retrieval 파이프라인 전반의 토큰 정렬 품질을 개선한다는 근거가 된다.

  • 유사도 행렬 분석: 평균 초기화는 SID 토큰을 거의 같은 블록으로 붕괴시킨다.
  • fine-tuned 구조: GTI만이 blockwise hierarchical semantics를 유지한다.
  • 스펙트럼 분석: GTI는 더 높은 effective rank와 느린 singular-value decay를 보인다.
  • RSA: GTI가 RQ-VAE codebook의 의미 구조를 가장 잘 보존한다.

6.4 프롬프트 설계와 구현 선택이 주는 추가 해석

부록을 자세히 읽으면 GTI의 성능은 단순히 “새 토큰만 학습했다”는 사실 하나에서 오지 않는다. 어떤 자연어를 grounding 신호로 쓰는지, 그리고 새 토큰을 어떤 방향으로 읽히게 할지까지 세심하게 조정되어 있다. 공개 데이터에서는 제목만 주고 SID를 생성하는 프롬프트, 설명만 주는 프롬프트, 제목과 설명을 함께 주는 프롬프트가 모두 활용된다. 반대로 SID를 넣고 제목을 생성하거나 설명을 복원하는 프롬프트도 별도로 제공된다. 이 구성은 새 토큰이 하나의 단일 설명 문장에 과적합되지 않고, 동일한 아이템을 가리키는 여러 자연어 관점과 연결되도록 만든다. 결과적으로 GTI는 새 토큰에 대한 감독을 단순 라벨 예측이 아니라 다양한 언어 표면형을 묶는 의미 앵커로 사용한다.

생성형 추천의 실제 입력 프롬프트도 이 논문의 해석에서 중요한 역할을 한다. 공개 데이터의 retrieval 프롬프트는 사용자의 과거 상호작용 순서를 주고 다음으로 추천할 아이템의 Semantic ID를 생성하게 하는 단순한 형식을 취한다. 산업 데이터 쪽 search prompt는 후보자의 headline, profile description, job title, education, employment history, location, skills, company 등을 입력으로 주고 적절한 candidate SID를 생성하게 한다. 즉 GTI는 도메인별 downstream prompt가 어떻게 생겼는지를 바꾸지 않는다. 바뀌는 것은 오직 새 토큰이 그 프롬프트 문맥 안에서 어떤 의미 좌표를 가지고 등장하느냐뿐이다. 이 점은 GTI의 개선을 파이프라인 대수술이 아니라 어휘 수준 개입으로 해석하게 만든다.

또한 부록의 하이퍼파라미터는 GTI가 비교적 표준적인 적응 방식과도 잘 결합된다는 점을 보여 준다. 공개 데이터 쪽 base model은 Qwen3-0.6B, hidden dimension 1024, 최대 컨텍스트 길이 32,768 토큰이며, QLoRA는 rank 8, alpha 32, dropout 0.05 설정으로 q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj를 대상으로 한다. 저장되는 모듈도 embed_tokens와 lm_head를 중심으로 구성되어 있어, 결국 새 토큰 임베딩이 downstream 적응에서 얼마나 중요한 축인지가 다시 강조된다. 논문이 보여 주는 메시지는 명확하다. 거대한 adapter를 늘리는 것보다 먼저 token embedding row 자체를 올바른 위치에 두는 것이 더 직접적인 개선일 수 있다는 것이다.

이 해석은 추천 외 다른 도메인으로 확장할 때도 유용하다. 예를 들어 API call token, action token, multimodal discrete code처럼 새 토큰이 자연어와 느슨하게만 연결되는 상황에서도, 완전한 random/mean initialization 대신 어떤 형태로든 의미 grounding을 제공하는 사전 단계가 필요하다는 시사점이 나온다. 물론 이 논문은 그런 일반화를 실험으로 증명하지는 않는다. 하지만 prompt template와 masked update algorithm을 함께 보면, GTI는 생성형 추천 전용의 요령이라기보다 새 토큰이 이미 학습된 언어 기하와 상호작용하게 만드는 절차로 읽을 수 있다. 바로 이 점 때문에, 논문이 다루는 범위를 넘어선 확장 가능성이 생긴다.

6.5 결과 해석의 관점: 초기화 문제와 후속 정렬 문제를 분리하기

논문의 또 다른 공헌은 서로 다른 두 종류의 문제를 분리해서 보게 만든다는 데 있다. 하나는 initialization problem이고, 다른 하나는 post-init alignment problem이다. mean initialization이나 random initialization은 학습 시작점 자체에서 문제가 생긴다. 반면 LC-Rec 같은 multi-task 방식은 이미 어긋난 시작점을 fine-tuning 중에 교정하려 한다. GTI는 전자를 직접 해결한다. 그래서 공개 Vibrent 결과에서 GTI가 Recall 측면에서 크게 이기고, 일부 NDCG cutoff에서는 LC-Rec가 비슷하거나 더 나은 결과를 내는 현상도 자연스럽게 설명된다. 즉 GTI는 토큰이 문맥 속에서 제대로 구분되도록 만들고, LC-Rec류 목적은 그 위에서 랭킹 세부 조정을 더 도울 수 있다.

이 관점은 실무 적용에서도 중요하다. 추천 시스템을 운영하는 입장에서는 모든 성능 문제가 동일한 방식으로 해결되지 않는다. 후보 회수율이 낮은지, 상위 노출의 ranking calibration이 약한지, long-tail 아이템의 code collision이 심한지에 따라 필요한 처방이 달라진다. GTI의 결과를 보면, 새 토큰 도입 단계에서 발생한 구조 붕괴를 그대로 둔 채 후단의 loss engineering만 복잡하게 만드는 전략은 비효율적일 수 있다. 먼저 토큰이 의미 구조를 잃지 않게 배치하고, 그 다음에 ranking-specific objective를 붙이는 것이 더 모듈화된 설계가 된다. 논문은 직접 그런 2단 조합을 모두 실험하진 않지만, 결과가 그 방향의 후속 연구를 강하게 예고한다.

또한 GTI의 효과가 작은 K에서 특히 크다는 점은 모델이 첫 번째 또는 두 번째 SID 조각부터 더 빨리 올바른 경로를 타고 있다는 해석도 가능하게 한다. 생성형 retrieval에서 앞쪽 토큰이 잘못 생성되면 이후 전체 아이템 코드가 어긋날 가능성이 높다. 그러므로 초기 임베딩이 더 분리되어 있다는 사실은 단순한 representation aesthetics가 아니라, 실제 decoding trajectory 안정성과도 연결될 수 있다. 논문이 이 부분을 직접 디코딩 경로 분석으로까지 확장하지는 않았지만, retrieval at small K에서 나타나는 큰 개선은 초기 token choice의 안정화라는 관점에서 읽을 여지가 충분하다.

Industrial singular value spectra after fine-tuning

Figure 8: 산업 데이터에서 fine-tuning 이후 SID embedding의 singular-value spectrum

Figure 8은 공개 데이터에서 관찰한 스펙트럼 패턴이 산업 데이터에서도 반복된다는 점을 보강한다. 산업 환경은 proprietary judge, 후보군 정의, relevance 라벨링 모두 공개 데이터와 다르지만, GTI가 더 완만한 singular-value decay를 보인다는 사실은 초기화 병목의 성격이 데이터셋 특수성보다 더 일반적일 수 있음을 시사한다. 표현 차원의 붕괴가 줄어들면 모델은 각 SID 토큰을 더 다양한 방향으로 배치할 수 있고, 이는 결국 더 세밀한 후보 구분과 검색 품질 향상으로 이어질 가능성이 높다.

종합하면 6절의 분석은 GTI를 단순 성능 향상 기법이 아니라 표현 기하를 복구하는 초기화 전략으로 자리매김한다. 유사도 행렬은 새 토큰 간 블록 구조를, 스펙트럼은 유효 차원을, RSA는 codebook 의미 보존 정도를 보여 준다. 세 분석이 모두 같은 결론을 가리킨다는 점이 중요하다. 즉 GTI의 이득은 특정 메트릭에만 보이는 현상이 아니라, 새 어휘가 언어모델 내부에 자리 잡는 방식 자체가 달라졌기 때문에 나타난다.

7. 한계점 및 향후 연구 방향: 초기화만으로 충분한가

이 논문의 가장 큰 장점은 문제를 선명하게 정의했다는 것이지만, 동시에 몇 가지 한계도 분명하다. 첫째, 실험 도메인이 생성형 추천에 강하게 묶여 있다. 저자들은 어휘 확장 전반에 적용 가능한 원리라고 주장하지만, 실제 검증은 Semantic-ID 기반 추천 환경에 집중되어 있다. 따라서 문서 retrieval, tool token, 멀티모달 discrete token 등 다른 새 어휘 시나리오에서도 GTI가 같은 방식으로 통할지는 후속 실험이 필요하다. 특히 추천의 SID는 자연어 설명과 연결하기 쉬운 편이어서, grounding supervision을 만들기 쉬운 축에 속한다.

둘째, 공개 데이터에서 GTI는 모든 NDCG 지표를 일관되게 이기지 못한다. 이는 GTI가 retrieval coverage를 개선하는 데 강하지만, 극초기 cutoff의 세밀한 ranking calibration은 여전히 multi-task objective나 다른 후속 학습 기법의 도움을 받을 수 있음을 암시한다. 다시 말해 GTI는 “모든 문제를 해결하는 단일 해법”이라기보다, 초기화 병목을 푸는 기반 기술로 보는 편이 더 정확하다. 향후에는 GTI와 LC-Rec 계열 보조 학습을 더 정교하게 결합해, low-K ranking precision까지 함께 끌어올리는 연구가 자연스럽다.

셋째, 논문은 grounding supervision을 title/description 쌍으로부터 얻는다. 이 방식은 데이터가 충분한 추천 환경에서는 강하지만, 새 토큰이 자연어 설명과 직접 1:1 대응되지 않는 도메인에서는 적용 난도가 올라갈 수 있다. 예를 들어 latent symbolic token이나 압축된 시각 code처럼 사람이 읽을 수 있는 자연어 anchor가 빈약한 경우에는, 어떤 감독 신호로 grounding을 수행할지가 새로운 연구 문제가 된다. 또한 grounding stage가 새 토큰 수, codebook 깊이, 설명 품질 변화에 얼마나 민감한지도 더 체계적으로 측정될 필요가 있다.

그럼에도 향후 연구 방향은 꽤 명확하다. 하나는 vocabulary extension 전반에 대한 일반 원리화다. mean initialization, random initialization, GTI, 그리고 다른 manifold-preserving initialization을 하나의 프레임으로 비교하면, 새 어휘 도입 문제를 더 체계적으로 정리할 수 있다. 다른 하나는 multimodal token grounding이다. 최근 VLM과 agent 시스템은 다양한 이산 토큰을 LLM 어휘 안으로 집어넣고 있으므로, 텍스트-기반 grounding을 넘어 cross-modal grounding으로 GTI를 확장할 여지가 크다. 마지막으로 inference 관점에서는, 더 좋은 초기화가 적은 step으로도 더 나은 성능을 내는지, 즉 학습 효율과 데이터 효율까지 개선하는지도 중요한 질문으로 남는다.

7.1 도메인 의존성과 데이터 감독의 제약

GTI의 실용성을 높이 평가하더라도, 자연어 감독을 얻기 쉬운 도메인과 그렇지 않은 도메인을 구분해서 봐야 한다. 생성형 추천에서는 아이템 제목과 설명이라는 비교적 풍부한 언어 앵커가 존재한다. 산업 검색에서는 후보자의 프로필, 이력, 위치, 스킬, 회사 정보까지 연결할 수 있고, 공개 데이터에서도 제목과 설명을 안정적으로 만들 수 있다. 이런 환경에서는 새 토큰과 자연어를 양방향으로 묶는 것이 비교적 자연스럽다. 반면 도메인별 내부 상태 토큰, 압축된 센서 코드, 혹은 사람이 직접 읽기 어려운 latent state token처럼 자연어 해설이 희박한 경우에는 GTI의 grounding corpus 자체를 어떻게 구성할지가 큰 문제로 남는다. 결국 GTI는 초기화의 중요성을 분명히 보여 주지만, 실제 적용 범위는 자연어로 의미를 설명할 수 있는 새 토큰이라는 조건에 어느 정도 기대고 있다.

또 하나의 제약은 GTI가 새 토큰의 품질을 보장하더라도, 그 새 토큰 자체를 만드는 upstream discretization 품질까지 보장하지는 않는다는 점이다. 논문에서 Semantic ID는 RQ-VAE가 생성하며, 이 코드북의 구조가 이미 의미 정보를 잘 담고 있다는 전제가 깔려 있다. 실제로 RSA 분석도 RQ-VAE codebook geometry를 일종의 oracle reference처럼 사용한다. 만약 codebook 자체가 도메인 의미를 불안정하게 압축하거나 collision이 심하다면, GTI는 그 부정확한 구조를 더 충실히 언어모델 안에 옮기는 역할에 머무를 수 있다. 다시 말해 GTI는 좋은 codebook을 더 잘 심는 방법이지, codebook 품질 문제를 대신 해결해 주는 방법은 아니다. 향후 연구에서는 discretization 품질과 grounding 품질을 함께 최적화하는 결합 설계가 필요하다.

7.2 저자들이 직접 보여 준 것과 아직 남은 질문

논문은 GTI가 왜 효과적인지에 대해 꽤 강한 정성·정량 근거를 제시하지만, 여전히 몇 가지 미답 질문이 남는다. 첫째는 새 토큰 개수에 대한 scaling behavior다. 추천 환경에서는 수천 개의 SID 토큰이 등장하지만, 어휘가 수만 단위로 더 커질 때 GTI의 grounding stage가 여전히 안정적으로 작동하는지, 혹은 일정 규모 이상에서는 grounding 자체가 또 다른 병목이 되는지는 확인되지 않았다. 둘째는 설명 품질의 민감도다. 제목과 설명이 간결하고 노이즈가 적을수록 GTI가 유리할 가능성이 높지만, 실제 산업 데이터의 메타데이터는 흔히 불완전하거나 중복되고, 공개 전자상거래 데이터에서는 품질 편차가 크다. GTI가 이런 텍스트 품질 변화에 어느 정도 강인한지는 논문 범위를 넘어서는 질문으로 남는다.

셋째는 grounding stage의 비용 대비 효익이다. 논문은 H100 4장 환경에서 비교적 합리적인 설정을 보여 주지만, 운영 환경에서는 추가 pre-stage를 넣는 것 자체가 배포 복잡도를 높일 수 있다. 따라서 실제 서비스에서는 GTI가 성능 향상뿐 아니라 학습 안정성, 수렴 속도, cold-start 토큰 도입 주기 단축 등 운영 지표에서도 어떤 이득을 주는지 따져 볼 필요가 있다. 넷째는 GTI와 다른 alignment 기법의 조합 전략이다. 공개 데이터 결과만 보면 GTI와 LC-Rec는 완전히 상호배타적이기보다 서로 다른 약점을 보완하는 관계에 가깝다. 그러므로 초기화 단계에서 GTI를 적용하고, downstream에서는 ranking-centric objective나 auxiliary language objective를 선택적으로 얹는 방식이 다음 단계 연구로 자연스럽다.

다섯째는 해석 가능성 문제다. 논문은 similarity matrix와 singular-value spectrum, RSA를 통해 토큰 구조 보존을 보여 주지만, 실제 디코딩 시점에서 어느 SID 토큰이 어떤 오류를 줄이고 어떤 아이템 군집을 더 잘 분리하는지까지는 보여 주지 않는다. 예를 들어 GTI가 long-tail item, 희귀 후보, 혹은 서로 유사한 description을 가진 아이템 구분에서 특히 강한지, 아니면 전반적 recall을 균일하게 올리는지는 추가 case study가 필요하다. 이러한 분석은 GTI를 실전 추천 시스템에 투입하려는 팀에게 매우 중요하다. 왜냐하면 운영 측면에서는 평균 성능 향상만큼이나, 어떤 유형의 검색 실패를 줄였는지가 의사결정의 핵심이 되기 때문이다.

7.3 향후 연구 방향: vocabulary extension의 일반 원리로 확장하기

향후 연구는 크게 세 방향으로 확장될 수 있다. 첫 번째는 multimodal grounding이다. 오늘날 많은 모델은 이미지 패치 토큰, 오디오 코드, 행동 토큰, 시뮬레이터 상태 토큰 등 비언어적 기호를 LLM 어휘에 주입한다. 이 경우 GTI의 양방향 grounding 아이디어를 텍스트 설명뿐 아니라 이미지 캡션, 구조화 메타데이터, 행동 결과 요약 등으로 확장하면, 단순 mean initialization보다 더 안정적인 융합이 가능할 수 있다. 두 번째는 continuous-discrete co-design이다. RQ-VAE codebook 학습과 GTI grounding을 분리하지 않고 공동 최적화하면, codebook이 언어모델이 다루기 쉬운 구조를 갖도록 유도할 수 있다. 세 번째는 curriculum grounding이다. 설명이 쉬운 토큰부터 어려운 토큰으로 점진적으로 grounding하거나, codebook 레벨별로 다른 난이도의 supervision을 적용하면 대규모 새 어휘 확장에서 더 안정적일 수 있다.

또한 GTI는 추천 시스템을 넘어 agent memory token, tool schema token, domain-specific symbolic vocabulary 등 다양한 설정에서 재해석될 수 있다. 예를 들어 에이전트가 장기 기억 항목을 별도 토큰으로 저장하고 불러오는 구조를 쓴다면, 그 토큰들을 무작정 평균 임베딩에서 시작하게 하는 대신 관련 자연어 설명과 함께 grounding할 수 있다. 코드 복원, 전문가 문서 검색, 의료 ontology 토큰 삽입처럼 자연어와 구조화 기호가 공존하는 문제에서도 비슷한 설계가 가능하다. 결국 GTI가 던지는 질문은 특정 추천 벤치마크를 넘어서, 사전학습 언어모델이 처음 보는 기호를 어떻게 내부 세계에 받아들이는가라는 더 근본적인 주제로 연결된다. 이 논문은 그 질문에 대해, 적어도 평균 초기화 하나만으로는 충분하지 않다는 강한 답을 내놓았다.

마지막으로, 이 논문은 어휘 확장 문제를 모델 파라미터 전체가 아니라 embedding geometry의 지역 수정으로 풀 수 있다는 가능성을 보여 준다. 최근 LLM 연구는 거대한 파라미터 조정, 긴 컨텍스트 적응, 복합 보조목적 설계로 빠르게 확장되고 있지만, 실제 병목은 때로 훨씬 작은 지점에 숨어 있다. GTI는 그 사례다. 새 토큰 몇 천 개의 초기 좌표를 어떻게 배치하느냐가, 수억 개 파라미터를 가진 백본의 downstream 행동을 유의미하게 바꿀 수 있다. 이 관찰은 향후 다양한 LLM adaptation 연구에서 “어떤 모듈을 더 붙일 것인가”만큼 “이미 있는 구조에 무엇을 어디에 놓을 것인가”를 중요하게 보게 만든다.

8. 결론: 새 토큰은 학습 전에 먼저 자리를 잡아야 한다

이 논문이 남기는 가장 중요한 메시지는 간단하다. 새 어휘 토큰의 초기화는 사소한 구현 디테일이 아니다. 생성형 추천처럼 수천 개의 Semantic-ID를 도입하는 환경에서는, 평균 초기화가 토큰 간 의미 차이를 초기에 지워 버리고, downstream fine-tuning이 그 손실을 완전히 회복하지 못한다. GTI는 이 병목을 풀기 위해 새 토큰을 자연어 설명과 연결된 감독 신호로 먼저 grounding한 뒤 SFT로 넘긴다. 실험은 산업 규모 데이터와 공개 데이터에서 모두 이 전략이 retrieval 성능과 표현 기하를 개선한다는 점을 보여 준다.

특히 논문이 설득력 있는 이유는 두 종류의 근거를 동시에 제시하기 때문이다. 한쪽에는 P@K, Recall@K, NDCG@K의 실제 성능 향상이 있고, 다른 한쪽에는 pairwise similarity matrix, singular-value spectra, RSA 같은 구조 분석이 있다. 전자는 GTI가 실용적으로 유의미하다는 것을, 후자는 왜 그런 개선이 일어나는지를 설명한다. 결과적으로 GTI는 단순한 tricks 모음이 아니라, 사전학습 임베딩 공간과 새 도메인 기호 사이의 정렬 문제를 해결하려는 명확한 방법론으로 읽힌다.

더 넓게 보면 이 논문은 LLM을 새로운 도메인으로 확장할 때 “먼저 토큰을 잘 심고, 그 다음 과제를 학습시켜라”는 원칙을 제안한다. 추천 시스템을 넘어, 새 기호를 어휘에 주입해야 하는 많은 응용에서 유사한 교훈이 반복될 가능성이 높다. GTI 자체보다 더 오래 남을 수 있는 가치는 바로 이 관점 전환이다. 새 토큰은 fine-tuning이 알아서 길들여 줄 잡음이 아니라, 사전학습 모델의 내부 기하에 맞게 먼저 자리를 잡아야 하는 구성 요소라는 점이다.

실무적 관점에서 보면 GTI의 장점은 성능 숫자 그 자체만이 아니다. 생성형 추천 시스템을 운영하다 보면 새 아이템이 계속 들어오고, 그에 맞춰 semantic code나 vocabulary를 갱신해야 하는 상황이 반복된다. 이때 새 토큰을 평균 벡터에 일괄 배치해 놓고 후속 학습에 모든 부담을 넘기면, 초기 구간에서 불안정한 추천과 코드 혼동이 누적될 수 있다. GTI는 이 문제를 도입 단계에서 완화하는 절차로 볼 수 있다. 즉 새로운 어휘를 받아들일 때마다 먼저 언어모델 내부의 적절한 위치를 잡아 주고, 그 다음 태스크 적응으로 넘어가게 만드는 것이다. 논문은 이 접근이 retrieval 품질뿐 아니라, 새 어휘를 시스템에 편입하는 운영 절차 자체를 더 체계화할 수 있음을 시사한다.

연구 관점에서는 GTI가 사전학습 모델의 내부 표현을 바라보는 시선을 바꾼다. 보통 fine-tuning 성능 차이는 loss, data mixture, model size 같은 거시적 요소로 설명되는 경우가 많다. 하지만 이 논문은 어휘 행렬의 일부 행, 그것도 새로 추가된 몇 천 개 row의 초기 위치가 이후 전체 학습의 방향을 크게 바꿀 수 있음을 보여 준다. 이런 관점은 LLM adaptation의 분석 수준을 한 단계 더 세밀하게 만든다. 앞으로는 adapter나 objective만이 아니라, 어떤 새 토큰이 어떤 기하학적 위치에서 시작하는지, 그리고 그 위치가 기존 사전학습 manifold와 어떤 관계를 맺는지가 더 중요하게 다뤄질 가능성이 높다.

결국 GTI 논문은 생성형 추천의 성능 개선 사례를 넘어서, 새로운 기호를 언어모델에 넣는 일은 그 기호가 놓일 자리까지 설계하는 일이라는 점을 분명히 한다. 이 메시지는 추천, 검색, 에이전트, 멀티모달 시스템 모두에 적용될 수 있다. 사전학습 모델이 강력해질수록, 그 모델 안으로 들어가는 새 토큰 역시 더 정교하게 다뤄야 한다. GTI는 그 정교함을 거대한 추가 모듈이 아니라 작은 grounding stage로 구현할 수 있음을 보여 준 첫 사례 중 하나로 읽힌다.

또한 GTI는 대규모 사전학습 모델을 특정 산업 문제에 연결할 때 자주 나타나는 한 가지 착각을 교정한다. 강력한 백본이 있으면 downstream 데이터만 충분히 넣어 주면 새 토큰도 결국 알아서 정리될 것이라는 기대가 그것이다. 논문은 그 기대가 항상 맞지 않음을 보여 준다. 토큰이 처음 어떤 위치에서 출발하는지는 attention이 그 토큰을 읽고 주변 문맥과 관계를 맺는 방식 전체를 좌우한다. 초기화가 무너지면 이후 학습은 본래 과제 적응보다 손상 복구에 더 많은 자원을 써야 할 수 있다. GTI는 이 문제를 사전에 줄여, downstream learning budget이 실제 추천 과제 자체에 더 집중되도록 만든다는 점에서 의미가 있다.

이 때문에 GTI를 단지 추천 논문 하나의 기법으로만 읽기보다, LLM adaptation에서 initialization-aware design이 왜 중요한지를 보여 주는 사례로 보는 편이 더 생산적이다. 앞으로 도메인 특화 vocabulary를 넣는 모든 시스템은 적어도 세 가지 질문을 함께 던질 필요가 있다. 새 토큰이 어떤 의미 구조를 가져야 하는가, 그 구조를 설명할 감독 신호는 무엇인가, 그리고 그 토큰을 사전학습 manifold의 어디에 놓을 것인가. GTI는 이 세 질문에 대한 하나의 실용적 답을 제공했고, 그 답이 실제 retrieval 성능과 표현 보존 모두에 연결된다는 점을 실험으로 입증했다.

같은 맥락에서 GTI의 가치는 모델이 이미 잘하는 것을 더 크게 만들기보다, 처음부터 잘못 배치된 입력 조건을 바로잡는다는 데 있다. 사전학습 언어모델은 풍부한 일반 지식을 갖고 있어도, 그 지식을 새 토큰에 연결할 수 있는 경로가 없으면 실제로는 활용하지 못한다. GTI는 그 경로를 만드는 최소 개입에 가깝다. 새 토큰을 기존 언어 공간의 적절한 이웃에 놓아 두면, 백본이 이미 학습한 attention 패턴과 표현 변환이 그 토큰에도 더 자연스럽게 작동한다. 논문이 보여 준 retrieval 향상과 geometry 보존은 모두 이 한 가지 사실의 서로 다른 표면이라고 볼 수 있다.

정리하면 GTI는 새 어휘를 추가하는 순간 발생하는 의미 붕괴를 “어쩔 수 없는 비용”으로 받아들이지 않는다. 대신 그 붕괴를 하나의 명시적 설계 문제로 분리해, 자연어 감독과 제한된 파라미터 업데이트만으로 해결하려 한다. 이 태도는 향후 더 큰 모델, 더 많은 새 토큰, 더 복잡한 도메인으로 갈수록 중요해질 가능성이 높다. 어휘 확장 문제가 반복될수록, 그때마다 전체 모델을 무겁게 다시 학습하는 것보다 토큰의 시작 위치를 더 똑똑하게 설계하는 편이 훨씬 효율적일 수 있기 때문이다. GTI는 바로 그 가능성을 구체적 실험과 분석으로 보여 준다.

이 논문을 통해 얻을 수 있는 더 넓은 교훈은, 사전학습 모델이 아무리 거대해져도 새로운 기호를 받아들이는 과정은 여전히 섬세한 설계를 요구한다는 점이다. 모델 크기가 커질수록 백본의 일반 지식은 풍부해지지만, 그 지식이 새 토큰과 연결되는 접점이 자동으로 생기지는 않는다. mean initialization은 그 접점을 너무 대충 만든다. GTI는 바로 그 접점을 정교하게 설계하는 절차다. 작은 추가 단계이지만, 새 토큰을 기존 언어 공간의 관계망 안에 편입시키는 데 집중함으로써 downstream 추천 성능과 표현 구조를 동시에 개선한다. 그래서 이 논문은 생성형 추천 리뷰로도 읽히지만, 동시에 새 어휘를 가진 LLM 시스템을 설계할 때 무엇부터 먼저 생각해야 하는가를 묻는 논문으로도 읽힌다.

그 의미에서 GTI는 단순한 initialization trick이 아니라, 사전학습 모델과 도메인 특화 기호 사이에 의미적 인터페이스 층을 하나 추가한 것으로 볼 수 있다. 모델은 기존 어휘를 통해 세상을 이해해 왔고, 새 토큰은 그 세계관 바깥에서 들어온 낯선 기호다. GTI는 그 낯섦을 줄이기 위해 자연어 설명을 매개로 번역층을 먼저 만들고, 그 다음 과제별 학습으로 넘어간다. 논문 전체를 관통하는 힘은 바로 이 구조적 발상에 있다. 새로운 어휘를 넣을 때마다 백본 전체를 흔들기 전에, 먼저 그 어휘가 어디에 서 있어야 하는지를 정교하게 정해 주는 것, 그것이 GTI의 본질이다.

따라서 GTI의 핵심 기여는 성능 수치 몇 점보다, 새 토큰을 사전학습 공간에 편입시키는 문제를 독립된 연구 주제로 끌어올렸다는 데 있다. 앞으로 vocabulary extension을 다루는 많은 연구가 이 논문을 출발점으로 삼아, initialization 단계 자체를 더 정교하게 다루게 될 가능성이 높다.

이 점 때문에 GTI는 작은 수정처럼 보이지만, 실제로는 vocabulary extension의 기본 가정을 다시 쓰는 제안으로 읽힌다. 새 토큰은 평균 벡터에 얹는 부속품이 아니라, 먼저 의미적으로 정렬되어야 하는 학습 대상이라는 점을 논문은 끝까지 일관되게 보여 준다. 성능 표와 구조 분석이 동시에 이를 뒷받침한다는 사실도 중요하다. 산업 데이터의 P@5, NDCG@5 개선은 실제 ranking 품질이 달라졌음을 보여 주고, similarity matrix와 effective-rank 분석은 왜 그런 차이가 발생했는지를 설명한다. 즉 GTI의 메시지는 "초기화도 중요하다"는 상식적 진술에 머물지 않고, 어떤 종류의 초기화가 어떤 종류의 표현 구조를 남기는지까지 추적한다.

결론적으로 논문은 새 토큰 도입을 두 단계 문제로 분해한다. 첫 단계는 사전학습 언어 공간과 새 기호 사이의 의미 정렬이고, 둘째 단계는 실제 과제에 맞춘 downstream 적응이다. mean initialization은 이 둘을 한 번에 처리하려고 하면서 초기 혼동을 후속 학습에 떠넘긴다. GTI는 먼저 정렬을 해결한 다음 적응으로 넘어간다. 이 순서 변경만으로도 retrieval 성능, 임베딩 스펙트럼, codebook 구조 보존이 함께 개선된다는 점이 이 논문의 최종 결론이다.

9. 요약 정리: GTI 논문의 핵심 포인트

  • 문제의식: 새 어휘 토큰을 mean initialization으로 시작하면 token-embedding collapse가 발생해 토큰 간 구별이 사라진다.
  • 핵심 가설: 새 토큰을 사전학습 임베딩 공간 안의 의미 있는 위치로 먼저 grounding하면, 언어모델의 일반 언어 지식을 더 잘 전이할 수 있다.
  • 방법: GTI는 grounding stage에서 백본과 기존 어휘를 고정하고 새 토큰 임베딩만 학습한 뒤, 이후 전체 모델 SFT를 수행한다.
  • 데이터 구성: 자연어 설명에서 SID를 생성하는 방향과 SID에서 설명을 복원하는 방향을 모두 포함한 양방향 프롬프트를 사용한다.
  • 산업 결과: GTI는 Good Match P@5에서 baseline 대비 +21.63%, LC-Rec 대비 extra gain +15.25%를 기록했다.
  • NDCG 결과: 산업 데이터의 NDCG@5는 GTI가 +17.88%로 LC-Rec의 +6.94%를 크게 앞섰다.
  • 공개 데이터 결과: GTI+Vanilla SFT는 Recall@20에서 +26.02%로 LC-Rec의 +13.41%보다 크게 높아, grounding stage의 독립적 기여를 보여 준다.
  • 구조 분석: GTI는 fine-tuning 후에도 blockwise hierarchical semantics, 더 높은 effective rank, 더 높은 RSA 상관을 유지한다.
  • 실무적 의미: 복잡한 추가 모듈보다 새 토큰 초기화 시점을 교정하는 것만으로도 실제 retrieval quality를 개선할 수 있다.
  • 확장 가능성: 생성형 추천을 넘어 새 기호 어휘를 대량 주입하는 다른 LLM 확장 문제에도 적용될 여지가 있다.

댓글

홈으로 돌아가기

검색 결과

"" 검색 결과입니다.