영문 제목: BidirLM: From Text to Omnimodal Bidirectional Encoders by Adapting and Composing Causal LLMs
저자/소속: Nicolas Boizard, Théo Deschamps-Berger, Hippolyte Gisserot-Boukhlef, Céline Hudelot, Pierre Colombo | Diabolocom; Artefact Research Center; MICS, CentraleSupélec, Université Paris-Saclay; Cohere | arXiv:2604.02045 | 2026년 4월
논문 링크: https://arxiv.org/abs/2604.02045
1. 서론: 생성형 모델 자산을 표현 학습으로 되돌리는 문제
최근의 대형 언어 모델 생태계는 생성 능력 중심으로 폭발적으로 성장했다. Gemma, Qwen, Llama 계열은 자연어 생성뿐 아니라 코드, 수학, 안전, 비전, 오디오 같은 전문 영역으로 빠르게 분화되었고, 그 결과 실무 현장에서는 강력한 causal decoder 체크포인트가 이미 풍부하게 존재한다. 그러나 표현 학습의 관점에서는 여전히 양방향 인코더가 따로 필요하며, 검색·분류·회귀·토큰 태깅·멀티모달 검색 같은 작업에서는 생성형 모델을 그대로 쓰기보다 별도의 encoder를 다시 훈련하는 관행이 유지되어 왔다.
이 논문이 겨냥하는 빈틈은 명확하다. 이미 수많은 생성형 모델이 방대한 지식을 담고 있는데도, 그 지식을 representation model로 재활용하는 방법은 아직 합의되지 않았다. 단순히 attention mask를 바꾸면 되는지, MLM이나 MNTP 같은 masking objective가 필요한지, 또는 아예 contrastive learning만 해도 충분한지에 대해 기존 연구들은 서로 다른 레시피를 제시해 왔다. 저자들은 이 혼란을 정리하면서, decoder를 encoder로 바꾸는 데 필요한 최소 핵심이 무엇인지를 실험적으로 분해한다.
논문의 가장 강한 메시지는 prior masking adaptation의 중요성이다. 양방향 attention을 켠 뒤 바로 contrastive training으로 가는 최근 흐름은 embedding 벤치마크에서 그럴듯해 보일 수 있지만, 저자들은 이런 방식이 fine-tuning 성능을 상당 부분 희생한다고 주장한다. 특히 XNLI, Seahorse 같은 작업을 보면, masking 단계를 먼저 거친 모델과 그렇지 않은 모델 사이의 차이가 뚜렷하다. 즉, 이 논문은 contrastive objective의 가치를 부정하지 않지만, 그보다 앞선 encoder화 적응 단계가 결정적으로 중요하다고 본다.
또 하나의 문제는 catastrophic forgetting이다. 원래의 생성형 모델은 광범위한 데이터 분포에서 학습되었지만, 오픈 데이터만으로 후속 적응을 길게 수행하면 다국어·코드·수학 능력이 쉽게 무너질 수 있다. 원본 pretraining corpus에 접근할 수 없는 현실을 고려하면, 이 문제는 이론적 흥미를 넘어서 실제 오픈소스 재현의 핵심 난점이 된다. 저자들은 이 지점에서 weight merging과 multi-domain data mixture라는 비교적 가벼운 처방을 제안한다.
흥미로운 점은 논문이 여기서 멈추지 않는다는 사실이다. BidirLM은 단순한 텍스트 인코더 논문이 아니라, 이미 존재하는 safety specialist, vision specialist, audio specialist를 양방향 인코더와 합성하여 omnimodal encoder까지 확장한다. 따라서 이 연구의 범위는 decoder-to-encoder adaptation을 넘어, 생성형 모델 생태계를 모듈처럼 재조립해 표현 모델로 전환하는 방법론까지 포함한다.
정리하면 BidirLM은 세 가지 층위를 동시에 다룬다. 첫째, causal LLM을 bidirectional encoder로 바꾸는 레시피를 제시한다. 둘째, forgetting 없이 그 전환을 유지하는 방법을 제시한다. 셋째, 전문 causal 모델의 능력을 merge로 옮겨와 멀티모달 encoder를 만드는 방법을 보여준다. 이 세 층위가 하나의 서사로 엮이면서, 논문은 representation learning의 관점에서 매우 실용적인 설계도를 제공한다.
배경 차원에서 보면 이 논문은 최근 몇 년간 분리되어 발전한 두 흐름을 다시 접속하려는 시도다. 한쪽에서는 decoder 중심 모델이 instruction tuning, 코드 생성, 안전성 제어, 비전-언어 인터페이스, 음성 인식까지 빠르게 확장되었고, 다른 한쪽에서는 검색과 분류, reranking, metric learning을 위한 encoder가 별도로 진화했다. 그러나 두 계열은 대부분 서로 다른 목표함수와 배치 구성, 데이터 파이프라인을 사용하며 별도의 생태계처럼 운영되었다. BidirLM은 이 분리를 전제로 삼기보다, 이미 대규모로 학습된 decoder가 언어 지식의 중심 저장소 역할을 하고 있다면 representation learning도 그 자산 위에서 출발해야 한다는 관점을 취한다. 이 관점은 단순한 파라미터 절감의 문제가 아니라, 동일한 지식을 여러 구조에서 반복 학습하는 비효율을 줄이는 방법론적 문제와 연결된다.
이 문제의식은 멀티모달 환경에서 더욱 중요해진다. 텍스트 전용 encoder는 이미지나 오디오를 다루기 위해 다시 별도의 backbone 또는 projector 체계를 요구하는 경우가 많고, 반대로 멀티모달 decoder는 생성에는 강하지만 검색과 분류에 바로 쓰기 어려운 경우가 흔하다. BidirLM이 specialist merge를 강조하는 이유는, 각 모달에 대해 이미 충분히 훈련된 생성형 자산이 존재한다면 이를 공통의 representation space로 다시 조직하는 편이 더 직접적인 경로가 될 수 있기 때문이다. 따라서 이 논문의 서론은 단순히 새로운 모델 하나를 소개하는 수준을 넘어, 생성형 기반 생태계 전체를 representation 자산으로 재해석하는 프레임을 제안하는 역할을 한다.
2. 배경 및 관련 연구: 생성형 backbone과 encoder 생태계의 분리
2.1 왜 decoder와 encoder가 분리되어 발전했는가
BidirLM의 출발 질문은 간단하지만 날카롭다. 왜 이미 강력한 생성형 모델이 많은데, 표현 학습용 encoder는 별도로 다시 만들어야 하는가? 기존의 encoder 중심 생태계는 BERT류 모델에서 출발했고, 이후 다국어 retrieval, 분류, 문장 임베딩, 크로스모달 검색을 위해 계속 확장되었다. 반면 decoder 중심 생태계는 생성 품질에 최적화되어 왔다. 이 분리는 곧 중복 비용으로 이어지며, 동일한 지식을 다른 구조로 반복 학습해야 한다는 비효율을 낳는다.
저자들은 기존 literature가 세 가지 축을 뒤섞어 왔다고 본다. 하나는 attention 구조의 변경이다. causal mask를 양방향 mask로 바꾸면 정보 흐름 자체가 달라진다. 다른 하나는 학습 objective이다. MLM, MNTP, denoising, contrastive objective 등 무엇을 쓰느냐에 따라 적응의 성격이 달라진다. 마지막은 후속 활용 방식이다. 어떤 연구는 embedding benchmark에만 초점을 두고, 어떤 연구는 fine-tuning 성능까지 본다. 논문은 이 세 축을 분리해 ablation하며 무엇이 실제로 중요한지를 보여준다.
특히 이 논문은 embedding 점수 상승과 downstream fine-tuning 유지를 별개의 목표로 본다. representation model이 retrieval에서는 좋아 보여도, 실제 분류나 회귀에서 무너진다면 범용 encoder로 쓰기 어렵다. BidirLM은 이 균형을 핵심 성공 조건으로 놓고, MTEB와 XTREME-aug를 함께 본다. 이 점이 단순한 embedding 논문과 갈리는 지점이다.
논문이 다루는 두 번째 질문은 원본 pretraining 데이터 없이도 안정적인 변환이 가능한가이다. 오픈소스 연구자에게 원본 학습 데이터는 대개 비공개이거나 재현 불가능하다. 따라서 adaptation 단계에서 영어 위주의 공개 데이터만 사용하면, 기존 모델이 가지고 있던 다국어·코드·수학 지식이 쉽게 희석된다. 저자들은 이 제약을 인정한 상태에서, 얼마나 값싸게 원래 분포의 기억을 복원할 수 있는지 탐색한다.
세 번째 질문은 더 야심차다. 전문 생성형 모델의 능력을 encoder 쪽으로 옮길 수 있는가라는 물음이다. 예를 들어 안전성 분류, 이미지 이해, 음성 이해에 특화된 causal 모델이 이미 있다면, 그 모델 전체를 새로운 멀티모달 encoder로 다시 학습하는 대신, 기존 text backbone의 근접성을 이용해 weight space에서 합성할 수 있을까? BidirLM은 여기에 대해 실험적 답을 제시하며, 특히 shared backbone이 유사할 때 merge가 놀라울 정도로 잘 작동함을 보인다.
이 질문은 연구 설계 측면에서도 중요하다. 만약 specialist 능력 이전이 가능하다면, 모델 개발의 단위는 더 이상 하나의 거대한 범용 foundation model만이 아니게 된다. 텍스트 backbone, 안전성 분류기, 시각 이해 모듈, 음성 이해 모듈이 각각 별도의 목적 아래 먼저 학습된 뒤, 필요에 따라 representation 중심 구조로 다시 묶일 수 있기 때문이다. 논문이 보여주는 가능성은 바로 이 모듈식 축적이다. 이미 학습된 생성형 자산을 폐기하지 않고 encoder 생태계 안으로 다시 편입할 수 있다는 점에서, specialist merge는 성능 향상 이상의 의미를 갖는다.
이러한 문제 설정 때문에 BidirLM의 기여는 단순한 성능 보고를 넘어선다. decoder를 encoder로 바꾸는 법, 바꾼 뒤 잊어버리지 않는 법, 그 encoder를 다시 멀티모달로 확장하는 법이 한 논문 안에서 계층적으로 연결된다. 실용성과 연구적 흥미가 동시에 높은 이유가 여기에 있다.
문제 설정을 더 세분화하면, 저자들은 encoder 전환을 단일 단계의 최적화 문제가 아니라 표현 구조를 다시 정의하는 과정으로 다룬다. causal decoder는 본질적으로 토큰을 왼쪽에서 오른쪽으로 순차 예측하도록 학습되며, 각 위치의 hidden state는 다음 토큰을 산출하기에 적합한 형태로 형성된다. 반면 bidirectional encoder는 입력 전체를 참조해 각 토큰과 문장 단위 representation을 동시에 정렬해야 한다. 따라서 동일한 파라미터를 그대로 두고 마스크만 바꾸는 조치는 정보 접근 범위를 바꾸는 데 그치며, representation 자체가 어떤 통계량을 담아야 하는지까지 자동으로 다시 학습시키지는 못한다.
이 차이는 downstream 평가 항목의 성격을 통해 더 분명해진다. retrieval은 질의와 문서를 비교 가능한 공간에 놓는 것이 핵심이므로, contrastive 정렬만으로도 상당한 향상이 나타날 수 있다. 그러나 sequence classification, token classification, regression은 encoder의 내부 상태가 supervision 신호를 안정적으로 흡수할 수 있어야 한다. 논문이 XNLI, PAN-X, Seahorse를 함께 제시하는 이유는 여기에 있다. 특히 문장 의미를 연속값으로 정밀하게 회귀해야 하는 Seahorse는 문맥 압축의 질이 낮을 때 크게 흔들리므로, prior masking이 단순한 보조 기법이 아니라 구조 적응의 중심 단계라는 점을 강하게 드러낸다.
또한 저자들이 묻는 질문은 단순히 "encoder 성능이 얼마나 오르는가"에 머물지 않는다. 공개 환경에서는 원본 pretraining 코퍼스를 다시 사용할 수 없기 때문에, 실제 연구자는 제한된 공개 데이터 위에서 적응을 수행해야 한다. 이 조건에서는 적응 자체보다도 분포 편향이 어떤 형태의 손실을 낳는지, 그리고 그 손실을 얼마나 저비용으로 줄일 수 있는지가 중요하다. BidirLM의 forgetting 분석과 merge 실험은 바로 이 현실적 제약 아래 설계되었다는 점에서, 단순한 leaderboard 최적화와는 다른 문제의식을 가진다.
| 핵심 질문 | 논문이 제시하는 답 | 의미 |
|---|---|---|
| decoder를 encoder로 바꿀 때 무엇이 중요한가 | Bi + MNTP 선행 후 Contrastive가 가장 안정적 | 양방향 구조 적응과 embedding 강화를 분리해 최적화 |
| 원본 데이터 없이 forgetting을 줄일 수 있는가 | Weight merge와 multi-domain mixture 조합이 효과적 | 오픈 재현 가능한 경량 처방 제시 |
| 전문 생성형 모델의 능력을 옮길 수 있는가 | safety·vision·audio specialist와의 merge 후 짧은 정렬 fine-tuning | 모듈형 omnimodal encoder 구성 가능 |
위 표가 보여주듯, 이 논문은 하나의 트릭을 제안하는 작업이 아니라 적응-보정-합성의 세 단계 설계를 완성하는 작업에 가깝다. 그래서 논문의 각 실험은 서로 독립적인 서브테스트가 아니라, 하나의 파이프라인이 어디서 성립하고 어디서 깨지는지 보여주는 증거로 읽는 편이 좋다.
3. 방법론: Causal LLM을 Bidirectional Encoder로 바꾸는 절차
3.1 Prior masking adaptation과 contrastive 정제의 역할 분담
방법론은 비교적 단순한 흐름으로 정리된다. 출발점은 pretrained causal decoder이고, 목표는 같은 backbone을 유지한 채 bidirectional encoder로 재해석하는 것이다. 논문은 이를 위해 다섯 개의 상태를 구분한다. Base는 원래의 causal LM이고, Bi+Base는 mask만 바꾼 모델이다. Bi+MNTP는 양방향 attention 하에서 masking adaptation을 수행한 모델이고, Bi+Contrastive는 prior masking 없이 contrastive만 적용한 모델이다. 마지막 Bi+MNTP+Contrastive가 저자들이 권장하는 최종 텍스트 encoder 레시피다.
여기서 중요한 것은 구조 변경과 목적함수 변경을 구분하는 태도다. 단지 attention만 바꾼 Bi+Base는 구조적으로는 encoder처럼 보일 수 있지만, 실제 내부 표현은 그 역할에 충분히 적응하지 못한다. 반대로 contrastive만 강하게 걸면 retrieval류 점수는 빠르게 오를 수 있으나, encoder로서 필요한 문맥적 안정성과 task transferability는 부족할 수 있다. 그래서 논문은 먼저 bidirectional inductive bias를 주입하고, 그다음 임베딩 품질을 강화하는 순서를 채택한다.
Figure 1: 모델 변형별 downstream 성능 변화. Base 대비 절대 성능 차이를 막대로 표시하며, prior masking의 필요성을 가장 직접적으로 보여준다.
이 그림은 논문의 핵심 명제를 거의 한 장으로 요약한다. Bi+Contrastive는 MTEB 계열에서는 큰 상승폭을 보이지만, XNLI나 Seahorse 같은 fine-tuning 과제에서는 불안정하다. 반면 Bi+MNTP를 먼저 수행한 뒤 contrastive를 적용한 조합은 텍스트 임베딩과 downstream 성능을 함께 유지하거나 개선한다. 즉, 양방향 구조에 맞는 사전 적응 없이 contrastive만 수행하면 encoder 전환이 반쪽짜리에 그친다는 것이 이 그림의 메시지다.
논문에서 제시하는 masking objective의 핵심은 MNTP다. 저자들은 일부 토큰을 가린 뒤, causal LM의 next-token prediction 형식을 최대한 유지하면서도 양방향 문맥을 사용할 수 있도록 목표를 설계한다. 개념적으로는 mask된 위치 집합을 $\mathcal{M}$이라고 할 때 다음과 같이 쓸 수 있다.
$$\mathcal{L}_{\mathrm{MNTP}}=-\sum_{i\in\mathcal{M}} \log p_{\theta}(x_i \mid x_{\setminus i}; M_{\mathrm{bi}})$$
여기서 핵심은 단순히 토큰 복원을 한다는 사실보다, causal pretraining과의 연속성을 유지한다는 점이다. 논문은 바로 이 objective compatibility가 적응을 부드럽게 만들고, decoder가 원래 갖고 있던 지식을 불필요하게 훼손하지 않으면서 encoder 성질을 주입한다고 해석한다. 그래서 부록 비교에서도 MLM보다 MNTP가 전반적으로 우세한 결과가 나온다.
이후의 contrastive 단계는 표현 공간을 retrieval 친화적으로 정돈하는 역할을 한다. 논문은 InfoNCE를 사용하고, in-batch negatives와 hard negatives를 함께 활용한다. 일반적인 형태는 다음과 같다.
$$\mathcal{L}_{\mathrm{NCE}}=-\log \frac{\exp(\mathrm{sim}(q,k^{+})/\tau)}{\sum_{j=1}^{B}\exp(\mathrm{sim}(q,k_j)/\tau)}$$
이 손실은 query와 positive representation을 가깝게, negative와는 멀게 밀어내므로 검색과 임베딩 태스크에 직접적으로 유리하다. 다만 저자들의 해석대로라면, 이 단계는 encoder의 기본 구조를 세우는 공사가 아니라 이미 형성된 encoder를 retrieval-friendly representation space로 다듬는 마감 공정에 가깝다. 그래서 순서가 중요하다.
representation 추출 방식의 의미도 함께 볼 필요가 있다. bidirectional encoder에서는 최종 hidden state가 각 위치에서 문장 전체의 상호작용 결과를 담게 되므로, 마지막 토큰 기반 표현이든 mean pooling이든 모두 입력 전역의 통합 통계를 반영할 수 있다. 그러나 causal decoder에서 마지막 토큰 표현은 본래 왼쪽 문맥을 요약한 생성 힌트에 가까웠다. BidirLM이 양방향 적응을 선행하는 이유는 pooled representation이 실제로 전역 의미를 담도록 만들기 위해서다. 이 점을 무시하고 바로 contrastive를 적용하면, 표면적으로는 query-document 유사도가 개선되더라도 표현의 내부 구조가 downstream supervision에 맞게 정렬되지 않을 수 있다.
또한 방법론의 각 단계는 서로 다른 시간 축을 가진다. MNTP 단계는 수십억 토큰에 걸쳐 backbone 전체의 문맥 처리 방식을 바꾸는 장기 적응이고, contrastive 단계는 수백만 쌍 단위에서 표현 공간의 거리 구조를 재배치하는 중기 정제다. merge는 별도의 추가 학습 없이 체크포인트 간 비율만 조정하는 즉시 보정이며, specialist alignment는 500 step 수준의 단기 정렬이다. 즉 BidirLM의 전체 파이프라인은 하나의 단일 학습 절차가 아니라, 시간 규모가 다른 네 종류의 조작을 조합한 설계다. 저자들이 각 단계를 명확히 나누어 실험한 덕분에, 어떤 문제가 긴 적응으로 해결되고 어떤 문제는 짧은 정렬이나 단순한 선형 보간으로 해결되는지가 분해되어 드러난다.
3.2 Weight merging으로 분포 기억을 복원하는 보정 단계
논문이 다루는 또 다른 핵심 연산은 weight merging이다. 적응된 encoder와 원래의 base checkpoint가 weight space에서 충분히 가깝다면, 선형 보간만으로도 forgetting을 줄일 수 있다는 생각이다. 수식은 매우 단순하다.
$$\theta_{\lambda}=(1-\lambda)\theta_{\mathrm{base}}+\lambda\theta_{\mathrm{adapt}}$$
흥미로운 점은 이 단순한 수식이 실제로 잘 작동한다는 사실이다. 저자들은 adapted encoder와 base causal model의 평균 cosine similarity가 Gemma에서 0.78, Qwen에서 0.97로 높게 유지된다고 보고한다. 즉 parameter displacement가 생각보다 작기 때문에, 선형 경로 상의 특정 지점에서 bidirectional 능력과 원래 분포 지식을 동시에 어느 정도 보존할 수 있다는 해석이 가능해진다.
| 모델 상태 | 구성 | 기대 효과 |
|---|---|---|
| Base | 원래 causal LLM | 생성 능력 기준점 |
| Bi+Base | attention mask만 양방향으로 변경 | 구조 변화 자체의 효과 측정 |
| Bi+MNTP | 양방향 mask + masking adaptation | encoder화의 핵심 단계 |
| Bi+Contrastive | 양방향 mask + contrastive only | prior masking 없이 retrieval 강화 |
| Bi+MNTP+Contrastive | MNTP 후 contrastive | 논문의 권장 레시피 |
이 표가 보여주는 구조는 단순하지만, 논문의 설득력은 바로 이런 분해 능력에서 나온다. 기존 논의가 구조·목표·후속 학습을 한꺼번에 묶어 비교했다면, BidirLM은 각각을 독립 변수처럼 다루고 그 조합을 측정한다. 그 결과 양방향 attention 자체, MNTP 사전 적응, contrastive 미세조정가 서로 다른 역할을 가진다는 결론이 드러난다.
방법론을 구현 관점에서 다시 읽으면, 저자들의 선택은 가능한 한 원래 decoder가 학습한 분포와 목표를 끊지 않으려는 보수적 전환 전략에 가깝다. attention mask는 bidirectional로 바꾸되 backbone과 토크나이저를 유지하고, MLM 대신 MNTP를 선택해 next-token prediction과의 연속성을 확보하며, contrastive 단계도 후행 공정으로 밀어 넣는다. 이는 encoder화를 위해 완전히 다른 학습 철학을 도입하기보다, 기존 체크포인트가 이미 가진 언어 지식을 손상시키지 않는 범위에서 역할만 재배치하겠다는 접근이다.
특히 MNTP는 decoder 전환의 미세한 균형을 보여주는 설계다. [MASK] 토큰을 사용해 복원하는 MLM은 양방향 정보를 직접 활용하는 데 익숙하지만, causal LLM 입장에서는 pretraining 동안 한 번도 보지 못한 표식을 다루게 하고 예측 위치의 의미도 바꿔 놓는다. 반면 MNTP는 토큰 일부를 가리더라도 예측 형식 자체는 next-token prediction의 변형으로 남겨 두어, 모델이 익숙한 로짓 구조와 최적화 신호를 계속 활용할 수 있게 만든다. 부록에서 여러 마스킹 비율을 비교한 이유도 이러한 objective compatibility가 실제 수치 차이로 이어지는지를 검증하기 위해서다.
weight merging 역시 단순한 후처리가 아니라 전체 방법론의 일부로 이해할 필요가 있다. encoder화는 attention mask와 목적함수를 바꾸는 과정인 동시에, 원본 weight space에서의 이동을 수반한다. 저자들은 이 이동이 생각보다 크지 않다는 사실을 계량적으로 확인하고, 그 결과 linear interpolation이 실제로 유효한 복원 기제가 될 수 있음을 보인다. 즉 BidirLM의 파이프라인은 구조 적응, 표현 정제, 분포 복원의 세 단계로 읽을 수 있으며, 각 단계가 서로 다른 실패 모드를 겨냥한다.
4. 실험 설정: 데이터 구성과 학습 단계의 의도
4.1 데이터셋 및 벤치마크: 텍스트·이미지·오디오 평가 축
실험 설계는 텍스트 encoder 적응과 멀티모달 확장을 모두 포괄한다. 작은 규모의 ablation은 Gemma3-270M과 Qwen3-0.6B에서 진행되며, 스케일링과 최종 모델은 Gemma3-1B, Qwen3-1.7B까지 확장된다. 최종 라인업은 BidirLM-270M, BidirLM-0.6B, BidirLM-1B, BidirLM-1.7B, 그리고 specialist 조합을 거친 BidirLM-Omni-2.5B다.
텍스트 적응에 사용되는 masking 데이터는 기본적으로 FineWeb-Edu에서 시작한다. 그러나 forgetting 분석에서는 여기서 멈추지 않고 FineWeb2-HQ, FineMath, Stack V2를 섞어 다국어·수학·코드 분포를 일부 재주입한다. contrastive 데이터는 KaLM-embedding English subset과 89개 데이터셋을 합친 multi-domain corpus가 사용된다. 즉, 적응의 앞단은 구조적 encoder화에, 뒷단은 retrieval 품질 향상에 맞춰 서로 다른 데이터 구성이 들어간다.
멀티모달 실험의 데이터 설계도 구체적이다. Omni-Contrastive는 총 1.8M pair 규모이며, 텍스트-텍스트가 65%, 오디오-텍스트가 17.5%, 이미지-텍스트가 17.5%를 차지한다. audio-text에는 Laion-Audio-300M 일부와 LibriSpeech ASR이, image-text에는 ColPali, NatCap, MSCOCO가 사용된다. 이 조합은 encoder backbone에 이미지를 붙이는 수준을 넘어, 오디오까지 포함한 representation space를 구축하려는 의도를 보여준다.
평가 체계 역시 두 갈래로 나뉜다. 하나는 fine-tuning evaluation으로, XTREME augmented 벤치마크를 통해 검색, 분류, 토큰 태깅, 회귀를 측정한다. 다른 하나는 embedding evaluation으로, 텍스트는 MTEB English와 Multilingual v2, 이미지는 MIEB-lite, 오디오는 MAEB-beta를 사용한다. 이렇게 해야만 논문의 핵심 주장인 “embedding도 잘하고 fine-tuning도 망가지지 않는 encoder”를 제대로 검증할 수 있다.
4.2 구현 세부사항: 토큰 예산과 학습 단계별 길이
하이퍼파라미터 측면에서 ablation masking은 대체로 10B tokens를 기준으로 하고, forgetting 분석에서는 30B tokens까지 길게 확장한다. contrastive는 소형 ablation에서 3M, 최종 모델에서는 10M 샘플 규모가 사용된다. specialist alignment fine-tuning은 겨우 500 steps만 수행되는데, 이 짧은 정렬 단계만으로도 상당한 전이 효과가 확인된다는 점이 중요하다.
4.3 베이스라인: 오픈소스 encoder와 multimodal embedding 계열 비교
이 설정은 계산 예산의 우선순위를 잘 보여 준다. 가장 많은 토큰과 시간이 투입되는 곳은 encoder의 기본 성질을 바꾸는 masked adaptation 단계이며, contrastive는 그보다 짧지만 여전히 충분한 규모의 쌍 데이터를 사용해 표현 공간을 재정렬한다. 반면 specialist 정렬은 최소한의 step만 사용한다. 이는 저자들이 능력 전이의 핵심을 긴 task-specific supervision이 아니라, 적절한 초기화와 backbone 정렬에서 찾고 있음을 뜻한다. 결과적으로 학습 예산은 구조 전환과 표현 정제에 집중되고, 특정 태스크를 위한 감독 신호는 필요한 범위에서만 짧게 사용된다.
실험 데이터의 출처가 서로 다른 점도 중요하다. FineWeb 계열은 대규모 일반 텍스트 분포를 제공하고, FineMath와 Stack V2는 수학과 코드처럼 원래 base 모델이 보유했을 가능성이 높은 전문 분포를 다시 공급한다. contrastive용 89개 데이터셋 병합 코퍼스는 검색, 유사도, 쌍대 정렬과 관련된 신호를 제공하며, Omni-Contrastive는 텍스트를 축으로 시각과 음성을 동일 공간에 얹는다. 이렇게 서로 다른 데이터 소스가 단계별로 배치되면서, 각 objective가 요구하는 통계가 보다 직접적으로 제공된다. 논문의 실험 설정은 단순히 데이터를 많이 쓰는 방식이 아니라, 어떤 단계에 어떤 통계량이 필요한가를 분해해 설계한 구조로 이해할 수 있다.
| 구분 | 세부 설정 | 비고 |
|---|---|---|
| Ablation 모델 | Gemma3-270M, Qwen3-0.6B | MNTP·contrastive 비교의 중심 |
| 확장 모델 | Gemma3-1B, Qwen3-1.7B | 최종 frontier 비교 |
| Masking 데이터 | FineWeb-Edu, FineWeb2-HQ, FineMath, Stack V2 | forgetting 완화용 mixture 포함 |
| Contrastive 데이터 | KaLM subset, 89개 데이터셋 병합 코퍼스 | hard negatives 사용 |
| 멀티모달 contrastive | 1.8M pairs, text/audio/image 혼합 | Omni-2.5B 학습용 |
| 학습 단계 | 대표 설정값 | 설명 |
|---|---|---|
| Masked adaptation | 10B 토큰, 일부 분석은 30B 토큰 | encoder화 및 forgetting 분석 |
| Contrastive | 소형 3M, 최종 10M 샘플 | embedding 품질 강화 |
| Specialist alignment | 500 steps | safety·vision·audio 정렬 |
| Masked LR 예시 | 5e-4, 1e-4, 7e-5, 5e-5 | 모델 크기별 차등 적용 |
| Contrastive LR 예시 | 6e-5, 3e-5, 1e-4 | 최종 임베딩 정제 단계 |
데이터와 평가의 조합만 봐도 논문이 매우 실용적인 기준을 택하고 있음을 알 수 있다. 저자들은 scratch pretraining과의 이론 대결보다, 이미 존재하는 공개 causal model을 재활용 가능한 encoder 자산으로 바꾸는 문제에 집중한다. 따라서 모델 규모, 데이터 선택, 평가 지표 모두가 이 현실적 목표를 중심으로 조직되어 있다.
실험 설정에서 눈에 띄는 또 다른 점은 규모 확장의 순서다. 저자들은 먼저 270M과 0.6B 규모에서 ablation을 통해 설계 원리를 검증하고, 그 뒤 1B와 1.7B에서 스케일링이 같은 방향으로 이어지는지를 확인한다. 이는 계산 비용이 큰 최종 모델에서 무작정 여러 조합을 시험하는 대신, 작은 모델에서 구조적 결론을 먼저 얻고 큰 모델에서는 그 결론이 유지되는지 검증하는 전형적인 실험 공학의 방식이다. 따라서 결과를 읽을 때는 단순히 가장 큰 모델의 최고 점수보다, 각 단계에서 어떤 설계가 일관되게 살아남았는지를 보는 편이 적절하다.
데이터 구성도 단계별 목적에 맞게 세분화되어 있다. masking adaptation에 사용되는 FineWeb-Edu와 multi-domain mixture는 구조 전환과 분포 보정을 담당하고, contrastive data는 표현 공간에서의 쌍대 정렬을 담당한다. 다시 말해 하나의 데이터셋으로 모든 문제를 해결하려 하지 않고, objective마다 필요한 통계적 신호를 별도로 공급한다. 이 분리는 BidirLM의 결과를 해석할 때 중요하다. 성능 향상이 하나의 거대 코퍼스에서 자연스럽게 나온 것이 아니라, 구조 적응과 임베딩 정제를 분리한 설계에서 비롯되기 때문이다.
평가 셋의 구성 역시 논문의 주장과 긴밀히 맞물린다. 만약 저자들이 MTEB만 보고 결론을 내렸다면, contrastive-only 모델도 상당히 강력해 보일 수 있다. 그러나 XTREME-aug를 함께 사용하면 retrieval, 분류, 토큰 태깅, 회귀가 모두 등장하고, 그 과정에서 encoder 전환의 약점이 훨씬 더 명확하게 드러난다. 특히 다국어와 코드, 수학이 섞인 평가군을 별도로 배치한 것은 forgetting 문제를 정량적으로 드러내기 위한 장치다. 이 때문에 본 논문의 실험 섹션은 단순한 성능 나열이 아니라, 각 설계 요소가 어떤 작업군에서 이득 또는 손실로 나타나는지를 추적하는 분석 실험의 성격을 갖는다.
멀티모달 설정에서도 동일한 원칙이 반복된다. Omni-Contrastive를 텍스트 중심 65%에 이미지와 오디오를 각각 17.5%씩 배치한 이유는, backbone의 언어적 안정성을 유지하면서 새 모달리티 정렬 신호를 주입하기 위해서다. 시각과 음성 샘플 비율을 과도하게 높이지 않으면서도 각 모달의 representation head가 하나의 공유 공간으로 들어오도록 설계한 것이다. 결과적으로 BidirLM-Omni-2.5B의 성능은 단순히 더 많은 모달리티를 붙였기 때문이 아니라, 텍스트 중심 backbone과 specialist head의 관계를 깨지 않는 범위에서 정렬 데이터를 조합한 실험 설계의 산물로 해석할 수 있다.
5. 주요 실험 결과: Prior Masking이 왜 결정적인가
5.1 Contrastive-only 대비 Bi+MNTP의 우위
논문의 가장 중요한 ablation은 단연 prior masking의 필요성을 보여주는 부분이다. 저자들은 Base, Bi+Base, Bi+MNTP, Bi+Contrastive, Bi+MNTP+Contrastive를 나란히 비교하여, 구조 변경만으로 충분한지, contrastive만으로 충분한지, 또는 순차 적용이 필요한지를 검증한다. 결론은 매우 선명하다. bidirectionality만 켜는 것도 불완전하고, contrastive만 하는 것도 불완전하다.
Gemma3-270M에서 Bi+Base는 MIRACL에서 -0.8, Seahorse에서 -15.5를 기록하며 구조 전환만으로는 불안정함을 보인다. 반면 MTEB English v2에서는 +8.5가 나오므로, 양방향 attention 자체가 retrieval 류에 주는 이점은 존재한다. 이 대비는 매우 중요하다. 즉 encoder처럼 보이는 구조가 retrieval의 일부 지표를 개선할 수는 있지만, 그것이 곧 범용 encoder 전환의 성공을 뜻하지는 않는다는 이야기다.
Bi+Contrastive는 이 경향을 더 극적으로 보여준다. Gemma3-270M에서 MTEB는 +27.7까지 크게 오르지만, Seahorse는 여전히 -7.8이다. Qwen3-0.6B에서도 비슷하게 MTEB가 +34.3까지 상승하지만 XNLI와 회귀 작업은 prior masking이 있는 경우보다 열세다. 다시 말해, contrastive는 표현 공간을 retrieval에 맞게 재배열하는 데 탁월하지만, 그 자체가 양방향 인코더의 충분조건은 아니다.
Figure 2: MLM과 MNTP 비교. decoder-to-encoder 전환에서 MNTP가 더 자연스러운 브리지 objective라는 점을 시각적으로 보여준다.
이 그림은 masking objective의 차이를 정리한다. 저자들이 여러 mask ratio를 비교한 결과, Qwen3-0.6B는 MNTP 30%, Gemma3-270M은 MNTP 40% 부근에서 가장 좋은 평균 성능을 보였고, 대부분의 설정에서 Bi+MNTP가 Bi+MLM보다 우세했다. 이는 decoder가 원래 next-token prediction으로 학습되었다는 사실과 잘 맞물린다. 즉 같은 복원형 목표라도, causal pretraining의 문법과 더 가까운 objective가 전환 비용을 줄인다고 해석할 수 있다.
결국 논문이 권장하는 최종 텍스트 레시피는 Bi+MNTP 후 Contrastive다. Gemma3-270M에서는 XNLI가 +0.8, Seahorse가 +0.9, MTEB가 +27.5로 균형을 맞춘다. Qwen3-0.6B에서는 MIRACL +1.8, XNLI +1.1, Seahorse +5.7, MTEB +35.7이 보고된다. 이 결과는 encoder 적응의 정답이 “contrastive를 잘 건다”가 아니라 “먼저 encoder처럼 사고하도록 만든다”에 있음을 보여준다.
| 모델 | 변형 | MIRACL | XNLI | Seahorse | MTEB |
|---|---|---|---|---|---|
| Gemma3-270M | Bi+Base | -0.8 | +0.0 | -15.5 | +8.5 |
| Gemma3-270M | Bi+Contrastive | -0.4 | +0.0 | -7.8 | +27.7 |
| Gemma3-270M | Bi+MNTP | +0.0 | +0.8 | +1.2 | +14.6 |
| Qwen3-0.6B | Bi+Contrastive | +1.5 | +0.1 | -3.0 | +34.3 |
| Qwen3-0.6B | Bi+MNTP+Contrastive | +1.8 | +1.1 | +5.7 | +35.7 |
표에서 특히 눈에 띄는 값은 Seahorse다. 이 회귀 태스크는 representation이 문장 의미를 얼마나 안정적으로 보존하는지, 그리고 fine-tuning 중 얼마나 잘 재구성되는지를 매우 민감하게 드러낸다. 구조 변경만 한 경우 큰 폭의 손실이 나고, contrastive만 한 경우 손실이 줄긴 하지만 여전히 음수다. 반면 MNTP를 먼저 넣은 경우 양수로 돌아선다. 따라서 prior masking의 필요성은 단지 평균 점수의 문제가 아니라, encoder가 downstream supervision을 흡수할 수 있는지 여부와 직결된다.
같은 표에서 PAN-X가 상대적으로 안정적인 이유도 해석할 가치가 있다. 토큰 태깅은 각 위치의 문맥 정보가 중요하지만, 문장 전체를 하나의 압축 벡터로 정교하게 요약하는 능력보다 지역적 문맥과 표면 패턴의 영향이 더 클 수 있다. 그래서 bidirectional mask만으로도 큰 폭의 악화가 나타나지 않는다. 반면 XNLI와 Seahorse는 문장 단위 의미 관계와 세밀한 의미 보존을 요구하므로, encoder 내부 표현이 실제로 양방향 문맥 통합 구조를 학습했는지가 성패를 가른다. 이 대비는 prior masking의 효과가 모든 태스크에 동일하게 나타나는 것이 아니라, 문장 수준 의미 조합이 중요한 과제에서 특히 결정적임을 보여 준다.
이 결과를 더 일반화해 보면, decoder의 내부 표현은 본래 왼쪽 문맥에 조건부인 생성 과정에 맞춰져 있다. 양방향 attention을 켠다고 해서 그 표현이 자동으로 문장 전체를 동시에 압축하는 encoder 표현으로 바뀌지는 않는다. MNTP는 바로 이 간극을 메우는 중간 단계로 기능한다. 그래서 논문은 prior masking을 선택 사항이 아니라, 사실상 필수 단계로 제안한다.
수치 해석의 관점에서 보면, prior masking의 중요성은 단순히 평균 개선폭의 크기보다 손실 패턴의 방향성에서 더 분명하다. Bi+Base는 일부 retrieval 지표를 올리면서도 Seahorse 같은 회귀 태스크를 크게 훼손하고, Bi+Contrastive는 그 손실을 다소 줄이지만 음수 구간을 완전히 벗어나지 못한다. 반면 Bi+MNTP는 retrieval 상승폭이 다소 작더라도 fine-tuning 적합성을 회복하고, 여기에 contrastive를 덧붙였을 때 두 종류의 목표가 동시에 만족된다. 즉 MNTP는 단독으로 최고 MTEB를 만드는 단계가 아니라, 이후 contrastive가 downstream 성능을 해치지 않고 작동하게 만드는 안정화 단계로 이해하는 것이 맞다.
또한 Gemma와 Qwen에서 비슷한 경향이 반복된다는 점도 중요하다. 두 계열은 모델 크기와 pretraining 세부 설정이 다르지만, contrastive-only의 한계와 MNTP 선행의 이점이 공통적으로 관찰된다. 이는 결과가 특정 백본에 우연히 맞아떨어진 것이 아니라, causal decoder를 bidirectional encoder로 전환할 때 나타나는 보다 일반적인 문제를 포착하고 있음을 시사한다. 저자들이 appendix에서 mask ratio까지 폭넓게 비교한 것도 이 결론의 구조적 타당성을 강화한다.
실무 관점에서는 이 실험이 특히 유용하다. 검색 시스템을 위해 임베딩 모델 하나만 빠르게 만들고자 한다면 contrastive-only도 유혹적인 선택지가 될 수 있다. 그러나 같은 backbone을 분류나 회귀, 토큰 태깅에 재사용하려면 그러한 지름길은 비용이 된다. 논문은 바로 이 지점을 수치로 보여 주며, 범용 encoder를 목표로 할 경우 MNTP를 생략하면 안 된다는 운영 규칙을 제시한다.
6. 추가 분석 및 Ablation Study: Catastrophic Forgetting과 Weight Merging, Data Mixture
6.1 Forgetting이 발생하는 축과 merge 보정의 효과
encoder 적응이 성공하더라도 문제가 끝나는 것은 아니다. 영어 위주의 공개 데이터로 masking adaptation을 길게 돌리면, 모델은 새로운 objective에 점점 더 잘 맞는 대신 원래의 폭넓은 지식을 잊어버릴 수 있다. 논문은 이 문제를 장기 adaptation 실험으로 정면에서 보여준다. 10B 토큰 적응 이후 30B 토큰까지 확장했을 때, Gemma는 아랍어 MIRACL에서 -7.0, XNLI에서 -2.0 수준의 하락이 관찰되고, Qwen은 MathShepherd와 CodeSearchNet에서 각각 -1.5, -2.0 하락한다.
Figure 3: 장기 adaptation 동안의 성능 변화. 영어 중심 적응이 길어질수록 다국어·수학·코드 능력이 무너지고, merge와 mixture가 이를 회복시키는 과정을 보여준다.
이 그림은 forgetting의 성격이 단순 노이즈가 아니라 분포 이탈에서 비롯된다는 점을 분명하게 보여준다. 영어 텍스트만으로 양방향 적응을 강화하면, 모델은 encoder objective에는 더 잘 적응하지만 원래 pretraining이 커버하던 광범위한 분포에서 멀어진다. 따라서 성능 저하는 구조 전환의 부작용이라기보다, 공개 데이터와 원래 데이터 분포의 차이가 누적된 결과로 읽는 편이 맞다.
이때 논문이 제안하는 첫 번째 해법은 weight merging이다. adapted checkpoint와 base checkpoint의 cosine similarity가 높다는 관찰을 바탕으로, 양자를 선형 보간하면 적응된 encoder 성질을 유지하면서 원래의 지식을 일부 되돌릴 수 있다는 발상이다. 이 접근은 추가 학습 비용이 거의 없고, 원본 데이터에 접근할 필요도 없다는 점에서 특히 실용적이다.
Figure 4: merge 비율에 따른 성능 변화. 대체로 50% 전후에서 bidirectional 적응과 원래 지식 보존 사이의 균형이 가장 좋다.
이 그림에서 가장 눈에 띄는 결론은 50% 부근의 merge가 최적이라는 점이다. 너무 adapted 쪽으로 기울면 forgetting이 남고, 너무 base 쪽으로 기울면 bidirectional encoder로서의 이득이 약해진다. 저자들은 Gemma에서 code와 Arabic MNLI가 unmerged 대비 대략 +6p 수준 회복되고, Qwen에서는 math에서 +4p 수준 회복된다고 정리한다. 단순한 선형 보간으로 이런 회복이 나온다는 사실은 weight space의 연속성이 실제로 활용 가능하다는 강한 실증이다.
두 번째 해법은 multi-domain data mixture다. FineWeb-Edu 위주로 적응을 지속하는 대신, 다국어·수학·코드 데이터를 일부 섞어 원래 분포와의 괴리를 줄인다. 저자들이 찾은 좋은 비율은 20~30%이며, 이후 실험에서는 비용과 단순성을 고려해 20% mixture를 채택한다.
Figure 5: multi-domain 데이터 혼합 비율에 따른 성능. 적은 양의 보조 분포만 섞어도 다국어·코드·수학 성능이 빠르게 회복된다.
이 그림의 메시지는 매우 실무적이다. 전체 데이터를 새로 설계하거나 거대한 replay buffer를 구성하지 않아도, 소량의 분포 보정만으로 forgetting이 상당 부분 완화된다. 특히 20~30% 구간에서 plateau가 나타난다는 사실은, 원래 분포를 완벽히 재현하지 못하더라도 핵심 스펙트럼만 다시 섞어주면 충분한 복원 효과가 생길 수 있음을 시사한다.
저자들이 최종적으로 선호하는 구성은 Multilingual + Merge 조합이다. 이 설정에서 두 아키텍처 모두 XNLI와 MIRACL 평균이 대략 +2p 개선되고, Gemma의 코드 벤치마크는 최대 +11p까지 상승한다. 중요한 점은 이 성능 회복이 새로운 복잡한 objective의 결과가 아니라, weight-space 보정과 data-space 보정의 조합이라는 것이다.
이 결과는 open-data adaptation의 운영 원칙을 비교적 명확하게 정리해 준다. 먼저 구조 적응을 위해 영어 중심 코퍼스를 사용하더라도, 장기 스케일링 단계에서는 반드시 다국어·수학·코드 축을 다시 주입해야 한다. 동시에 적응이 끝난 뒤에는 base checkpoint와의 선형 보간을 통해 기능적 중심점을 재조정하는 편이 안전하다. 즉 장기 적응의 위험은 학습 중 데이터 분포와 학습 후 파라미터 위치라는 두 축에서 관리되어야 하며, BidirLM은 이 두 축을 분리해 다룬다. 이 점에서 forgetting 섹션은 단순한 에러 분석이 아니라, 공개 체크포인트를 기반으로 한 encoder 전환의 표준 운영 절차를 제안하는 부분으로 읽을 수 있다.
결국 forgetting 분석은 이 논문의 현실성을 강화한다. 많은 adaptation 논문이 오직 최종 점수만 보고 지나가지만, BidirLM은 오픈 재현 환경에서 실제로 마주치는 한계를 솔직하게 드러내고, 그에 대한 저비용 처방까지 함께 제시한다. 이 때문에 BidirLM의 레시피는 단순히 성능 좋은 실험 설정이 아니라, 재현 가능한 운영 절차로 읽을 가치가 있다.
forgetting 결과를 자세히 읽으면, 손실이 임의적으로 퍼지는 것이 아니라 적응 데이터가 과소대표하는 영역에 집중된다는 점이 확인된다. Gemma에서는 아랍어와 같은 다국어 영역에서 더 큰 저하가 나타나고, Qwen에서는 수학과 코드에서 눈에 띄는 하락이 보고된다. 이는 encoder 전환 자체가 특정 능력을 일괄적으로 약화시킨다기보다, 장기 adaptation이 현재 입력 분포에 지나치게 맞춰지면서 원래 checkpoint가 보유하던 희귀 영역의 표현을 덜 사용하게 만든다는 뜻이다. 따라서 해법도 구조를 다시 바꾸는 방향이 아니라, 분포를 보정하는 방향으로 제시된다.
이 점에서 weight merging은 매우 경제적인 해법이다. 원본 checkpoint와 적응 checkpoint가 충분히 가까운 경우, 둘을 선형 보간하는 것만으로도 희석된 능력을 다시 끌어올릴 수 있다. 논문이 제시한 cosine similarity 값은 이러한 가정이 임의적이지 않음을 뒷받침한다. 특히 Qwen에서 0.97에 달하는 근접성은, 적응 과정이 완전히 새로운 해로 이동했다기보다 기존 해 주변의 비교적 좁은 영역에서 역할을 재조정했음을 의미한다. 이 경우 merge는 파라미터 공간에서의 타협점이 아니라, 서로 다른 목적을 만족하는 인접한 해들을 다시 섞어 쓰는 조정 기법으로 작동한다.
data mixture 해석도 중요하다. 저자들은 20~30%의 multi-domain 비중에서 성능 회복이 plateau를 보인다고 보고하는데, 이는 원래 pretraining 분포를 완벽히 복원해야만 forgetting을 막을 수 있다는 통념과 다르다. 실제로는 다국어·수학·코드의 핵심 축을 일정 비율로 되돌려 주는 것만으로도, 모델이 adaptation 동안 잃어버렸던 표현 경향을 상당 부분 다시 활성화할 수 있다. 따라서 BidirLM의 처방은 대규모 replay보다 핵심 분포 축의 재주입에 가깝다.
최종적으로 merge와 mixture를 함께 썼을 때 얻는 개선은, 하나는 weight-space 보존, 다른 하나는 data-space 보존을 담당한다는 점에서 상보적이다. 전자는 원래 checkpoint의 기능적 출발점을 수치적으로 다시 끌어오고, 후자는 장기 적응 중 입력 분포를 재균형화한다. 논문은 이 두 조치가 서로 대체 관계가 아니라 결합될 때 가장 안정적인 결과를 낸다는 점을 보여 주며, open-data 환경에서의 encoder 전환이 어떤 운영 원칙을 따라야 하는지 구체적으로 제시한다.
6.2 Specialist 합성과 Omnimodal Encoder 확장: 기능을 재학습하지 않고 옮기는 법
논문의 후반부가 특히 흥미로운 이유는, BidirLM이 텍스트 encoder에서 끝나지 않기 때문이다. 저자들은 이미 존재하는 전문 causal 모델들을 양방향 encoder와 merge하여 특정 능력을 옮길 수 있는지 실험한다. 이때 핵심 가정은 backbone이 충분히 유사하면, weight space에서의 선형 조합이 기능적 초기화로 작동할 수 있다는 것이다.
먼저 safety specialization 실험에서는 Bi+MNTP Qwen3-0.6B와 Qwen3Guard-Gen-0.6B를 50% 비율로 merge하고, Beaver에서 500 step 미세조정한다. 결과는 단순히 최종 점수가 좋다는 수준을 넘어, 학습 초반부터 훨씬 빠르게 수렴한다는 점이 중요하다. 논문은 20 steps, 즉 약 80개 샘플만 보고도 각 벤치마크 peak의 93% 이상에 도달하며, 같은 시점의 다른 변형보다 5점 이상 앞선다고 보고한다.
Figure 6: safety specialization 곡선. merge 초기화가 빠른 수렴과 더 높은 OOD 일반화를 동시에 만든다는 점을 보여준다.
이 그림의 의미는 명확하다. merge는 단지 성능을 약간 높이는 편법이 아니라, 전문 능력이 이미 담긴 가중치 공간의 출발점을 제공한다. 따라서 이후의 짧은 supervised fine-tuning은 완전히 새로운 기능을 학습하기보다, 이미 겹쳐진 backbone 위에서 decision boundary를 정렬하는 과정에 가까워진다.
비슷한 방식은 vision과 audio specialization에도 적용된다. vision 쪽에서는 Bi+MNTP Qwen3-1.7B와 Qwen3-VL-2B-Instruct를 merge하고, audio 쪽에서는 Bi+MNTP Qwen3-0.6B와 Qwen3-ASR-0.6B를 merge한다. 논문이 보고한 cosine similarity는 vision pair에서 0.97, audio pair에서 0.93로 높다. 이는 shared backbone이 충분히 가깝다는 근거이며, 왜 단순 선형 합성이 예상보다 잘 작동하는지 설명해 준다.
Figure 7: vision·audio specialization 과정. merged 변형이 최종 성능은 가장 높지만, modality head와 backbone의 정렬을 위해 짧은 warm-up 구간이 필요하다.
이 그림에서 드러나는 특징은 warm-up이다. vision은 약 100 steps, audio는 약 175 steps 정도의 적응 구간을 거친 뒤 성능이 본격적으로 상승한다. 이는 새 모달리티 head와 text backbone의 표현 공간이 처음부터 완벽히 맞물리지는 않기 때문이다. 그럼에도 merged variant가 최종적으로 vision에서 Bi+Specialist 대비 1점 이상, unmerged 대비 30점 이상, audio에서 Bi+Specialist 대비 15점 이상, unmerged 대비 19점 이상 앞선다는 결과는 merge 초기화의 강점을 강하게 뒷받침한다.
warm-up의 존재는 specialist merge를 해석할 때 중요한 단서를 제공한다. merge는 backbone 수준의 언어적·개념적 편향을 빠르게 옮길 수 있지만, 각 모달 입력을 처리하는 projector나 head가 요구하는 세부 좌표계까지 자동으로 맞춰 주지는 않는다. 그래서 초기 수십~수백 step에서는 표현 공간의 기준축을 다시 정렬하는 과정이 필요하다. 이후 성능이 빠르게 상승하는 것은, backbone 차원의 기능 전이가 이미 충분히 이뤄졌고 남은 문제는 모달별 입출력 인터페이스 정렬이라는 뜻이다. 이는 merge의 효과가 얕은 파라미터 평균이 아니라, 실제 기능적 공통 부분을 보존한 초기화라는 해석을 뒷받침한다.
이제 논문의 가장 야심찬 산물인 BidirLM-Omni-2.5B가 등장한다. 구성 방식은 비교적 독창적이다. 저자들은 Qwen3-ASR-1.7B, Qwen3-VL-2B, Qwen3-1.7B Bi+MNTP의 text backbone을 각각 1/3씩 equal merge하고, specialist의 audio head와 visual head를 frozen 상태로 부착한다. 그 위에서 1.8M multimodal pair로 contrastive 학습을 수행해 텍스트·이미지·오디오를 하나의 representation space에 정렬한다.
이 조립법이 갖는 의미는 크다. 일반적으로 omnimodal model은 처음부터 모든 모달을 함께 학습하는 거대한 시스템으로 상상되지만, 이 논문은 오히려 이미 존재하는 생성형 specialist를 모듈처럼 합성하는 접근을 택한다. 즉 학습 비용을 수평적으로 분산시키고, 나중에 weight merging과 짧은 정렬 학습으로 다시 묶는 방식이다. 이 전략은 오픈소스 멀티모달 연구에서 매우 실용적인 확장 경로가 될 수 있다.
| 전이 대상 | merge 구성 | 후속 학습 | 핵심 관찰 |
|---|---|---|---|
| Safety | Bi+MNTP Qwen3-0.6B + Qwen3Guard-Gen-0.6B | Beaver 500 steps | 학습 초반부터 빠른 수렴, 평균 1점 이상 우세 |
| Vision | Bi+MNTP Qwen3-1.7B + Qwen3-VL-2B-Instruct | e-SNLI-VE 500 steps | 100 step 내외 warm-up 후 최고 성능 |
| Audio | Bi+MNTP Qwen3-0.6B + Qwen3-ASR-0.6B | BoolQ-Audio 500 steps | 175 step 내외 warm-up 후 강한 개선 |
| Omni-2.5B | ASR-1.7B, VL-2B, Bi+MNTP 1.7B backbone 1/3씩 merge | 1.8M multimodal contrastive | text·image·audio 통합 representation |
물론 이 접근이 모든 상황에서 통할 것이라고 일반화할 수는 없다. 논문 스스로도 shared backbone의 유사성이 중요한 조건임을 시사한다. 하지만 적어도 동일 계열 Qwen backbone 위에서는, merge가 단순한 파라미터 평균을 넘어 기능 전이의 실질적 수단이 될 수 있음을 보여준다. 이 지점이야말로 BidirLM이 “텍스트 인코더 논문” 이상으로 읽히는 이유다.
specialist 전이의 핵심은, 각 전문 모델이 이미 특정 목적을 위해 정교하게 조정된 기능적 편향을 갖고 있다는 점이다. safety specialist는 유해성 분류와 정책 판단에 맞는 decision boundary를, vision specialist는 시각 토큰과 언어 표현의 접점을, audio specialist는 음성 신호와 텍스트 의미 사이의 정렬 규칙을 갖고 있다. BidirLM은 이 편향을 완전히 새로 학습하기보다, 동일하거나 유사한 text backbone을 공유한다는 사실을 이용해 weight space에서 초기 상태로 주입한다. 그 뒤 500 step 수준의 짧은 fine-tuning으로 각 태스크의 출력을 정렬하므로, 기능 습득의 대부분이 merge 단계에서 이미 준비되어 있다고 볼 수 있다.
safety 실험에서 특히 눈에 띄는 것은 초기 수렴 속도다. 20 steps 만에 peak의 93% 이상에 도달한다는 결과는, merge 초기화가 단순히 최종점수를 높이는 것보다 학습 곡선 전체를 앞당긴다는 뜻이다. 이는 데이터가 적거나 빠른 적응이 중요한 환경에서 매우 큰 장점이다. 같은 논리가 vision과 audio에서도 반복되지만, 두 모달에서는 warm-up 구간이 나타난다. 이는 specialist head가 공유 backbone 위에 얹히는 과정에서, text 중심으로 재정렬된 encoder 표현과 각 모달의 전용 입력 표현이 다시 맞물려야 하기 때문이다.
Omni-2.5B의 구성은 이러한 관찰을 하나의 조립 규칙으로 일반화한다. 서로 다른 specialist의 backbone을 1/3씩 병합하고, audio head와 visual head를 보존한 채 multimodal contrastive로 공동 공간을 형성한다는 설계는, 멀티모달 학습을 단일 거대 사전학습으로 환원하지 않는다. 오히려 각 specialist가 이미 충분히 학습한 부분은 최대한 유지하고, 공유해야 하는 텍스트 표현 공간만 최소 비용으로 다시 정렬한다. 그 결과 BidirLM-Omni-2.5B는 text/image/audio 모두를 다루는 통합 표현 모델로 기능하게 된다.
이 섹션의 결과 해석에서 중요한 점은, merge가 모든 모달리티 차이를 즉시 해소해 주는 만능 도구는 아니라는 사실이다. vision에서 약 100 steps, audio에서 약 175 steps의 warm-up이 필요하다는 보고는, shared backbone이 높게 유사하더라도 입력 통계와 head 구조 차이로 인해 추가 정렬이 필수적임을 보여 준다. 그럼에도 최종 성능이 unmerged 변형을 큰 폭으로 앞서는 것은, merge가 적어도 전문가 능력의 핵심 부분을 손실 없이 시작점으로 제공한다는 강력한 증거다.
7. 한계점 및 향후 연구 방향: 오픈소스 frontier가 보여준 범위와 제약
7.1 텍스트·멀티모달 frontier가 의미하는 것
최종 텍스트 결과를 보면 BidirLM 계열은 XTREME-aug와 MTEB Multilingual v2에서 오픈소스 Pareto frontier를 다시 그린다. 저자들은 BidirLM-270M이 mmBERT-base와 비슷한 XTREME 성능을 내면서 파라미터는 더 적고, BidirLM-0.6B는 EuroBERT-610m보다 XTREME에서 1점 이상 우세하다고 정리한다. 중요한 것은 이 모델들이 단순한 embedding-only 모델이 아니라, fine-tuning에도 강한 bidirectional encoder라는 점이다.
Figure 8: 텍스트 모델 크기별 최종 성능. XTREME와 MTEB에서 BidirLM 계열이 오픈소스 프런티어를 형성하는 모습을 요약한다.
이 그림에서 볼 수 있듯, BidirLM은 모델 크기가 커질수록 안정적으로 frontier를 밀어 올린다. 특히 BidirLM-1.7B와 BidirLM-Omni-2.5B는 MTEB Multilingual v2에서 각각 62.9, 63.1의 평균 점수를 기록하며, 대표 베이스라인인 GTE-Qwen2-7B 62.5, BGE-M3 59.6을 능가한다. 파라미터 수 대비 효율까지 고려하면 매우 인상적인 결과다.
Figure 9: text, image, audio를 함께 본 임베딩 성능-크기 관계. BidirLM-Omni-2.5B가 다중 모달 기준으로도 강한 Pareto 지점을 형성한다.
멀티모달 측면에서 BidirLM-Omni-2.5B는 더 흥미롭다. MIEB-lite에서 Mean(Task) 58.1, Mean(TaskType) 54.7을 기록해 Nemotron-Omni-3B 51.4/50.7을 크게 앞서고, MAEB-beta에서는 Mean(Task) 45.2, Mean(TaskType) 46.5를 달성한다. 오디오 영역에서는 LCO-Omni 계열이 아직 더 높지만, 하나의 모델이 텍스트·이미지·오디오를 모두 커버한다는 점을 감안하면 매우 경쟁력 있는 성과다.
세부적으로 보면 image benchmark에서의 강점이 두드러진다. 논문은 compositionality 46.0, document understanding 76.9 등에서 강한 수치를 제시하며, 동급 또는 더 큰 멀티모달 모델을 상회한다고 정리한다. audio에서는 전반 순위가 3위 수준이지만 audio classification 58.2처럼 분명한 강점도 존재한다. 따라서 Omni-2.5B는 모든 모달에서 절대 최강이라기보다, 단일 통합 표현 모델로서의 균형점이 매우 좋은 모델에 가깝다.
텍스트 결과의 해석에서도 균형이 중요하다. BidirLM-1.7B와 Omni-2.5B가 MTEB multilingual v2에서 62.9와 63.1을 기록했다는 사실은, specialist를 결합한 omnimodal 모델이 텍스트 성능을 크게 희생하지 않았음을 의미한다. 일반적으로 모달리티를 추가하면 텍스트 표현이 희석될 가능성이 있지만, 이 논문에서는 text backbone 자체가 encoder화된 뒤 specialist와 조심스럽게 합성되므로 그 손실이 제한적이다. 이는 multimodal expansion이 반드시 text quality 저하를 동반하지는 않는다는 점을 실증적으로 보여 준다.
한계 해석도 보다 구체적이다. first-principles 수준의 encoder pretraining 비교가 없다는 점은, 이 논문이 절대적인 최적 학습 전략을 확정한다기보다 기존 decoder 자산을 활용하는 현실적 최적화를 목표로 한다는 뜻이다. 또한 merge가 backbone 근접성에 의존한다는 제한은, 공개 생태계에서 어떤 모델 조합이 실제로 재조합 가능한지의 경계를 제시한다. 다시 말해 BidirLM은 모든 모델 쌍에 대한 보편 해법을 제시하지는 않지만, 적어도 공유된 계보와 토크나이저, 유사한 weight geometry를 가진 모델군에서는 재조합이 실질적인 전략이 될 수 있음을 보여 준다.
오디오에서 frontier 최상위를 달성하지 못했다는 결과도 방법론적으로 의미가 있다. 하나의 통합 encoder가 세 모달을 모두 다루는 상황에서는, 특정 모달에 완전히 최적화된 전용 specialist보다 절대 성능이 낮을 수 있다. 그러나 BidirLM-Omni-2.5B는 통합성의 이점을 유지한 채 audio classification 같은 세부 항목에서 강한 수치를 확보한다. 이는 통합 encoder 설계가 모든 모달에서 단일 최고점을 노리기보다, 공유 표현 공간의 범용성과 모달별 경쟁력 사이의 균형을 겨냥한다는 점을 잘 보여 준다.
| 모델 | MTEB Multilingual v2 | Task-Type 평균 | 비고 |
|---|---|---|---|
| BidirLM-Omni-2.5B | 63.1 | 55.1 | 텍스트·이미지·오디오 통합 |
| BidirLM-1.7B | 62.9 | 54.8 | 최종 텍스트 encoder |
| BidirLM-1B | 62.1 | 53.6 | 중간 규모 frontier |
| BidirLM-0.6B | 59.6 | 51.9 | EuroBERT-610m 대비 경쟁력 |
| GTE-Qwen2-7B | 62.5 | - | 대표 비교군 |
| BGE-M3 | 59.6 | - | 다국어 임베딩 강자 |
| 모델 | MIEB-lite Mean(Task) | MAEB-beta Mean(Task) | 해석 |
|---|---|---|---|
| BidirLM-Omni-2.5B | 58.1 | 45.2 | 멀티모달 통합 성능이 가장 균형적 |
| Nemotron-Omni-3B | 51.4 | 43.1 | 텍스트·이미지·오디오 모두에서 비교군 |
| E5-V | 51.9 | - | 이미지 retrieval 강자 |
| LCO-Omni-3B | - | 50.7 | 오디오 쪽 상위 모델 |
7.2 남아 있는 한계와 후속 확장 과제
하지만 한계도 분명하다. 첫째, 이 논문은 decoder 재활용의 효율성을 보여주지만, 동일 compute에서 처음부터 encoder를 pretrain하는 방식보다 항상 낫다는 것을 증명하지는 않는다. 둘째, 중심 실험 규모가 270M~1.7B 및 2.5B 수준이므로, 7B 이상 대형 모델에서 동일한 패턴이 어느 정도 유지될지는 추가 검증이 필요하다.
셋째, merge의 성공은 backbone 공유도에 강하게 의존한다. Qwen 계열처럼 구조와 pretraining 계보가 매우 비슷한 경우에는 잘 작동하지만, 전혀 다른 아키텍처나 토크나이저를 가진 모델끼리도 같은 방식이 성립할지는 불확실하다. 넷째, 멀티모달 결과 중 audio는 매우 경쟁력 있지만 절대 최상위는 아니다. 즉 image 쪽의 놀라운 성과와 달리, audio는 아직 더 큰 specialist에 비해 개선 여지가 남아 있다.
그럼에도 이 한계들은 오히려 후속 연구의 방향을 잘 제시한다. 더 큰 모델에서의 scaling law, backbone 이질성이 큰 merge의 조건, audio-centric specialist와의 더 깊은 정렬, 그리고 closed-data 강자와의 공정한 비교까지 모두 열린 문제로 남아 있다. BidirLM은 이 문제들을 완전히 닫지 않지만, 적어도 어디서부터 확장해야 하는지는 상당히 분명하게 보여준다.
종합 결과를 해석할 때 가장 중요한 점은, BidirLM이 embedding benchmark의 단기 최적화와 범용 encoder의 실사용성을 분리해서 보여 준다는 데 있다. MTEB 점수만 보면 contrastive 중심 접근도 강력할 수 있지만, XTREME-aug까지 포함하면 prior masking과 forgetting 완화의 필요성이 명확해진다. 따라서 BidirLM의 성과는 단순히 한 리더보드에서 몇 점 앞섰다는 사실보다, 서로 다른 요구 조건을 동시에 만족하는 구성으로 frontier를 형성했다는 데 있다.
한계 역시 같은 관점에서 읽을 수 있다. 첫째, 이 논문은 decoder 재활용의 비용 대비 효율을 설득력 있게 보여 주지만, 동일 연산량 하에서 처음부터 encoder를 pretrain하는 전략과의 완전한 계산 예산 비교를 제공하지는 않는다. 둘째, merge의 성공은 공유 backbone과 파라미터 근접성에 강하게 기대고 있으므로, 구조가 크게 다른 모델 조합에 그대로 적용하기는 어렵다. 셋째, 오디오에서는 상위 specialist 대비 절대 최고 성능에 도달하지 못했기 때문에, 통합 encoder의 균형성과 특정 모달 최적화 사이에는 여전히 긴장이 남아 있다.
그럼에도 논문이 제시한 결과는 세 가지 층위에서 의미가 있다. 첫째, 방법론 층위에서는 decoder-to-encoder 전환의 핵심이 prior masking이라는 점을 명확히 정리했다. 둘째, 실험 층위에서는 forgetting과 merge, mixture를 함께 측정해 오픈 재현 환경의 실제 제약을 다뤘다. 셋째, 확장 층위에서는 specialist composition을 통해 omnimodal encoder라는 후속 목표까지 연결했다. 이 세 요소가 한 논문 안에서 유기적으로 이어진다는 점이 BidirLM의 가장 큰 장점이다.
특히 텍스트와 멀티모달 결과를 하나의 프레임으로 묶었다는 점이 중요하다. 많은 연구가 text embedding, vision-language retrieval, audio understanding을 각각 별도의 모델 계열로 다루지만, BidirLM은 공통의 text backbone을 중심축으로 삼아 이들을 한 representation 문제로 통합한다. 이때 텍스트 성능이 유지된다는 사실은 specialist 추가가 핵심 표현 공간을 무너뜨리지 않았음을 의미하고, 이미지와 오디오 성능이 동시에 확보된다는 사실은 backbone 중심 통합 전략이 실질적인 범용성을 가질 수 있음을 보여 준다. 따라서 결과 해석의 초점은 개별 리더보드 순위보다, 하나의 encoder 설계가 얼마나 넓은 작업 공간을 커버하는가에 맞춰지는 편이 타당하다.
8. 결론: 생성형 체크포인트 재활용을 표현 학습의 공학으로 바꾸다
BidirLM의 첫 번째 공헌은 decoder를 encoder로 바꾸는 레시피를 명료하게 정리했다는 점이다. 논문은 구조 변경, masking 적응, contrastive 정제를 분해해 비교한 끝에, Bi+MNTP 후 Contrastive라는 단순하고 강한 조합을 제안한다. 이 결과는 encoder 전환에서 가장 중요한 것이 화려한 retrieval objective가 아니라, 먼저 모델이 양방향 문맥을 안정적으로 해석하도록 만드는 과정임을 보여준다.
두 번째 공헌은 forgetting 완화 전략이다. 원본 pretraining 데이터가 없는 상황에서도, adapted checkpoint를 base와 선형 병합하고 multi-domain 데이터를 일부 섞는 것만으로 다국어·코드·수학 성능을 상당 부분 회복할 수 있다는 점은 매우 실용적이다. 특히 50% 안팎의 merge와 20% 안팎의 mixture가 좋은 기본값으로 제시되었다는 사실은, 후속 재현과 확장 연구에 직접적인 가이드가 된다.
세 번째 공헌은 specialist composition이다. 안전, 비전, 오디오 전문 causal 모델을 양방향 encoder와 합성하고 짧은 정렬 학습만으로 도메인·모달 능력을 이전하는 과정은, 이미 존재하는 생성형 생태계를 representation 모델 관점에서 다시 쓰게 만든다. 이 아이디어는 새로운 foundation model을 처음부터 끝까지 모두 학습하는 대신, 기존 자산을 조합해 더 넓은 기능 공간을 얻는 방향을 열어 준다.
최종적으로 BidirLM-Omni-2.5B는 텍스트·이미지·오디오를 함께 다루는 통합 encoder의 가능성을 보여준다. image benchmark에서는 동급 이상의 경쟁 모델을 강하게 앞서고, audio에서도 충분히 상위권이며, 텍스트까지 포함하면 하나의 representation model이 세 모달을 모두 커버하는 그림이 성립한다. 이 점에서 BidirLM은 단순한 텍스트 인코더 논문이 아니라 omnimodal representation engineering에 대한 설계 원칙을 제시한 논문으로 읽을 만하다.
가장 압축해서 말하면, 이 논문은 “생성형 모델을 표현 모델로 바꾸는 법”과 “그 표현 모델을 다시 멀티모달로 확장하는 법”을 하나의 파이프라인 안에 넣었다. 거대한 추가 학습 없이도, 공개된 causal LLM과 specialist를 적응·병합·정렬하는 방식만으로 상당한 수준의 범용 encoder를 얻을 수 있다는 점은 앞으로의 오픈소스 연구에서 매우 큰 의미를 가진다.
실제로 이 논문의 결론은 구체적이다. decoder는 양방향 attention을 켠 뒤 곧바로 contrastive로 밀어붙이는 방식보다, MNTP를 통한 구조 적응을 먼저 거쳐야 encoder로서의 안정성을 얻는다. 이 선행 단계가 있어야 retrieval 성능 상승이 분류·회귀·토큰 태깅 성능의 희생 없이 이어지며, 이후의 대규모 contrastive 학습도 보다 일관된 이득을 제공한다.
또한 forgetting 분석은 encoder 전환을 실제 운영 환경에서 해석하게 만든다. 공개 데이터 기반 적응은 분포 편향을 낳고, 그 편향은 다국어·수학·코드 같은 축에서 먼저 드러난다. BidirLM은 이 약점을 감추지 않고, merge와 mixture를 통해 파라미터 공간과 데이터 공간을 동시에 보정하는 절차를 제시한다. 따라서 이 논문의 실질적 기여는 높은 점수 자체뿐 아니라, 점수가 무너지는 조건과 이를 복구하는 방법을 함께 정리했다는 데 있다.
마지막으로 specialist 합성은 BidirLM의 범위를 텍스트 너머로 확장한다. safety, vision, audio 모델이 이미 갖고 있는 기능적 편향을 공유 backbone 위에서 합성하고 짧게 정렬하는 방식은, representation learning을 독립된 모델 계열로만 보지 않게 만든다. 하나의 encoder가 다양한 specialist와 연결될 수 있다는 관점은, 공개 체크포인트 생태계를 재조합 가능한 모듈 집합으로 해석하게 한다.
9. 요약 정리: BidirLM에서 바로 가져갈 설계 규칙
마지막으로 논문의 핵심 설계 규칙과 실험적 교훈을 짧게 정리하면 다음과 같다.
- 핵심 전환 규칙: causal mask를 양방향 mask로 바꾸는 것만으로는 충분하지 않으며, encoder 역할에 맞는 구조 적응이 선행되어야 한다.
- 권장 학습 순서: 최적 레시피는 Bi+MNTP → Contrastive이며, 두 단계의 역할은 구조 적응과 임베딩 정제로 분리된다.
- MNTP의 의미: MLM보다 causal pretraining과의 연속성이 높아 decoder가 갖고 있던 언어 지식을 덜 훼손하면서 양방향 표현을 학습시킨다.
- 결과 해석의 핵심: contrastive-only는 MTEB에서 강할 수 있지만, XNLI·Seahorse 같은 fine-tuning 평가에서는 prior masking이 없는 한 손실이 남는다.
- forgetting의 원인: 장기 adaptation의 성능 저하는 구조 변화 자체보다 영어 중심 공개 데이터와 원래 pretraining 분포의 차이에서 크게 발생한다.
- 실용적 보정 수단: 50% 안팎 weight merge와 20% 안팎 multi-domain mixture는 원본 데이터 없이도 다국어·코드·수학 성능을 회복시키는 기본 전략으로 작동한다.
- specialist 전이의 의미: safety·vision·audio specialist와의 merge는 기능을 처음부터 다시 학습하는 대신, 이미 학습된 편향을 encoder에 빠르게 이식한다.
- omnimodal 확장성: BidirLM-Omni-2.5B는 text, image, audio를 하나의 표현 공간에 정렬함으로써 통합 encoder 설계가 실제로 가능함을 보여준다.
정리하면 BidirLM은 구조 적응, 분포 보정, specialist 합성이라는 세 축을 하나의 연속된 파이프라인으로 연결한다. 이 파이프라인은 텍스트 encoder를 만드는 데서 끝나지 않고, 멀티모달 표현 모델을 구성하는 단계까지 자연스럽게 이어진다. 따라서 논문의 핵심 메시지는 생성형 모델을 표현 학습과 대립되는 별개의 계열로 볼 필요가 없다는 데 있다.
결국 이 논문이 남기는 결론은 명료하다. decoder는 encoder의 출발점이 될 수 있고, 그 전환은 MNTP 중심 적응과 경량 보정, 그리고 specialist merge를 통해 체계적으로 수행될 수 있다. BidirLM은 이 경로를 텍스트와 멀티모달 실험 모두에서 수치로 입증하며, 공개 체크포인트 기반 representation learning의 실질적인 설계 기준을 제시한다.
동시에 BidirLM은 encoder 연구의 평가 기준도 다시 강조한다. retrieval 수치 하나만으로 encoder 전환의 성공을 판단해서는 안 되며, 분류·회귀·토큰 태깅과 같은 fine-tuning 기반 과제, 그리고 장기 adaptation 이후의 분포 보존까지 함께 보아야 한다는 점이 논문 전반에서 반복된다. 이 기준을 따르면 prior masking, merge, mixture, specialist alignment가 왜 각각 필요한지가 자연스럽게 드러난다. 따라서 본 논문의 요약은 단순한 레시피 암기가 아니라, 범용 encoder를 평가하는 관점 자체를 정리한 것으로 이해하는 편이 적절하다.
이 기준을 적용하면 BidirLM의 각 선택은 하나의 일관된 원리로 연결된다. 먼저 MNTP는 양방향 문맥을 처리하는 표현 구조를 세우고, contrastive는 그 구조 위에서 검색 친화적 거리 공간을 만든다. 이어서 merge와 mixture는 장기 적응 중 사라지기 쉬운 다국어·코드·수학 축을 복원하고, specialist 합성은 동일 backbone을 공유하는 생성형 자산을 멀티모달 표현 공간으로 편입시킨다. 따라서 BidirLM의 파이프라인은 개별 트릭의 집합이 아니라, encoder 전환, 성능 보존, 능력 확장을 순차적으로 해결하는 절차로 요약할 수 있다. 이런 점에서 논문의 가치는 특정 모델명보다도, 공개 체크포인트를 활용해 representation model을 설계할 때 따라야 할 구조적 순서를 제시했다는 데 있다.
요약하면 이 논문이 남긴 가장 실질적인 교훈은, 생성형 체크포인트를 representation 관점에서 사용할 때도 각 단계의 목적을 분리해야 한다는 점이다. 구조를 바꾸는 단계와 임베딩 공간을 정렬하는 단계, 분포 손실을 복구하는 단계와 specialist 능력을 합성하는 단계는 서로 다른 실패 모드를 다룬다. BidirLM은 그 차이를 ablation과 장기 적응 실험, 멀티모달 확장 실험으로 각각 입증했다. 그 결과 decoder 재활용은 막연한 가능성이 아니라, 어떤 순서로 어떤 보정을 적용해야 하는지가 비교적 명확한 공학적 절차로 제시된다. 이러한 절차성 덕분에 BidirLM은 단순한 결과 보고를 넘어, 공개 모델을 기반으로 범용 encoder와 omnimodal encoder를 설계하려는 후속 작업의 기준점 역할을 한다.
따라서 BidirLM의 공헌은 하나의 최고 성능 모델을 제안했다는 데서 끝나지 않는다. 이 논문은 decoder 기반 공개 체크포인트를 encoder 자산으로 전환할 때, 어떤 단계가 필수이고 어떤 단계가 보정용이며 어떤 단계가 확장용인지까지 구분했다. 바로 그 점 때문에 BidirLM은 텍스트 임베딩, 다국어 fine-tuning, 그리고 멀티모달 representation을 하나의 설계 언어 안에서 다루는 기준 사례로 기능한다.
특히 마지막까지 일관되게 확인되는 사실은, encoder 전환의 성공이 단일 목적함수의 선택보다 단계 간 역할 분담에 더 크게 좌우된다는 점이다. BidirLM은 그 역할 분담을 수치와 실험 설계로 명확히 정리했고, 공개 체크포인트를 활용해 범용 encoder를 설계하려는 후속 작업이 무엇을 먼저 검증해야 하는지에 대한 우선순위도 함께 제공한다. 구조 적응, 분포 보존, specialist 합성을 분리해 측정해야 한다는 원칙은 텍스트 전용 모델뿐 아니라 멀티모달 representation 연구에도 그대로 이어진다. 결국 이 논문은 공개된 decoder와 specialist checkpoint만으로도, 적절한 적응과 병합 절차를 거치면 고품질 encoder 계열을 단계적으로 구축할 수 있음을 보이며, 생성형 backbone을 표현 모델 자산으로 재사용하는 경로를 공학적으로 정리했다.
같은 관점에서 보면 BidirLM은 앞으로의 공개 모델 활용 전략에도 시사점을 남긴다. 새 encoder를 매번 처음부터 학습하기보다, 이미 축적된 decoder와 specialist를 어떤 순서로 적응하고 결합할지를 먼저 설계하는 편이 더 경제적일 수 있다. 이 논문은 그 설계가 단순한 직관이 아니라, benchmark와 ablation으로 뒷받침된 재현 가능한 절차가 될 수 있음을 보여준다.