Path-Lock Expert: Separating Reasoning Mode in Hybrid Thinking via Architecture-Level Separation
Shouren Wang, Wang Yang, Chuang Ma, Debargha Ganguly, Vikash Singh, Chaoda Song, Xinpeng Li, Xianxuan Long, Vipin Chaudhary, Xiaotian Han | Case Western Reserve University, NII LLMC Japan, Michigan State University | arXiv:2604.27201 | 2026년 4월 29일 제출
1. 서론: 하이브리드 사고에서 직접 답변 모드는 왜 자꾸 새는가
Path-Lock Expert 논문은 최근 LLM 추론 시스템에서 자주 등장하는 hybrid thinking 인터페이스를 정면으로 다룬다. 하이브리드 사고 모델은 사용자가 문제의 성격에 따라 긴 추론을 요구하는 \think 모드와, 빠르고 간결한 직접 답변을 요구하는 \no_think 모드를 선택할 수 있게 만든다. 표면적으로는 매우 실용적인 설계다. 수학 올림피아드 문제처럼 긴 탐색이 필요한 경우에는 모델이 상세한 reasoning trace를 생성하고, 단순 지식 확인이나 짧은 계산에는 토큰과 지연 시간을 아끼는 직접 답변을 반환하면 된다. 그러나 논문이 지적하는 핵심 문제는 현재의 하이브리드 사고 모델에서 이 두 모드가 실제로 충분히 분리되지 않는다는 점이다.
이 실패 양상은 논문에서 reasoning leakage, 즉 추론 누수로 정의된다. 사용자는 \no_think 모드를 지정했지만 모델은 여전히 “wait”, “hmm”, “alternatively” 같은 자기반성형 표현을 내보내거나, 빈 <think> 블록 바깥에서 사실상의 chain-of-thought를 계속 흘린다. 이때 \no_think는 진정한 직접 답변 모드로 작동하지 못하고 약해진 \think 모드처럼 행동한다. 결과적으로 답변은 길어지고, 비용은 증가하며, 더 중요하게는 사용자가 제어 토큰을 통해 기대한 동작 보장이 무너진다. 논문은 이 현상을 단순한 프롬프트 미준수나 데이터 부족을 넘어 같은 feed-forward 파라미터가 두 상충하는 행동을 동시에 담당하는 구조적 간섭의 징후로 해석한다.
기존 접근은 주로 훈련 레시피를 바꾸는 방향이었다. 더 좋은 데이터 큐레이션, \think와 \no_think 샘플 비율 조정, 다단계 SFT, 길이 필터링, 반성형 토큰 제거 같은 방식은 실제로 누수를 줄인다. 하지만 논문은 이런 training-level mitigation만으로는 모드 순도가 충분하지 않다고 본다. 하나의 dense decoder 안에서 MLP가 두 모드의 생성 습관을 모두 담고 있으면, \think에서 학습된 장기 추론 패턴이 \no_think 경로에 남아 있을 수밖에 없다는 것이다. 특히 Transformer의 MLP는 토큰 예측의 비선형 변환을 담당하는 중요한 위치에 있으므로, 행동 모드가 달라진다면 이 부분의 파라미터도 분리해야 한다는 관찰이 논문의 출발점이다.
논문이 제안하는 해결책은 이름 그대로 Path-Lock Expert, PLE다. 각 decoder layer의 단일 MLP를 \think expert와 \no_think expert 두 개로 복제하고, 입력에 포함된 제어 토큰으로 전체 sequence의 expert 경로를 한 번 결정한 뒤 끝까지 고정한다. attention, embedding, normalization, positional encoding, LM head는 공유한다. 따라서 두 모드는 같은 표현 backbone을 이용하지만, 최종적인 feed-forward 변환은 서로 다른 전용 전문가가 담당한다. 이 설계는 MoE처럼 토큰마다 learned router가 경쟁하는 방식과 달리, control token이 곧 routing decision이 되는 deterministic sequence-level routing이다.
이 논문의 흥미로운 점은 “추론 능력을 더 높이는 방법”보다 언제 추론을 꺼야 하는가를 구조적으로 통제하는 방법에 초점을 둔다는 데 있다. 최근 reasoning model 연구는 대체로 더 긴 chain-of-thought, 더 많은 rollouts, 더 강한 RL, 더 촘촘한 process supervision을 향해 움직였다. 반면 PLE는 긴 추론이 항상 좋은 선택은 아니며, 사용자가 요청하지 않은 상황에서는 명확히 억제되어야 한다고 말한다. 이는 reasoning을 성능 자원으로 보는 동시에, 제어되지 않으면 비용과 예측 가능성을 해치는 side effect로 본다는 점에서 실무적이다.
논문은 Qwen3-4B와 Qwen2.5-7B-Instruct 계열을 대상으로 수학 및 과학 추론 벤치마크를 평가한다. 대표 결과로 Qwen3-4B 기반 PLE는 AIME24에서 \no_think 반성형 토큰 수를 2.54에서 0.39로 낮추고, 동시에 \no_think 정확도를 20.67%에서 40.00%로 끌어올린다. Qwen2.5-7B-Instruct 기반에서도 AIME24 \no_think 정확도가 순수 Instruct의 6.67%에서 PLE의 26.00%로 올라가며 반성형 토큰은 0.02 수준에 머문다. 즉 논문의 주장은 단지 “짧아졌다”에 그치지 않고 짧고 덜 새면서도 더 잘 맞춘다이다.
물론 PLE가 모든 reasoning 문제의 최종 해답이라고 말하기는 어렵다. 논문 자체도 base model 초기화, 데이터 난이도, benchmark 성격에 따라 trade-off가 달라진다는 점을 ablation에서 보여준다. 그럼에도 이 연구는 하이브리드 사고를 단순한 프롬프트 규약이나 데이터 포맷을 넘어 아키텍처가 보장해야 할 인터페이스 계약으로 끌어올린다. 사용자가 \no_think를 선택했을 때 실제로 다른 파라미터 경로가 활성화된다면, 모드 제어는 더 이상 문장 지시문에만 의존하지 않는다. 이 관점이 바로 이 논문의 핵심 기여다.
Figure 1: AIME24 예시에서 드러난 reasoning leakage. Qwen3-8B가 \no_think 모드에서도 빈 생각 블록 바깥에 반성형 토큰을 내보내며 오답으로 이동하는 반면, \think 모드는 문제를 해결한다.
이 그림은 논문이 다루는 문제를 가장 직접적으로 보여준다. 동일한 AIME24 문제에서 제어 토큰은 달라졌지만, \no_think 출력에는 빈 thinking block 이후에도 “Wait” 계열의 자기 점검 표현이 남고 그 과정에서 잘못된 답으로 이동한다. 반대로 \think 출력은 장문 풀이를 통해 정답에 도달한다. 논문은 이 예시를 통해 제어 토큰이 있어도 두 모드의 출력 행동이 완전히 분리되지 않는다는 사실을 문제로 삼으며, 표면적으로 모드 지시가 포함되어 있어 실패 양상이 더 뚜렷하다고 본다.
1.1 논문의 핵심 질문과 기여
논문이 던지는 질문은 세 가지로 정리할 수 있다. 첫째, \no_think 모드에서 반성형 토큰과 불필요한 장문 출력을 줄일 수 있는가. 둘째, 그렇게 줄였을 때 직접 답변의 정확도가 단순히 희생되지 않고 오히려 개선될 수 있는가. 셋째, \no_think를 강화하면서도 \think 모드의 본래 장기 추론 성능을 유지할 수 있는가. PLE는 이 세 질문에 대해 MLP 경로 분리라는 아주 작은 구조 변경으로 답하려 한다. 전체 모델을 두 개 배포하지 않고, attention과 embedding은 공유하면서 mode-specific MLP만 분리한다는 점에서 비용과 제어 사이의 절충을 만든다.
논문의 기여는 추론 누수를 아키텍처 문제로 재정의한 데 있다. 기존 hybrid-thinking 모델은 하나의 MLP가 “생각을 길게 전개하는 행동”과 “답만 간단히 내는 행동”을 모두 학습한다. 이때 SFT 데이터가 아무리 모드별로 태깅되어 있어도, 동일한 파라미터가 양쪽 gradient를 함께 받으면 두 행동의 경계가 흐려질 수 있다. PLE는 inactive expert가 gradient를 받지 않도록 routing-conditioned fine-tuning을 적용해, \think 샘플은 \think MLP만, \no_think 샘플은 \no_think MLP만 업데이트되게 만든다. 논문이 말하는 mode-pure updates가 바로 이 지점이다.
2. 배경 및 관련 연구: 훈련 레시피만으로는 왜 모드 분리가 부족한가
하이브리드 사고 모델의 동기는 명확하다. 긴 추론은 어려운 문제에서 정확도를 높일 수 있지만, 모든 요청에 긴 reasoning trace를 생성하면 latency, token budget, context window 비용이 커진다. 그래서 최근 모델들은 답변 앞뒤에 \think 또는 \no_think 제어 토큰을 두고, 사용자가 reasoning depth를 선택하도록 설계한다. 그러나 제어 토큰 기반 인터페이스는 겉보기보다 어렵다. 모델 내부에서는 같은 attention 경로와 같은 MLP 경로가 두 모드의 텍스트 분포를 모두 처리하기 때문에, 모드 토큰은 단지 조건부 feature일 뿐 물리적 격리가 아니다. 논문은 바로 이 차이를 강조한다.
기존 연구 중에는 데이터 스케일, \think와 \no_think 비율, 다단계 학습을 통해 reasoning leakage를 완화한 사례가 있다. 논문의 Table 1은 순수 Instruct 모델, hybrid-thinking 모델, 그리고 선행 training-level mitigation을 비교하는 동기를 제공한다. 여기서 중요한 관찰은 hybrid 모델이 \no_think에서도 순수 Instruct보다 훨씬 긴 출력을 내고, 반성형 토큰이 0을 넘는다는 점이다. 즉 \no_think가 직접 답변 모드의 행동 분포로 완전히 돌아가지 못한다. 선행 레시피가 개선을 만들더라도, architecture가 같은 이상 근본적인 결합이 남는다는 것이 논문의 판단이다.
관련 연구를 넓게 보면 세 흐름이 만난다. 첫째는 LLM reasoning 연구로, RL과 SFT를 통해 chain-of-thought 품질을 높이는 방향이다. 둘째는 efficient reasoning 연구로, CoT 압축, early stopping, preference optimization 등을 통해 불필요한 사고 비용을 줄이려 한다. 셋째는 Mixture-of-Experts 아키텍처로, 여러 expert를 조건부로 활성화해 파라미터 효율과 전문화를 얻는 방식이다. PLE는 이 셋의 교차점에 있지만, 목표는 보통의 MoE와 다르다. token-level load balancing이나 capacity factor보다, 사용자가 명시한 모드 경로를 끝까지 잠그는 것이 핵심이다.
논문은 Metis-HOME처럼 mode separation을 위해 두 expert MoE를 쓰는 선행 연구도 언급한다. 하지만 그 접근은 learned router가 토큰 단위로 경로를 선택하는 전통적 MoE에 가깝다. 반면 PLE의 router는 학습되지 않는다. 입력에 있는 마지막 /think 또는 /no_think 제어 토큰이 경로를 결정하고, decoding 전체에서 같은 expert가 사용된다. 이 차이는 작아 보이지만 중요하다. learned router는 분포 변화, load imbalance, token-level 경로 혼합을 일으킬 수 있지만, PLE의 경로는 사용자 인터페이스와 일대일로 연결된다.
이 배경에서 PLE는 “더 복잡한 훈련” 대신 간단한 구조적 분리를 선택한다. reasoning trace를 생성할지 말지를 데이터가 암시하게 두지 않고, decoder layer 안의 MLP 경로 자체를 둘로 나눈다. 이는 두 개의 완전한 모델을 배포하는 것보다는 가볍고, 단일 dense 모델에 모드 토큰만 붙이는 것보다는 강한 제어다. 논문은 이 중간 지점이 실제 하이브리드 사고 시스템에 현실적인 설계라고 본다.
Table 1은 논문의 동기 실험이다. 표는 순수 Instruct 모델과 hybrid-thinking 모델의 \no_think 동작을 비교하며, 정확도와 평균 출력 길이, 반성형 토큰 수를 함께 본다. 아래 표에서는 추출 JSON의 Table 1 수치를 benchmark별로 재구성했다.
| Benchmark | Model | Think Acc. | No-think Acc. | Acc. Δ | Think Len. | No-think Len. | Len. Δ | Think Refl. | No-think Refl. | Refl. Δ |
|---|---|---|---|---|---|---|---|---|---|---|
| MATH500 | Instruct | – | 59.94 | – | – | 703 | – | – | 0 | – |
| MATH500 | Hybrid | 92.82 | 82.90 | +22.96 | 4384 | 958 | +255 | 16.74 | 0.13 | +0.13 |
| AIME24 | Instruct | – | 6.67 | – | – | 1729 | – | – | 0 | – |
| AIME24 | Hybrid | 63.33 | 24.00 | +17.33 | 11395 | 4062 | +2333 | 40.61 | 0.61 | +0.61 |
| GPQA | Instruct | – | 30.15 | – | – | 775 | – | – | 0 | – |
| GPQA | Hybrid | 59.14 | 47.93 | +17.78 | 7451 | 1365 | +590 | 33.41 | 0.31 | +0.31 |
Table 1의 해석은 단순하다. Hybrid 모델은 \think에서는 높은 정확도를 내지만, \no_think에서도 Instruct보다 긴 출력과 nonzero reflective token을 보인다. MATH500의 \no_think 길이는 958로 Instruct의 703보다 길고, AIME24는 4062로 Instruct의 1729를 크게 넘는다. 이는 하이브리드 모델이 직접 답변을 흉내 내지만 직접 답변 모드의 순도를 완전히 회복하지 못한다는 근거다.
2.1 반성형 토큰은 작은 숫자라도 왜 중요한가
반성형 토큰 수가 0.1이나 0.3처럼 작아 보일 수 있지만, 논문은 이를 단순한 표면 지표로만 보지 않는다. “wait” 같은 표현은 모델이 내부적으로 한 번 더 생각하려는 상태를 드러내는 marker이고, \no_think 모드에서는 이런 marker 자체가 제어 실패의 신호다. 특히 AIME24처럼 어려운 문제에서는 모델이 답변 중간에 스스로의 경로를 되돌리려는 경향이 강해지며, 이것이 길이 증가와 오답 탐색으로 연결될 수 있다. 따라서 #Refl./Ans.는 정확도와 별개로 mode purity를 측정하는 중요한 지표가 된다.
이 관점은 실무 배포에서도 중요하다. 사용자가 \no_think를 선택하는 이유는 단지 chain-of-thought를 숨기는 데 머물지 않고, 빠르고 안정적인 직접 답변 행동을 원하기 때문이다. 출력이 길어지고 자기반성이 섞이면 비용 예측이 어려워지고, 모델의 응답 양식도 흔들린다. PLE는 이 문제를 “생각을 하지 말라”는 instruction으로 해결하지 않고, 생각을 외부화하는 MLP 경로와 직접 답변 MLP 경로를 분리함으로써 해결하려 한다.
3. 방법론: Path-Lock Expert의 구조와 routing-conditioned fine-tuning
PLE의 방법론은 놀랄 만큼 단순하다. 표준 decoder-only Transformer의 각 layer는 self-attention과 MLP feed-forward block을 포함한다. PLE는 여기서 MLP block만 두 개로 나눈다. 하나는 \think expert, 다른 하나는 \no_think expert다. 두 expert는 원래 MLP와 같은 구조를 가지며, Qwen backbone에서는 SwiGLU-style MLP 파라미터화를 유지한다. 반면 self-attention, positional encoding, token embedding, normalization, LM head는 모두 공유된다. 이 때문에 PLE는 두 개의 완전한 모델을 복제하는 것보다 가볍고, 동시에 단일 MLP를 공유하는 hybrid 모델보다 모드 분리가 강하다.
routing은 학습되지 않는다. 입력 sequence 안에서 마지막으로 등장하는 /think 또는 /no_think control token을 읽고, route $r \in \{0, 1\}$을 결정한다. 논문은 $r=0$을 \no_think expert, $r=1$을 \think expert에 대응시킨다. decoding 첫 step에서 route가 정해지면 이후 모든 layer와 모든 생성 step에서 같은 expert가 사용된다. 이것이 path-lock이라는 이름의 의미다. 일반 MoE가 token별로 expert를 바꾸는 것과 달리, PLE는 response 전체가 하나의 경로에 잠긴다.
이 설계에는 두 가지 효과가 있다. 첫째, 사용자가 지정한 모드가 실제 computational path와 직접 연결된다. 둘째, 훈련 중 inactive expert가 gradient를 받지 않는다. \think 샘플로 causal language modeling loss를 계산하면 \think expert와 shared backbone만 업데이트되고, \no_think expert는 업데이트되지 않는다. 반대로 \no_think 샘플은 \no_think expert를 업데이트하고 \think expert에는 gradient를 흘리지 않는다. 논문은 이 과정을 routing-conditioned supervised fine-tuning으로 설명한다.
Figure 2: PLE 아키텍처. 각 decoder layer의 단일 MLP를 \think 전용 expert와 \no_think 전용 expert로 교체하고, attention backbone과 embedding, normalization, LM head는 공유한다.
Figure 2는 PLE가 전체 Transformer를 두 벌로 복제하지 않는다는 점을 보여준다. self-attention은 공통 context와 지식을 유지하는 공유 backbone으로 남고, layer별 MLP만 \think와 \no_think expert로 나뉜다. 제어 토큰으로 결정된 route가 모든 layer에 반복 적용되므로 한 답변 안에서 두 expert가 섞이지 않는다. 그림의 핵심은 분리 범위가 MLP에 집중되어 있다는 점이다.
3.1 왜 MLP를 분리하는가
논문이 MLP를 분리 대상으로 고른 이유는 Transformer 내부 역할에 대한 직관과 맞닿아 있다. attention은 토큰 간 관계와 문맥 정보를 모으는 데 중요하고, embedding과 LM head는 두 모드가 공유해야 할 vocabulary와 지식 표현을 담는다. 반면 MLP는 layer별로 hidden state를 비선형 변환하며 다음 토큰 분포의 행동 성향을 강하게 shaping한다. 그래서 긴 reasoning trace를 생성하는 습관과 간결한 direct answer 습관이 충돌한다면, 가장 먼저 분리할 부분은 MLP라는 것이 논문의 주장이다.
완전한 두 모델 배포와 비교하면 PLE는 parameter efficiency를 얻는다. 논문은 attention과 기타 구성요소를 공유하고 MLP만 복제함으로써 두 개의 독립 Qwen3-4B 모델을 운영하는 것보다 약 33%의 전체 파라미터 절감을 얻는다고 설명한다. 물론 단일 dense 모델보다는 파라미터가 늘어난다. 그러나 inference에서 한 token당 활성화되는 expert는 하나뿐이므로, per-token computation pattern은 dense 모델과 유사하게 유지된다. 이는 learned MoE의 sparse dispatch overhead와도 다르다.
중요한 점은 PLE가 knowledge를 둘로 쪼개려는 모델로 보지 않는다는 것이다. 두 모드는 같은 attention backbone을 통해 동일한 문제 맥락과 world knowledge를 공유한다. 분리되는 것은 “그 지식을 어떤 답변 행동으로 변환할 것인가”에 가까운 MLP 경로다. 따라서 PLE는 full duplication과 single dense conditioning 사이의 설계 공간에서 공유 표현과 분리 행동의 균형을 택한 방법이다.
3.2 deterministic control-token routing의 의미
PLE routing은 매우 엄격하다. learned router가 없고, auxiliary balancing loss도 없다. 입력에 들어온 마지막 control token이 route를 결정한다. 이 “last control token wins” 규칙은 system template이 사용자 입력보다 뒤에서 모드를 덮어쓸 수 있게 하며, 동시에 routing decision을 해석 가능하게 만든다. 어떤 답변이 왜 \think expert를 탔는지, 왜 \no_think expert를 탔는지를 router logit 분석 없이 control token만 보고 알 수 있다. 이는 model governance 측면에서도 장점이 있다.
다만 이 단순성은 제약도 만든다. 논문 구현은 forward pass당 하나의 scalar routing index를 사용하기 때문에, 하나의 batch 안에 \think와 \no_think 샘플을 섞지 않는다. 이는 turn-level control semantics에는 잘 맞지만, 더 복잡한 multi-turn agent setting에서는 한 응답 내부에서 구간별 모드 전환을 지원하지 않는다. 논문은 의도적으로 이런 복잡성을 피한다. PLE의 목표는 token-level adaptive computation보다 response-level behavioral control이기 때문이다.
수식으로 쓰면 PLE의 핵심은 다음처럼 요약된다. 표준 layer의 MLP 변환을 $\mathrm{MLP}(h)$라고 할 때, PLE는 $\mathrm{MLP}_{r}(h)$를 사용한다. 여기서 $r=0$이면 \no_think expert, $r=1$이면 \think expert다. 학습 objective는 여전히 causal LM loss이며, route가 $r$인 minibatch $\mathcal{B}_{r}$에 대해 inactive expert의 gradient는 0이다. 즉 loss 함수는 크게 바뀌지 않지만, gradient가 흐르는 파라미터 경로가 달라진다.
3.3 PLE와 일반 MoE의 차이
일반 MoE는 conditional computation을 통해 파라미터 수를 키우되 활성 연산량을 제한한다. token-level learned router는 각 token을 어떤 expert에 보낼지 결정하고, load balancing이나 capacity constraint가 중요해진다. PLE는 이 목표와 다르다. expert 수는 두 개이며, expert identity는 latent specialization 대신 \think와 \no_think라는 명시적 사용자 인터페이스에 고정된다. 그래서 논문은 PLE expert를 “semantically locked” expert라고 부른다.
이 차이 때문에 PLE는 router instability 문제를 피한다. learned MoE에서는 같은 prompt라도 hidden state 변화에 따라 token별 expert가 달라질 수 있고, 어떤 expert가 어떤 의미를 담당하는지 사후적으로만 해석된다. PLE에서는 그런 ambiguity가 없다. \think route는 항상 \think MLP를 쓰고, \no_think route는 항상 \no_think MLP를 쓴다. 따라서 evaluation에서 관찰되는 leakage 감소를 router의 우연한 분배보다 모드별 feed-forward 파라미터 격리의 결과로 해석할 수 있다.
4. 실험 설정: 데이터, 백본, baseline, 평가 지표
실험의 목적은 PLE가 실제로 architecture-level mode separation을 달성하는지 검증하는 것이다. 논문은 세 가지 질문을 설정한다. 첫째, \no_think에서 reflective token을 줄이는가. 둘째, \no_think 정확도와 간결성이 개선되는가. 셋째, \think 성능이 유지되는가. 이 세 질문은 서로 긴장 관계에 있다. 단순히 \no_think를 짧게 만들면 정확도가 떨어질 수 있고, \think를 강하게 만들면 그 reasoning 습관이 다시 \no_think로 새어 들어올 수 있다. 그래서 논문은 accuracy, length, reflective tokens를 함께 측정한다.
훈련 데이터는 Superior-Reasoning corpus를 기반으로 한다. 논문은 기존 reasoning trace에 더해 Qwen3-235B를 \no_think 모드로 사용해 같은 문제에 대한 직접 답변 target을 합성한다. 이 후보들은 세 단계 filter를 통과해야 한다. 첫째, 정답과 일치하는 correctness filter다. 둘째, domain별 token limit을 만족하는 length filter다. 셋째, “wait”, “hmm” 같은 reflective token을 제외하는 style filter다. 최종 dataset은 reasoning trace와 filtered direct answer를 1:1로 묶은 약 54k samples 규모다.
base model은 두 계열이다. 하나는 Qwen2.5-7B-Instruct이고, 다른 하나는 native hybrid-thinking capability를 가진 Qwen3-4B다. 각 base model에서 원래 MLP weight를 두 expert로 clone한 뒤 fine-tuning한다. 이렇게 하면 두 expert가 완전히 무작위로 시작하지 않고, 동일한 언어 모델 능력을 공유한 상태에서 모드별 specialization으로 갈라진다. ablation에서는 Qwen3-4B-Base와 Qwen3-4B-Instruct도 비교해, post-training 여부와 hybrid-thinking 초기화가 어떤 영향을 주는지 분석한다.
baseline은 세 종류로 구성된다. 첫째, 공식 Qwen3-4B hybrid 모델로, 기본 hybrid-thinking behavior와 inherent leakage를 대표한다. 둘째, Wang et al. 2025의 SFT-only training-level mitigation으로, dense Transformer에 140k sample SFT recipe를 적용한 선행 접근이다. 셋째, Qwen2.5-7B-Instruct 같은 pure instruct 모델이다. pure instruct는 \think 모드가 없지만, \no_think 직접 답변의 clean baseline으로 유용하다.
벤치마크는 MATH500, AIME24, MMLU-STEM, GPQA-Diamond다. MATH500은 비교적 넓은 수학 문제 집합이고, AIME24는 깊은 탐색과 장기 추론을 요구하는 stress test 역할을 한다. MMLU-STEM은 지식과 짧은 reasoning이 섞인 STEM multiple-choice 성격이고, GPQA-Diamond는 전문 과학 지식과 복잡한 판단이 필요한 어려운 benchmark다. 논문은 각 benchmark에서 \think와 \no_think를 모두 평가하며, accuracy, average output length, reflective tokens per answer를 보고한다.
이 지표 조합은 PLE의 장단점을 상당히 투명하게 드러낸다. accuracy만 보면 \think가 항상 유리한지, \no_think가 실용적인지 알기 어렵다. length만 보면 짧지만 틀린 답변을 좋은 것으로 오해할 수 있다. reflective token만 보면 출력 순도는 알 수 있지만 task proficiency는 알 수 없다. 세 지표를 함께 보아야 짧고, 덜 새고, 맞는 직접 답변 모드가 실제로 형성되었는지 판단할 수 있다.
4.1 학습 데이터 구성의 핵심
논문에서 \no_think target을 만드는 방식은 중요하다. 직접 답변 데이터가 단순히 짧기만 하면 모델은 성능을 잃을 수 있다. 그래서 Qwen3-235B가 만든 \no_think 후보를 정답 일치, 길이 제한, style filter로 걸러낸다. 이 과정은 \no_think expert가 “생각하지 않는 무능한 모델” 대신 간결하지만 정답을 맞히는 모델을 목표로 학습하게 만든다. 동시에 \think expert는 기존 reasoning trace를 받기 때문에 긴 풀이 능력을 유지한다.
1:1 ratio도 의미가 있다. 두 mode의 데이터가 크게 불균형하면 shared backbone은 더 많은 쪽의 분포에 끌릴 수 있고, expert 한쪽이 충분히 specialize되지 못할 수 있다. PLE는 expert를 나누었지만 attention과 embedding은 공유하므로, 데이터 구성은 여전히 중요하다. 논문 ablation이 보여주듯 dataset difficulty와 base capacity가 맞지 않으면 성능과 leakage의 균형이 흔들린다. 따라서 PLE는 architecture만의 승리보다 architecture와 데이터 설계의 결합으로 이해해야 한다.
4.2 평가 protocol의 해석상 주의점
논문의 결과를 읽을 때는 benchmark별 성격을 구분해야 한다. AIME24에서 \no_think 정확도가 크게 오른 것은 PLE가 어려운 수학 문제의 직접 답변 능력을 개선했다는 강한 증거지만, 모든 benchmark에서 같은 양상은 아니다. GPQA-Diamond에서는 initialization과 데이터에 따라 accuracy가 더 민감하게 움직인다. 이는 PLE가 missing knowledge를 새로 주입하는 방법보다 mode interference를 줄이는 방법이라는 점과 관련된다. 지식 자체가 부족하면 경로를 분리해도 정답이 보장되지는 않는다.
또한 reflective token metric은 표면 token list에 의존한다. “wait”, “hmm”, “alternatively” 같은 marker는 reasoning leakage의 좋은 proxy이지만, 모든 내부 reasoning 상태를 포착하지는 못한다. 모델이 반성형 단어 없이도 긴 추론 구조를 우회적으로 생성할 수 있기 때문이다. 그럼에도 논문이 length와 accuracy를 함께 보고하므로, reflective token count 하나에만 의존하지 않는다는 장점이 있다. PLE의 설득력은 세 지표가 같은 방향으로 개선되는 primary result에서 나온다.
5. 주요 실험 결과: 더 깨끗한 \no_think와 유지되는 \think 성능
주요 결과는 AIME24와 MATH500에서 가장 선명하다. AIME24는 깊은 풀이가 필요한 문제라서 hybrid-thinking 모델이 \think 모드에서는 강하지만, \no_think에서는 reasoning leakage가 커지기 쉽다. 논문은 Figure 3에서 Qwen3-4B와 Qwen2.5-7B 기반 PLE를 baseline과 비교한다. 결과적으로 PLE는 \no_think 정확도를 높이면서 reflective token을 크게 줄인다. 특히 Qwen3-4B의 native \no_think는 AIME24에서 20.67% accuracy와 2.54 reflective tokens를 보이지만, PLE는 40.00% accuracy와 0.39 reflective tokens를 기록한다.
Qwen2.5-7B-Instruct 기반 결과도 흥미롭다. pure instruct baseline은 AIME24 \no_think 정확도가 6.67%에 불과하지만 reflective token은 0이다. SFT-only는 \think 성능을 일부 만들지만 \no_think AIME24 accuracy가 3.33%로 낮고, PLE는 \no_think accuracy를 26.00%까지 올리면서 reflective token을 0.02로 유지한다. 즉 pure instruct의 clean behavior와 reasoning 데이터의 문제 해결력을 어느 정도 결합한 셈이다. 논문은 이를 mode separation과 task proficiency의 Pareto 개선으로 제시한다.
Figure 3: AIME24에서의 accuracy, average output length, reflective token count. 상단은 Qwen3-4B, 하단은 Qwen2.5-7B 계열이며 PLE는 두 backbone 모두에서 \no_think 성능과 누수 억제를 함께 개선한다.
Figure 3은 PLE의 primary claim을 압축한다. Qwen3-4B에서는 \no_think 정확도가 20.67%에서 40.00%로 상승하고 반성형 토큰은 2.54에서 0.39로 감소한다. Qwen2.5-7B 계열에서도 PLE는 SFT-only보다 훨씬 높은 \no_think 정확도를 보이면서 near-zero leakage를 유지한다. 세 막대 묶음은 accuracy, length, leakage가 함께 평가되어야 함을 보여준다.
아래 Table 2는 MATH500과 AIME24에서 training paradigm별 결과를 정리한다. 원문 표의 “#Relf./Ans.”는 반성형 토큰 수를 의미하며, 여기서는 표기 오류를 살려두되 해석에서는 reflective token count로 읽는다.
| Model | Type | Mode | MATH Acc. | MATH Len. | MATH Refl. | AIME Acc. | AIME Len. | AIME Refl. |
|---|---|---|---|---|---|---|---|---|
| Qwen2.5-7B | Instruct | Think | N/A | N/A | N/A | N/A | N/A | N/A |
| Qwen2.5-7B | Instruct | No-think | 59.94 | 703.11 | 0 | 6.67 | 1729.22 | 0 |
| Qwen2.5-7B | SFT-only | Think | 86.50 | 4488.40 | 33.04 | 30.00 | 12517.06 | 76.44 |
| Qwen2.5-7B | SFT-only | No-think | 63.56 | 593.09 | 0.31 | 3.33 | 1037.20 | 0.00 |
| Qwen2.5-7B | Ours | Think | 86.00 | 3861.34 | 24.64 | 40.00 | 11794.06 | 62.76 |
| Qwen2.5-7B | Ours | No-think | 83.20 | 614.46 | 0.01 | 26.00 | 1328.60 | 0.02 |
| Qwen3-4B | Hybrid | Think | 92.02 | 4679.54 | 19.60 | 61.67 | 11595.51 | 45.85 |
| Qwen3-4B | Hybrid | No-think | 82.22 | 1004.13 | 0.12 | 20.67 | 4636.37 | 2.54 |
| Qwen3-4B | Ours | Think | 94.8 | 6050.45 | 3.56 | 60.00 | 31733.18 | 7.02 |
| Qwen3-4B | Ours | No-think | 80.80 | 676.78 | 0.13 | 40.0 | 5597.0 | 0.39 |
Table 2에서 가장 중요한 행은 Qwen3-4B Hybrid \no_think와 Qwen3-4B PLE \no_think의 비교다. MATH500에서는 native hybrid가 82.22, PLE가 80.80으로 소폭 낮지만 길이는 1004.13에서 676.78로 줄고, AIME24에서는 정확도가 20.67에서 40.0으로 크게 오른다. Qwen2.5-7B에서는 PLE \no_think가 MATH500 83.20으로 pure Instruct 59.94를 크게 넘고, reflective token은 0.01에 머문다. 이는 PLE가 단순한 leakage suppression을 넘어 direct-answer expert의 능력 향상도 만든다는 근거다.
5.1 MATH500 결과: 쉬운 수학에서는 길이와 정확도의 균형이 다르게 보인다
MATH500은 AIME24보다 상대적으로 덜 극단적인 수학 benchmark다. Figure 6은 MATH500에서 두 backbone의 accuracy, length, reflective tokens를 비교한다. Qwen2.5-7B 기반 PLE는 \no_think accuracy 83.20으로 pure Instruct와 SFT-only를 모두 앞선다. Qwen3-4B 기반에서는 native hybrid \no_think가 82.22, PLE \no_think가 80.80으로 아주 근소하게 낮지만, 출력 길이는 줄어든다. 이 차이는 PLE가 모든 조건에서 accuracy를 절대적으로 올리는 방법이라기보다, 모드 제어와 효율의 Pareto point를 바꾸는 방법이라는 점을 보여준다.
또한 Qwen3-4B PLE의 \think MATH500 accuracy는 94.8로 native hybrid의 92.02보다 높다. 이는 MLP 분리가 \think 성능을 망가뜨리지 않는다는 좋은 신호다. 다만 \think length는 6050.45로 길어져, 모델이 더 깊은 reasoning path를 택했을 가능성이 있다. 따라서 MATH500 결과는 “PLE는 항상 짧게 만든다”보다 “\no_think는 짧고 깨끗하게, \think는 필요한 경우 긴 추론을 보존한다”는 해석이 더 정확하다.
Figure 6: MATH500에서의 main experiment. 상단은 Qwen2.5-7B-Instruct 기반, 하단은 Qwen3-4B 기반이며, 각 모델의 \think와 \no_think 모드를 accuracy, 평균 길이, 반성형 토큰 수로 비교한다.
Figure 6은 AIME24보다 완만한 benchmark인 MATH500에서 PLE의 효과를 확인한다. Qwen2.5-7B 기반 PLE는 \no_think 정확도를 크게 높이고 leakage를 거의 0으로 유지한다. Qwen3-4B 기반에서는 \no_think 정확도 차이가 작지만 출력 길이가 줄어, 직접 답변 모드의 효율 개선이 수치로 드러난다. 따라서 이 그림은 난이도에 따라 PLE의 이득 양상이 달라짐을 보여주며, AIME24와 다른 stress test 성격도 함께 드러낸다.
5.2 STEM과 GPQA 결과: control과 knowledge의 경계
MMLU-STEM과 GPQA-Diamond 결과는 PLE의 claim을 더 조심스럽게 읽게 만든다. MMLU-STEM에서는 Qwen2.5-7B PLE \no_think가 92.22 accuracy와 139 length, 0 reflective token을 기록한다. 이는 knowledge-heavy multiple-choice에서 긴 reasoning이 항상 필요한 것은 아니며, clean \no_think가 매우 실용적일 수 있음을 보여준다. 반면 GPQA-Diamond에서는 PLE \no_think의 leakage가 낮아도 accuracy가 initialization과 데이터에 민감하다. 논문은 여기서 PLE가 missing knowledge를 보완하는 방식보다 mode interference를 줄이는 방법임을 분명히 한다.
아래 Table 3은 MMLU-STEM과 GPQA-Diamond의 Table 3 수치를 사용한다. 특히 Qwen3-4B PLE \think의 GPQA-Diamond 길이가 25741로 길고 reflective token이 5.14인 반면, \no_think는 402 length와 0.00 reflective token을 보인다. 이는 같은 backbone에서도 route에 따라 출력 행동이 크게 달라진다는 증거다.
| Model | Type | Mode | MMLU Acc. | MMLU Len. | MMLU Refl. | GPQA Acc. | GPQA Len. | GPQA Refl. |
|---|---|---|---|---|---|---|---|---|
| Qwen2.5-7B | Instruct | Think | N/A | N/A | N/A | N/A | N/A | N/A |
| Qwen2.5-7B | Instruct | No-think | 62.00 | 211 | 0 | 30.15 | 775 | 0 |
| Qwen2.5-7B | SFT-only | Think | 85.82 | 3100 | 24.74 | 41.16 | 9538 | 78.21 |
| Qwen2.5-7B | SFT-only | No-think | 59.44 | 774 | 0.83 | 30.00 | 2910 | 3.22 |
| Qwen2.5-7B | Ours | Think | 88.89 | 429 | 0 | 34.00 | 7044 | 12.82 |
| Qwen2.5-7B | Ours | No-think | 92.22 | 139 | 0.00 | 30.00 | 3857 | 0.00 |
| Qwen3-4B | Hybrid | Think | 90.26 | 2338 | 16.82 | 53.13 | 7615 | 67.01 |
| Qwen3-4B | Hybrid | No-think | 84.49 | 612 | 0.01 | 42.83 | 1504 | 0.08 |
| Qwen3-4B | Ours | Think | 92.22 | 1041 | 0 | 48.00 | 25741 | 5.14 |
| Qwen3-4B | Ours | No-think | 83.70 | 253 | 0.01 | 40.00 | 402 | 0.00 |
Table 3의 결론은 두 갈래다. MMLU-STEM에서는 \no_think가 매우 짧고 깨끗하면서도 강한 정확도를 보일 수 있다. Qwen2.5-7B PLE \no_think의 92.22는 \think 88.89보다 높다. 반면 GPQA-Diamond에서는 Qwen3-4B PLE \think가 48.00, \no_think가 40.00으로 native hybrid보다 낮아진다. 따라서 PLE의 강점은 universal accuracy boost보다 출력 모드의 물리적 분리와 leakage 억제에 있다고 보는 편이 더 엄밀하다.
6. 추가 분석 및 Ablation Study: 초기화와 데이터 난이도가 만드는 trade-off
논문의 ablation은 PLE를 이해하는 데 매우 중요하다. main result만 보면 “MLP를 둘로 나누면 항상 좋아진다”는 인상을 줄 수 있지만, 실제로는 base model weight와 training dataset이 결과를 크게 좌우한다. 논문은 base weight ablation에서 Qwen3-4B, Qwen3-4B-Base, Qwen3-4B-Instruct, Qwen2.5-7B-Instruct를 비교한다. 또한 dataset ablation에서는 선행 연구의 OpenR1 계열 데이터와 논문의 superior-reasoning 27k+27k 또는 54k 데이터를 비교한다.
첫 번째 관찰은 hybrid-thinking initialization이 높은 성능 ceiling을 준다는 점이다. Qwen3-4B는 이미 긴 reasoning 능력을 갖고 있어 \think 성능이 높고, superior-reasoning 데이터와 결합하면 AIME24 \think 60.00, \no_think 40.00을 기록한다. 그러나 native hybrid post-training에서 생긴 reasoning-heavy pattern이 shared backbone에 남아 있어 \no_think reflective token이 0.39처럼 완전히 0이 되지는 않는다. 논문은 이를 reasoning contamination trade-off로 해석한다.
두 번째 관찰은 pure instruct initialization이 더 깨끗한 \no_think를 만들기 쉽다는 점이다. Qwen2.5-7B-Instruct 기반 PLE는 AIME24 \no_think reflective token이 0.02 수준이며, Qwen3-4B-Instruct도 superior-reasoning 데이터에서 AIME24 \no_think reflective token 0.00을 보인다. 다만 성능 ceiling은 hybrid Qwen3-4B보다 낮을 수 있다. 즉 성능은 hybrid base가 유리하고, 순도는 instruct base가 유리한 경향이 있다.
세 번째 관찰은 raw pretrained base의 한계다. Qwen3-4B-Base는 post-training을 거치지 않은 모델이므로 instruction following과 reasoning format이 충분히 잡혀 있지 않다. Table 4와 Table 5에서 base 모델은 종종 긴 length 16384에 붙잡히고, AIME24 성능이 불안정하다. 이는 PLE가 reasoning 능력을 무에서 생성하는 아키텍처가 아니라기보다, 이미 형성된 instruction-following과 reasoning literacy를 모드별 경로로 정리하는 장치라는 점을 보여준다.
Figure 4: AIME24 base model ablation. Qwen3-4B, Qwen3-4B Base, Qwen2.5-7B-Instruct 초기화를 비교하며, hybrid 초기화는 높은 성능을 주지만 residual leakage가 남고 instruct 초기화는 더 깨끗한 \no_think를 만든다.
Figure 4는 base initialization의 영향을 AIME24에서 비교한다. hybrid Qwen3-4B는 높은 정확도 ceiling을 보이지만 \no_think 반성형 토큰이 0.39 남는다. Qwen2.5-7B-Instruct는 \no_think leakage가 0.02 수준으로 낮지만 accuracy ceiling은 다르다. Qwen3-4B-Base는 어려운 문제에서 길이 제한에 닿는 불안정성이 드러난다. 그림은 초기 weight의 post-training 성격이 PLE 결과를 크게 좌우한다는 사실을 보여준다.
Table 4는 OpenR1 training data를 사용했을 때 base model weight에 따른 MATH500과 AIME24 결과다. 이 표는 비교적 단순한 데이터가 어떤 backbone에서는 충분히 작동하지만, 더 어려운 문제에서는 성능 ceiling을 제한할 수 있음을 보여준다.
| Model | Mode | MATH Acc. | MATH Len. | MATH Refl. | AIME Acc. | AIME Len. | AIME Refl. |
|---|---|---|---|---|---|---|---|
| Qwen3-4B Base | Think | 80.00 | 16384 | 28.80 | 50.00 | 16384 | 19.40 |
| Qwen3-4B Base | No-think | 56.00 | 16262 | 0.00 | 10.00 | 16384 | 0.00 |
| Qwen3-4B | Think | 92.80 | 3409 | 0.02 | 52.00 | 9775 | 25.98 |
| Qwen3-4B | No-think | 51.60 | 529 | 0.04 | 16.00 | 906 | 0.00 |
| Qwen3-4B Instruct | Think | 91.20 | 3480 | 2.84 | 52.00 | 10442 | 35.46 |
| Qwen3-4B Instruct | No-think | 69.20 | 436 | 0.00 | 8.00 | 1694 | 0.00 |
| Qwen2.5-7B Instruct | Think | 86.00 | 3861 | 38.14 | 36.00 | 11794 | 62.76 |
| Qwen2.5-7B Instruct | No-think | 83.20 | 614 | 0.04 | 24.00 | 1329 | 0.02 |
Table 4에서는 OpenR1 데이터가 Qwen2.5-7B-Instruct \no_think MATH500 83.20처럼 강한 직접 답변을 만들 수 있음을 보인다. 그러나 Qwen3-4B \no_think AIME24는 16.00에 머무르고, Qwen3-4B Base는 no-think length가 16384까지 늘어나는 등 불안정하다. 이는 데이터 난이도와 base capacity가 맞지 않으면 PLE의 구조만으로 충분하지 않다는 의미다.
Table 5는 superior-reasoning 27k+27k 데이터를 사용했을 때의 base weight ablation이다. 같은 architecture라도 더 어려운 데이터가 들어오면 Qwen3-4B 계열의 성능 ceiling이 올라가지만, 일부 leakage가 다시 나타날 수 있다.
| Model | Mode | MATH Acc. | MATH Len. | MATH Refl. | AIME Acc. | AIME Len. | AIME Refl. |
|---|---|---|---|---|---|---|---|
| Qwen3-4B Base | Think | 90.00 | 15769 | 7.00 | 20.00 | 16384 | 5.00 |
| Qwen3-4B Base | No-think | 74.00 | 16224 | 0.00 | 30.00 | 16384 | 0.00 |
| Qwen3-4B | Think | 94.80 | 6050 | 3.56 | 60.00 | 31733 | 7.02 |
| Qwen3-4B | No-think | 80.80 | 677 | 0.13 | 40.00 | 5597 | 0.39 |
| Qwen3-4B Instruct | Think | 90.40 | 3129 | 1.12 | 50.00 | 11851 | 0.86 |
| Qwen3-4B Instruct | No-think | 77.20 | 309 | 0.02 | 40.00 | 2971 | 0.00 |
| Qwen2.5-7B Instruct | Think | 86.40 | 2924 | 2.78 | 32.00 | 13809 | 8.16 |
| Qwen2.5-7B Instruct | No-think | 74.80 | 525 | 0.00 | 22.00 | 4120 | 0.02 |
Table 5에서는 superior-reasoning 데이터가 Qwen3-4B의 성능을 가장 크게 끌어올린다. Qwen3-4B PLE는 MATH500 \think 94.80, AIME24 \think 60.00, AIME24 \no_think 40.00을 기록한다. 그러나 \no_think reflective token은 0.39로 OpenR1의 near-zero보다 높다. 더 어려운 reasoning trace가 direct-answer expert에 미세한 압력을 남기는 셈이며, 논문은 이를 leakage-performance trade-off로 해석한다.
6.1 데이터 난이도 ablation: Superior와 OpenR1의 차이
dataset ablation의 결론은 difficulty-capacity alignment다. 강한 Qwen3-4B backbone은 어려운 superior-reasoning 데이터에서 더 높은 정확도와 효율적인 \think behavior를 얻는다. 반면 상대적으로 약한 Qwen2.5-7B-Instruct backbone에서는 simpler OpenR1 데이터가 더 안정적인 상대 이득을 주는 경우가 있다. 이는 어려운 데이터가 항상 좋은 것은 아니며, base model이 그 난이도를 소화할 수 있을 때만 좋은 supervision으로 작동한다는 뜻이다.
논문은 superior dataset이 더 긴 CoT trace와 높은 난이도를 포함하기 때문에, \think expert에는 유리하지만 \no_think expert에는 contamination pressure를 줄 수 있다고 본다. 실제로 Qwen3-4B에서 Superior는 OpenR1보다 높은 AIME24 \no_think accuracy를 만들지만, reflective artifact가 약간 더 나타난다. 반대로 OpenR1은 leakage가 거의 0이지만 높은 난이도 문제의 accuracy ceiling이 낮다. 따라서 PLE를 배포하려면 무조건 어려운 데이터보다, 대상 모델 capacity와 서비스 latency 목표에 맞는 데이터가 필요하다.
Figure 5: AIME24 dataset ablation. Superior-reasoning 데이터와 OpenR1 데이터를 Qwen3-4B 및 Qwen2.5-7B backbone에 적용해, 데이터 난이도와 모델 capacity의 상호작용을 비교한다.
Figure 5는 같은 PLE 구조라도 어떤 데이터로 expert를 분리 학습하느냐에 따라 결과가 달라짐을 보여준다. Qwen3-4B에서는 superior dataset이 높은 정확도와 더 적은 \think reflective token을 제공하지만, \no_think에는 약간의 reflective artifact가 남는다. Qwen2.5-7B에서는 OpenR1이 경쟁력 있는 결과를 보인다. 그림은 데이터 난이도와 모델 capacity의 정렬이 중요하다는 ablation 결론을 뒷받침한다.
Figure 7: MATH500 base model weight ablation. Qwen3-4B, Qwen3-4B-Base, Qwen2.5-7B-Instruct 등 서로 다른 초기화를 같은 superior-reasoning 데이터로 학습해 \think와 \no_think 결과를 비교한다.
Figure 7은 MATH500에서 base weight 선택이 만드는 차이를 보여준다. post-trained Qwen3-4B는 높은 \think accuracy를 유지하고, instruct 계열은 더 깨끗한 \no_think 행동을 보이는 경향이 있다. raw base는 길이와 수렴 안정성 측면에서 불리하게 나타난다. 이 그림은 PLE가 instruction-following 능력을 새로 만드는 장치라기보다 이미 형성된 능력을 모드별 경로로 정리하는 장치임을 뒷받침한다.
Figure 8: MATH500 dataset ablation. OpenR1과 superior-reasoning 54k 데이터가 서로 다른 base model weight에서 \think 및 \no_think accuracy, length, reflective token에 미치는 영향을 비교한다.
Figure 8은 MATH500에서 데이터 선택의 영향을 정리한다. superior-reasoning 데이터는 강한 backbone에서 높은 성능을 만들지만, 단순 benchmark나 특정 instruct backbone에서는 OpenR1도 충분히 좋은 직접 답변 모드를 만든다. 이 그림은 PLE의 효과가 architecture만으로 고정되지 않고 data quality, difficulty, base capacity의 결합으로 결정됨을 보여준다. 따라서 학습 데이터는 목표 benchmark와 운영 모드에 맞추어 선택되어야 한다.
6.2 ablation에서 얻는 설계 원칙
ablation을 바탕으로 PLE를 실제 시스템에 적용한다면 세 가지 원칙을 세울 수 있다. 첫째, base model은 이미 instruction-following과 기본 reasoning literacy를 갖추어야 한다. raw pretrained model에 PLE만 붙이는 것은 위험하다. 둘째, 서비스 목표가 최대 정확도인지, clean direct answer인지에 따라 hybrid base와 instruct base 중 선택이 달라진다. 셋째, training data는 target task 난이도와 latency budget에 맞추어야 한다. 높은 난이도의 CoT data는 성능 ceiling을 올리지만, \no_think expert에 약한 leakage pressure를 남길 수 있다.
이 원칙은 PLE가 단순한 plug-and-play trick으로만 보기 어렵다는 사실을 보여준다. 아키텍처는 gradient interference를 줄여 주지만, shared backbone이 완전히 중립적인 공간은 아니다. hybrid model에 이미 새겨진 long reasoning habit은 attention representation이나 token embedding에도 일부 남을 수 있다. 따라서 MLP 분리는 매우 강력한 개입이지만, 완전한 behavioral firewall은 아니다. 논문이 남기는 가장 현실적인 메시지는 PLE가 training-level intervention을 대체하기보다 보완한다는 점이다.
7. 한계점 및 향후 연구 방향: 경로를 잠그는 것만으로 충분한가
PLE의 첫 번째 한계는 shared backbone contamination이다. MLP는 분리되지만 attention, embedding, normalization, LM head는 공유된다. hybrid-thinking base가 post-training 과정에서 강한 reasoning habit을 shared representation에 이미 내재화했다면, \no_think expert만 깨끗하게 학습해도 residual leakage가 남을 수 있다. Qwen3-4B 기반 PLE의 AIME24 \no_think reflective token 0.39가 바로 그 예다. 이 수치는 native hybrid의 2.54보다 훨씬 낮지만, pure instruct 계열의 near-zero와는 다르다.
두 번째 한계는 dataset dependence다. Superior-reasoning 데이터는 강한 모델에는 유리하지만 leakage-performance trade-off를 만든다. OpenR1은 더 깨끗한 경우가 있지만 높은 난이도에서 성능 ceiling이 낮을 수 있다. 이는 PLE가 architecture-level separation을 제공하더라도, expert가 어떤 target distribution을 학습하느냐에 따라 결과가 달라진다는 뜻이다. 향후 연구에서는 \no_think target을 만드는 teacher 선택, filtering threshold, length constraint, reflective token taxonomy를 더 정교하게 설계할 필요가 있다.
세 번째 한계는 routing granularity다. PLE는 response-level route를 고정한다. 이는 간단하고 해석 가능하지만, 복잡한 agent workflow에서는 한 응답 안에서도 “짧게 판단하고, 특정 단계에서만 길게 검증하고, 다시 직접 답변으로 돌아오는” 패턴이 필요할 수 있다. 현재 PLE는 이런 intra-response mode switching을 지원하지 않는다. 물론 이를 허용하면 leakage가 다시 생길 수 있으므로, 향후 연구는 segment-level path-lock이나 hierarchical control token 설계를 탐색할 수 있다.
네 번째 한계는 평가 지표다. reflective token count는 유용하지만 완전하지 않다. 모델이 명시적 “wait” 없이도 긴 reasoning을 우회적으로 생성하거나, 직접 답변처럼 보이지만 내부적으로는 잘못된 근거를 가진 출력을 낼 수 있다. 따라서 future work는 token marker 외에 semantic conciseness, answer faithfulness, hidden reasoning proxy, latency distribution 같은 지표를 함께 보아야 한다. 특히 사용자에게 chain-of-thought를 노출하지 않는 환경에서는 표면 누수와 내부 신뢰성을 분리해 평가해야 한다.
다섯 번째 한계는 배포 비용과 호환성이다. PLE는 두 모델을 운영하는 것보다 효율적이지만, 단일 dense 모델보다 파라미터가 늘어난다. 또한 기존 inference stack은 layer별 MLP가 하나라는 가정에 최적화되어 있을 수 있어, expert parameter loading과 route caching을 구현해야 한다. 논문은 per-token computation pattern이 dense 모델과 같다고 설명하지만, 실제 serving에서는 memory footprint와 batching policy가 중요하다. 특히 하나의 batch에 서로 다른 route를 섞지 않는 구현은 throughput에 영향을 줄 수 있다.
향후 연구 방향은 세 가지로 보인다. 첫째, PLE와 training-level mitigation을 결합해 residual leakage를 더 줄이는 방법이다. 둘째, \no_think target generation을 teacher ensemble이나 verifier로 강화해 direct-answer expert의 정확도를 높이는 방법이다. 셋째, MoE와 PLE의 중간 형태, 즉 deterministic high-level route와 limited token-level specialization을 결합하는 구조다. 중요한 것은 PLE가 제시한 기준이다. 하이브리드 사고에서 “모드 선택”은 단순 prompt option에 머물지 않고, 모델 내부 경로와 연결되어야 한다.
- Shared attention contamination: MLP를 분리해도 shared backbone의 reasoning habit은 남을 수 있다.
- Dataset difficulty trade-off: 어려운 CoT 데이터는 성능을 높이지만 \no_think 누수 압력을 만들 수 있다.
- Routing granularity: response-level path-lock은 단순하지만 복잡한 agent workflow에는 거칠 수 있다.
- Metric limitation: reflective token count는 유용한 proxy지만 내부 reasoning 상태 전체를 포착하지는 못한다.
- Serving overhead: 단일 dense 모델보다 메모리 footprint와 batching 제약이 커질 수 있다.
8. 내 해석: 모드 제어를 후학습 신호를 넘어 경로 계약으로 보는 전환
내가 보기에 PLE의 가장 중요한 의미는 reasoning을 더 잘하게 만드는 연구보다, reasoning을 언제 노출하지 않을지 보장하는 연구라는 점이다. 이전 위키에서 정리한 on-policy distillation은 학생 rollout 위에서 teacher 분포를 읽어 dense한 token-level 신호를 주고, contribution-weighted GRPO는 process signal을 outcome advantage의 배분자로 사용한다. agent belief verification은 action이나 memory commit 전에 belief가 증거로 정당화되는지 확인하는 계층이다. PLE는 이 셋과 달리 “어떤 신호를 더 줄 것인가”보다 “어떤 파라미터 경로가 그 신호를 받을 것인가”를 먼저 고정한다. 그래서 나는 PLE를 하이브리드 사고의 governance primitive로 읽는다. hink는 깊은 검증과 탐색을 위한 경로, o_think는 비용과 노출을 통제한 직접 답변 경로로 분리되며, 두 경로의 계약이 control token에 의해 해석 가능하게 남는다.
다만 내가 이 논문에서 가장 조심스럽게 보는 약점은 reasoning leakage 측정이 표면 토큰과 benchmark 조합에 상당히 의존한다는 점이다. reflective token이 줄었다고 내부 deliberation이 사라졌다고 말할 수는 없고, GPQA-Diamond처럼 지식 병목이 큰 과제에서는 경로 분리가 정확도 향상으로 바로 이어지지도 않는다. 내가 후속 연구를 붙인다면 PLE에 verifier를 결합해 o_think 답변의 근거 신뢰성을 별도 검사하고, route별 hidden-state drift와 calibration을 함께 보는 평가를 먼저 만들 것 같다. 즉 PLE는 생각의 누수를 줄이는 좋은 시작점이지만, 믿어도 되는 답을 보장하는 마지막 검증자는 아직 아니다.
9. 결론: PLE가 남기는 아키텍처적 메시지
이 논문의 결론은 명확하다. 하이브리드 사고 모델에서 reasoning leakage는 일부만 training recipe의 문제이고, 상당 부분은 아키텍처 수준의 mode interference 문제다. 단일 dense MLP가 긴 reasoning과 직접 답변을 동시에 담당하면, \no_think 모드에 reasoning habit이 남기 쉽다. PLE는 각 decoder layer의 MLP를 두 expert로 나누고 control token으로 경로를 결정해, 두 모드의 feed-forward 업데이트를 분리한다. 그 결과 \no_think는 더 짧고 깨끗해지며, 중요한 benchmark에서는 정확도도 개선된다.
실험은 PLE가 특히 AIME24 같은 어려운 수학 benchmark에서 강한 설득력을 가진다는 점을 보여준다. Qwen3-4B의 \no_think accuracy는 20.67%에서 40.00%로 상승하고, reflective token은 2.54에서 0.39로 감소한다. Qwen2.5-7B-Instruct 기반에서도 PLE는 pure instruct의 clean behavior를 유지하면서 reasoning task 성능을 크게 끌어올린다. MMLU-STEM에서는 \no_think가 짧고 강한 답변 모드가 될 수 있음을 보여주고, GPQA-Diamond에서는 PLE의 한계가 knowledge와 initialization에 묶여 있음을 드러낸다.
가장 가치 있는 메시지는 모드 제어는 인터페이스와 내부 경로가 연결될 때 강해진다는 점이다. 사용자가 \think를 요청하면 \think expert가 활성화되고, \no_think를 요청하면 \no_think expert가 활성화된다. 이 단순한 대응은 learned router보다 덜 유연하지만, 더 해석 가능하고 더 안정적이다. hybrid thinking을 제품이나 agent system에 넣으려면, 단순히 “짧게 답하라”는 instruction을 넣는 것보다 이런 구조적 보장이 더 중요할 수 있다.
동시에 PLE는 완성된 답이라기보다 출발점이다. shared backbone contamination, 데이터 난이도 trade-off, routing granularity, serving overhead가 남아 있다. 그러나 이 연구는 reasoning model 연구의 방향을 조금 바꾼다. 더 긴 생각을 만드는 것만큼이나, 생각을 분리하고 잠그고 필요한 때만 열어 주는 것이 중요하다는 것이다. 그런 의미에서 PLE는 hybrid-thinking LLM을 실제 제어 가능한 시스템으로 만드는 데 필요한 매우 구체적인 아키텍처 제안이다.
9.1 결과를 숫자 중심으로 다시 읽기
논문의 숫자를 다시 보면, PLE의 설득력은 단일 지표보다 세 지표의 동시 이동에서 나온다. AIME24에서 Qwen3-4B native hybrid의 \no_think는 정확도 20.67, 길이 4636.37, reflective token 2.54다. PLE의 \no_think는 정확도 40.0, 길이 5597.0, reflective token 0.39다. 길이는 더 길어졌지만, 누수 표식은 크게 줄고 정확도는 거의 두 배가 된다. 이는 PLE가 단순히 답변을 짧게 잘라낸 방법을 넘어, 직접 답변 expert가 어려운 문제에서도 더 나은 압축된 추론 결과를 산출하도록 학습되었음을 시사한다.
반대로 MATH500의 Qwen3-4B \no_think에서는 native hybrid accuracy 82.22와 PLE accuracy 80.80이 매우 가깝다. 여기서 PLE의 장점은 정확도 절대 향상보다 출력 길이 1004.13에서 676.78로의 감소, 그리고 전체적인 mode behavior의 안정성에 있다. 따라서 PLE의 성능을 “모든 benchmark에서 최고 점수”로 읽으면 논문을 과장하게 된다. 더 정확한 독해는 고난도 수학에서는 직접 답변 정확도까지 개선하고, 중간 난이도 수학에서는 간결성과 제어성을 개선한다는 것이다.
MMLU-STEM 결과는 또 다른 방향을 보여준다. Qwen2.5-7B PLE의 \no_think는 92.22 accuracy, 139 length, 0.00 reflective token을 기록한다. 같은 모델의 \think는 88.89 accuracy, 429 length, 0 reflective token이다. 이 경우에는 긴 reasoning이 더 낫지 않다. 지식 기반 multiple-choice에서는 직접 답변 경로가 오히려 더 적합할 수 있다. PLE의 실용적 가치는 바로 이런 task-dependent routing 정책과 연결된다. 어려운 계산 문제에는 \think를, 짧은 지식 판단에는 \no_think를 쓰는 정책이 실제로 의미 있는 선택이 된다.
GPQA-Diamond에서는 주장이 더 제한된다. Qwen3-4B native hybrid의 \think accuracy는 53.13이고 PLE \think는 48.00이다. \no_think도 native hybrid 42.83, PLE 40.00으로 낮다. 하지만 PLE \no_think의 길이는 402이고 reflective token은 0.00이다. 이 결과는 PLE가 어려운 전문 지식을 자동으로 주입하지 못한다는 점을 분명히 보여준다. 따라서 논문이 강하게 주장할 수 있는 것은 모드 분리와 누수 억제이지, 모든 영역에서의 지식 추론 성능 향상은 아니다.
9.2 시스템 설계 관점에서의 의미
시스템 설계 관점에서 PLE는 control token을 단순한 prompt instruction에서 routing primitive로 바꾼다. 일반적인 프롬프트 기반 제어에서는 모델이 지시를 얼마나 잘 따르는지가 확률적이고, 긴 문맥이나 adversarial instruction이 들어오면 모드가 흔들릴 수 있다. PLE에서는 적어도 MLP expert 선택만큼은 deterministic rule로 결정된다. 마지막 control token이 route를 정하고, route는 decoding 전체에 cached된다. 이 특성은 audit와 reproducibility에 유리하다. 같은 prompt template이 같은 route를 만들면, 모드 선택의 원인을 hidden router score보다 입력 token에서 찾을 수 있다.
배포 환경에서는 이 점이 중요하다. 예를 들어 비용이 민감한 API endpoint에서는 기본 route를 \no_think로 두고, 사용자가 고난도 solving mode를 요청할 때만 \think route를 열 수 있다. 또한 안전 정책상 chain-of-thought 외부화를 제한해야 하는 제품에서는 \no_think expert를 별도로 검증하고 monitoring할 수 있다. 물론 PLE가 내부 reasoning을 완전히 제거한다는 의미는 아니지만, 적어도 long-form reasoning style이 표면 출력으로 새는 경향을 줄이는 구조적 장치를 제공한다.
또 하나의 의미는 model update 운영이다. 단일 dense hybrid 모델에서는 \think 성능 개선을 위한 추가 SFT가 \no_think 행동을 다시 오염시킬 수 있다. PLE에서는 \think dataset으로 학습할 때 \no_think expert가 직접 gradient를 받지 않는다. shared backbone은 여전히 영향을 받지만, mode-specific MLP는 보호된다. 반대로 direct-answer style을 더 엄격히 만들고 싶을 때는 \no_think expert를 중심으로 업데이트할 수 있다. 이는 모드별 regression 관리를 더 명확하게 만든다.
다만 serving scheduler는 route별 batch 구성을 고려해야 한다. 논문 구현처럼 forward pass마다 하나의 route를 쓰면, \think 요청과 \no_think 요청을 같은 batch에 섞기 어렵다. 실제 시스템은 route별 queue를 나누거나, 같은 batch 안에서 expert 선택을 vectorized하게 처리하는 추가 구현이 필요할 수 있다. 따라서 PLE는 inference FLOPs 관점에서는 dense-like라고 볼 수 있지만, 운영 관점에서는 메모리 상주 expert와 batching 정책이 별도의 설계 요소가 된다.
9.3 연구사적 위치와 후속 가능성
연구사적으로 PLE는 reasoning model의 “양”을 키우는 흐름과 다른 질문을 던진다. 많은 연구가 더 긴 CoT, 더 많은 search, 더 정교한 reward를 통해 높은 accuracy를 얻으려 한다. PLE는 그 흐름을 부정하지 않는다. 오히려 \think expert에서는 긴 reasoning을 보존한다. 다만 모든 상황에서 같은 경로가 쓰이면 direct-answer behavior가 오염되므로, reasoning capacity와 answering style을 분리해서 관리해야 한다고 주장한다. 이는 효율성과 제어성을 중시하는 실제 LLM 제품에서는 매우 중요한 전환이다.
후속 연구는 세 방향으로 확장될 수 있다. 첫째, PLE와 verifier를 결합해 \no_think answer의 신뢰성을 별도로 점검하는 구조다. 둘째, route를 response-level에서 segment-level로 세분화하되, 각 segment의 expert path를 명시적으로 잠그는 방식이다. 셋째, shared backbone contamination을 줄이기 위해 attention 일부나 normalization 일부도 모드별로 분리하는 hybrid architecture다. 이때 핵심 trade-off는 늘 같다. 많이 분리할수록 mode purity는 높아지지만 파라미터와 serving 비용이 증가하고, 적게 분리할수록 효율은 좋아지지만 leakage가 남는다.
따라서 PLE의 최종 메시지는 “MLP 두 개가 정답”이라기보다, 하이브리드 사고 모델을 설계할 때 모드 인터페이스, 파라미터 경로, 학습 gradient, 운영 정책을 함께 보아야 한다는 것이다. 이 논문은 그중 가장 간단한 형태로 MLP path-lock을 제안했고, 수학 및 과학 benchmark에서 그 효과를 실험적으로 보였다. 추론을 잘하는 모델을 만드는 것과 추론을 잘 통제하는 모델을 만드는 것은 서로 다른 문제이며, PLE는 후자의 문제를 명확히 모델링했다는 점에서 가치가 있다.
또한 PLE는 evaluation 설계에도 메시지를 준다. 앞으로 hybrid-thinking 모델을 비교할 때는 단순한 benchmark accuracy만으로 충분하지 않다. 같은 모델이 어떤 route에서 얼마만큼의 길이와 누수 표식을 내는지, 그리고 그 route가 실제 사용자 의도와 일치하는지를 함께 공개해야 한다. 이 논문이 accuracy, length, reflective token을 나란히 배치한 이유도 여기에 있다. 제어 가능한 reasoning은 성능 수치와 행동 수치를 동시에 요구한다.
10. 요약 정리: Path-Lock Expert를 읽을 때 기억할 핵심 포인트
- 문제 정의: hybrid-thinking 모델은 \think와 \no_think를 제공하지만, \no_think에서도 긴 reasoning과 반성형 토큰이 새는 reasoning leakage가 발생한다.
- 핵심 가설: 누수는 데이터나 프롬프트만의 문제를 넘어, 같은 MLP 파라미터가 두 상충 모드를 함께 학습하는 architecture-level interference의 결과다.
- 방법론: PLE는 각 decoder layer의 MLP를 \think expert와 \no_think expert로 복제하고, attention, embedding, normalization, LM head는 공유한다.
- Routing: learned router 없이 마지막 control token이 route를 결정하며, 한 번 결정된 expert path는 모든 layer와 decoding step에서 고정된다.
- 학습 방식: routing-conditioned SFT에서는 active expert만 gradient를 받고 inactive expert는 업데이트되지 않아 mode-pure update가 가능하다.
- 주요 결과: Qwen3-4B 기반 PLE는 AIME24 \no_think accuracy를 20.67%에서 40.00%로 높이고 reflective token을 2.54에서 0.39로 줄인다.
- 비교 우위: PLE는 SFT-only 같은 training-level mitigation보다 강한 \no_think 정확도와 near-zero leakage를 동시에 달성하는 구간을 만든다.
- Ablation 교훈: hybrid base는 높은 성능 ceiling을 주지만 residual leakage가 남을 수 있고, instruct base는 더 깨끗하지만 성능 ceiling이 낮을 수 있다.
- 한계: PLE는 missing knowledge를 해결하지 않으며, shared backbone contamination, 데이터 난이도, response-level routing의 거칠음, serving memory overhead가 남아 있다.
- 의의: PLE는 하이브리드 사고의 mode control을 prompt convention을 넘어 내부 경로 계약으로 구현한 간단하고 해석 가능한 아키텍처 제안이다.
'[논문 리뷰] > [최신 논문]' 카테고리의 다른 글
| [arXiv 2605.02572] 장기 지평 LLM 에이전트 학습: Horizon Length가 만드는 훈련 병목 (0) | 2026.05.06 |
|---|---|
| [arXiv 2605.00817] LLM이 절차 수행을 멈출 때: 정답률 너머의 단계 실행 진단 (0) | 2026.05.06 |
| [arXiv 2604.27283] Learning When to Remember: LLM 코딩 에이전트가 기억을 거절하는 방법 (1) | 2026.05.02 |
| [arXiv 2604.28182] 탐색 해킹: LLM은 강화학습 후학습에 저항할 수 있는가 (0) | 2026.05.01 |
| [arXiv 2604.26779] RL 후학습 롤아웃 가속: Speculative Decoding을 NeMo RL 안에 통합하는 방법 (0) | 2026.04.30 |