[논문 리뷰]/[최신 논문] / [arXiv 2603.28743] 하이퍼스피어 최적화로 다시 쓰는 언어모델 스케일링: HyperP와 SqrtGate의 의미.md

[arXiv 2603.28743] 하이퍼스피어 최적화로 다시 쓰는 언어모델 스케일링: HyperP와 SqrtGate의 의미

조회

Rethinking Language Model Scaling under Transferable Hypersphere Optimization

https://arxiv.org/abs/2603.28743

Liliang Ren, Yang Liu, Yelong Shen, Weizhu Chen | Microsoft | arXiv:2603.28743v1 | 2026년 3월


이 논문은 대규모 언어모델의 성능 곡선을 해석할 때 흔히 당연하게 받아들였던 전제 하나를 정면으로 다시 묻는다. 지금까지 스케일링 법칙 논의는 대체로 일차 최적화기와 그에 맞춘 하이퍼파라미터 이전 법칙을 중심으로 발전해 왔고, 학습률과 가중치 감쇠를 어떻게 옮길지에 대한 경험적 규칙이 사실상 표준처럼 쓰였다. 그러나 논문은 이런 규칙이 계산량이 커질수록 더 자주 나타나는 불안정한 학습 동역학, 예를 들어 로짓 폭주, 활성값 이상치, 손실 스파이크를 구조적으로 막아 주지는 못한다고 지적한다. 즉, 좋은 스케일링 법칙은 단순히 작은 모델에서 찾은 최적점을 큰 모델로 옮기는 기술이 아니라, 그 이동 과정 자체가 안정적이어야 한다는 문제의식에서 출발한다.

이 문제를 해결하기 위해 저자들은 HyperP라는 프레임워크를 제안한다. 핵심은 가중치 행렬을 고정 노름의 프로베니우스 구면 위에 두는 하이퍼스피어 최적화와 MuonH를 결합하고, 여기서 학습률이 모델 너비, 깊이, 학습 토큰 수, 그리고 Mixture-of-Experts의 세분화 정도까지 어떻게 이전되어야 하는지를 하나의 체계로 정리하는 데 있다. 특히 논문은 가중치 감쇠가 이 제약 아래에서는 일차 근사에서 사실상 작동하지 않는다는 점을 보이고, 깊이 방향에서는 여전히 Depth-$\mu$P가 필요하다고 정리한다. 동시에 토큰 수가 늘어날 때 최적 학습률이 $\eta^* = 24.27 \cdot T^{-0.320}$ 형태의 멱법칙을 따른다는 경험적 결과를 제시한다.

이 리뷰는 원문이 제공하는 이론과 실험을 한국어로 촘촘하게 풀어 설명하는 데 목적이 있다. 단순히 “하이퍼스피어 최적화가 안정적이다”라는 결론을 반복하기보다는, 왜 가중치 감쇠가 사라지는지, 왜 깊이 스케일링에서 별도 규칙이 필요한지, 왜 MoE에서 SqrtGate가 필요한지, 그리고 왜 HyperP가 공정한 아키텍처 비교를 가능하게 하는지를 순서대로 따라간다. 또한 본문 후반부에서는 실험 수치와 그림을 바탕으로 논문이 실제로 어느 정도의 계산 효율과 안정성 이득을 보고했는지, 그리고 이런 주장이 어떤 범위에서 타당한지까지 함께 정리한다.

1. 서론: 스케일링 법칙을 성능 곡선이 아니라 안정성 문제로 다시 보기

최근 언어모델 연구에서 스케일링 법칙은 단순한 경험 공식이 아니라 모델 개발 전략 그 자체가 되었다. 작은 규모에서 아키텍처와 하이퍼파라미터를 탐색하고, 그 결과가 더 큰 규모에서도 유지된다고 가정한 뒤 막대한 연산을 투입하는 방식이 사실상 산업과 연구 현장의 공통 절차가 되었다. 하지만 이 절차가 제대로 작동하려면 각 규모의 모델이 자기 규모에 맞는 거의 최적의 하이퍼파라미터로 학습되어야 한다. 그렇지 않으면 아키텍처 차이로 보이는 효과가 실제로는 잘못 옮겨진 학습률과 정규화 설정의 결과일 수 있다.

논문이 특히 강조하는 부분은, 기존 스케일링 연구가 성능 예측에는 능숙했지만 학습 불안정성의 이전 가능성을 별도로 다루지 않았다는 점이다. 큰 규모로 갈수록 손실 폭주와 활성값 이상치가 잦아지고, 특히 MoE에서는 라우터 로짓이 급격히 커지면서 균형 잡힌 전문가 사용이 무너지는 문제가 반복적으로 보고되어 왔다. 저자들은 이런 현상이 단순한 구현 이슈가 아니라 최적화 기하학와 연결된 문제라고 본다. 다시 말해, 파라미터 공간을 어떤 방식으로 제약하고 업데이트를 어떤 노름 아래 해석하느냐에 따라 스케일링의 양상이 근본적으로 달라질 수 있다는 것이다.

이 관점에서 보면 HyperP의 의의는 작은 모델에서 찾은 학습률을 큰 모델에 복사하는 요령을 하나 더 추가한 것이 아니다. 오히려 작은 규모에서 통하던 설정이 큰 규모에서도 더 불안정해지지 않는 구조를 찾는 데 가깝다. 논문은 이것을 transferable stability라고 부르며, 좋은 하이퍼파라미터 이전 법칙이라면 손실뿐 아니라 안정성 지표도 함께 이동해야 한다고 주장한다. 이 문제의식은 뒤에서 등장하는 $Z$-value, 출력 RMS, 활성 이상치 비율 분석으로 구체화된다.

또 하나 중요한 맥락은 공정한 아키텍처 비교다. 새로운 구조가 좋아 보이는 이유가 정말 구조 자체 때문인지, 아니면 특정 규모에서 우연히 학습률이 더 잘 맞았기 때문인지를 분리하는 일은 생각보다 어렵다. HyperP는 작은 규모에서 한 번 찾은 기준 학습률을 너비, 깊이, 토큰 수, MoE 구성 변화에 맞춰 체계적으로 옮기는 방법을 제시함으로써, 적어도 논문이 다루는 조건 안에서는 각 아키텍처를 비슷한 수준의 최적화 상태에서 비교할 수 있게 한다. 이 점 때문에 논문 제목에 들어간 “rethinking”은 단순한 수사가 아니라, 스케일링 실험의 해석 프레임 자체를 바꾸자는 제안으로 읽을 수 있다.

HyperP와 기준 방법의 FLOPs 스케일링 비교

Figure 1: FLOPs 스케일링 비교와 Compute Efficiency Leverage

이 그림은 논문 전체의 핵심 메시지를 가장 압축적으로 보여준다. 왼쪽은 FLOPs 증가에 따른 검증 손실 곡선, 오른쪽은 Muon 기준의 CEL을 나타낸다. 논문은 MuonH+HyperP가 큰 규모에서 점점 더 유리해지며, 최대 $5.96\times 10^{21}$ FLOPs 지점에서 1.58배의 계산 효율 이득을 보였다고 보고한다. 여기에 MoE 구성까지 결합하면 dense 기준 대비 3.38배의 효율 이득이 가능하다고 정리한다.

2. 배경 및 관련 연구: $\mu$P 이후의 스케일링 법칙과 하이퍼스피어 최적화의 접점

2.1 기존 스케일링 법칙은 무엇을 해결했고 무엇을 남겼는가

기존의 파라미터 이전 법칙은 주로 $\mu$P와 그 확장들에 기반한다. 이 계열의 방법들은 너비가 바뀌어도 네트워크의 함수 공간 변화가 일정한 질서를 유지하도록 초기화 표준편차, 잔차 스케일, 층별 학습률 배율을 설계한다. 실제로 이런 접근은 작은 모델에서 하이퍼파라미터를 튜닝한 뒤 더 큰 모델에 옮기는 데 많은 도움을 주었고, 대규모 사전학습에서 널리 쓰이는 설계 원리로 자리 잡았다. 그러나 이 프레임은 기본적으로 표준적인 일차 최적화기를 중심으로 정리되어 있었고, 가중치 감쇠와 학습률의 상호작용이 점점 복잡해지는 문제를 함께 안고 있었다.

특히 가중치 감쇠는 스케일이 커질수록 더 미묘해진다. 학습률과 함께 조정해야 하고, 학습 토큰 수가 달라질 때 최적값이 달라지며, 너비 스케일링과도 엮인다. 따라서 동일한 아키텍처라도 어느 실험에서는 특정 감쇠값이 잘 작동하고, 다른 규모에서는 오히려 성능을 깎아먹는 일이 흔하다. 논문은 이런 점이 기존 스케일링 법칙의 실용성을 떨어뜨리는 중요한 요인이라고 본다. 좋은 이전 법칙이라면 탐색 차원을 줄여야 하는데, 가중치 감쇠가 계속 중요한 축으로 남아 있으면 실험 비용이 다시 늘어나기 때문이다.

또 다른 한계는 깊이 스케일링의 섬세함이다. 너비 방향의 이전은 비교적 잘 정리되어 있지만, 깊이가 늘어날수록 잔차 누적과 기울기 전파의 형태가 달라지기 때문에 같은 학습률을 그대로 유지하기 어렵다. 일부 최근 연구는 특정 최적화기가 깊이에 대해 자연스럽게 더 잘 일반화된다고 주장했지만, 이 논문은 하이퍼스피어 최적화에서도 깊이 방향의 보정은 여전히 필요하다는 결론을 제시한다. 즉, 단지 구면 위에서 학습한다고 해서 모든 규모 문제가 사라지는 것은 아니라는 점을 분명히 한다.

2.2 하이퍼스피어 최적화와 MuonH는 어떤 기하학을 도입하는가

하이퍼스피어 최적화는 가중치 행렬을 자유롭게 두지 않고, 선택한 행렬 노름 아래에서 고정 반지름의 구면 위에 머물도록 업데이트 후 다시 투영하는 방식이다. 논문이 다루는 기본식은 가중치 $W$와 업데이트 $G$가 있을 때, 업데이트 후 결과를 다시 같은 프로베니우스 노름의 구면으로 정규화하는 형태다. 이 설정은 파라미터의 반지름 방향 성분을 억제하고, 실제로 모델의 기능을 바꾸는 접공간 방향 변화만 남기는 해석을 가능하게 한다. 저자들은 바로 이 점이 스케일링 안정성의 핵심이라고 본다.

MuonH는 여기에 한 단계 더 나아가 가중치뿐 아니라 업데이트도 정규화한다. 즉, 어떤 층의 기울기가 더 크다고 해서 그 층이 과도하게 큰 반지름 변화로 이어지지 않게 만들고, 상대 업데이트의 크기를 더 일정한 범위에 두려는 목적을 가진다. 원문에서 저자들은 MuonH가 hidden weight 행렬에 적용되고, 언어모델 head와 벡터 파라미터 등은 별도 방식으로 다뤄진다고 설명한다. 중요한 점은 이 구조가 단순히 수치 안정성 편의를 위한 것이 아니라, 뒤에서 서술되는 폭넓은 하이퍼파라미터 이전 법칙의 기반이 된다는 사실이다.

하이퍼스피어 최적화가 흥미로운 이유는, 같은 노름 제약이라도 어떤 노름을 선택하느냐에 따라 이론과 구현의 성질이 달라지기 때문이다. 논문은 여러 가능성 중에서도 프로베니우스 노름을 택했을 때 일차 근사에서 매우 깔끔한 형태가 나온다고 주장한다. 가중치 감쇠가 접공간 투영 뒤에는 사라지고, 너비 방향 스케일링에서도 등방성에 가까운 스펙트럼을 가정하면 익숙한 $\mu$P류의 직관과 연결된다. 결국 HyperP는 기존 스케일링 법칙을 완전히 폐기하는 것이 아니라, 그것을 하이퍼스피어 기하학 위에서 재구성한 것으로 이해할 수 있다.

3. 방법론: HyperP와 SqrtGate로 정리한 하이퍼스피어 스케일링

3.1 프로베니우스 구면에서는 왜 가중치 감쇠가 사실상 사라지는가

논문의 첫 번째 핵심 정리는 프로베니우스 구면 위로의 재정규화가 일차 근사에서 접공간 성분만 남긴다는 사실이다. 가중치가 $\|W\|_F=c_W$를 만족하고, 임시 업데이트를 $\widetilde{W}=W+\Delta$라고 두면, 재투영 뒤의 변화는 다음처럼 접공간 사영으로 표현된다.

$$W^{+}-W=\Pi_T(\Delta)+O(\|\Delta\|_F^2)$$

여기서 $\Pi_T(\Delta)$는 현재 가중치 $W$에서의 접공간으로의 정사영을 뜻한다. 이 식이 중요한 이유는, 반지름 방향으로 가중치를 줄이려는 항은 재정규화 과정에서 일차 수준에서는 사라진다는 점을 직접 보여 주기 때문이다. 논문은 이 결과를 이용해 가중치 감쇠 항이 포함된 업데이트 $\Delta=-\eta G-\eta\lambda W$를 넣더라도, 최종 변화는 사실상 $-\eta\Pi_T(G)$와 같아진다고 설명한다. 즉, 프로베니우스 구면에서는 가중치 감쇠가 일차 효과를 내지 못한다는 것이 이론적으로 성립한다.

이 결론의 실무적 의미는 매우 크다. 일반적인 최적화에서는 학습률 $\eta$와 가중치 감쇠 $\lambda$를 함께 조정해야 하고, 둘의 상호작용 때문에 실험 설계가 복잡해진다. 하지만 HyperP에서는 적어도 핵심 hidden weight에 대해서는 이 탐색 차원이 크게 줄어든다. 논문이 강조하듯, 이것은 단순한 편의성 문제가 아니라 스케일링 실험을 더 해석 가능하게 만드는 구조 단순화다. 조정해야 할 축이 줄어들수록 작은 모델에서 찾은 설정을 큰 모델로 옮기는 법칙을 더 선명하게 볼 수 있기 때문이다.

3.2 너비, 깊이, 토큰 수를 함께 묶는 HyperP의 이전 법칙

HyperP의 두 번째 축은 너비와 깊이에 대한 이전 규칙이다. 논문은 가중치 행렬이 입력 공간에서 충분히 등방적이라고 가정할 때, 프로베니우스 노름을 $\|W\|_F=C\sqrt{d_{out}}$로 두면 출력 RMS가 너비에 따라 크게 흔들리지 않는다는 정리를 제시한다. 이 관찰은 표준 $\mu$P가 너비 변화에 맞춰 학습률을 직접 조정하던 관행과 달리, 하이퍼스피어 제약 아래에서는 너비 방향 학습률 배율을 더 단순하게 다룰 수 있다는 근거가 된다. 논문의 표현을 빌리면, Frobenius sphere 위에서는 폭 스케일링에서 필요한 정규화가 가중치의 기하학 자체에 내장된다.

하지만 깊이 방향은 다르다. 잔차 네트워크를 깊이 $L$로 늘릴 때 각 층의 잔차 배율을 $\alpha_L$로 두면, 업데이트 정규화가 없는 경우 함수 공간의 총 변화는 대략 $O(L\alpha_L^2\eta_l)$, 업데이트까지 정규화하는 경우는 $O(L\alpha_L\eta_l)$로 누적된다. 따라서 후자의 경우에도 학습률은 결국 $\eta_l = O\!\left(\frac{1}{L\alpha_L}\right)$ 처럼 줄어들어야 한다. 논문은 이것이 곧 Depth-$\mu$P가 MuonH에서도 여전히 필요함을 뜻한다고 정리한다.

토큰 수에 대한 스케일링은 이론으로 닫히지 않아 경험적 피팅으로 처리한다. 저자들은 208M 파라미터 수준의 모델에서 학습 토큰 수를 10.4B에서 166.4B까지 늘리며 세밀한 학습률 스윕을 수행했고, 최적 학습률이 아래와 같은 멱법칙을 따른다고 보고한다.

$$\eta^* = 24.27 \cdot T^{-0.320}$$

이 식의 의미는 단순히 “토큰이 늘수록 학습률을 낮춰라”가 아니다. 기존 AdamW 계열에서 보고된 0.32의 마법 지수가 MuonH 기반 하이퍼스피어 최적화에서도 다시 관찰된다는 점이 핵심이다. 저자들은 이를 두고 최적 학습률의 데이터 스케일링에 최적화기 종류를 넘어서는 보편성이 있을 가능성을 제기한다. 물론 논문도 이 값을 이론적으로 증명한 것은 아니라고 분명히 밝히지만, 스케일링 법칙 연구에서 매우 흥미로운 경험적 수렴으로 볼 수 있다.

파라미터 그룹 방법 학습률 배율 초기화 표준편차 잔차 배율 가중치 감쇠
Embedding / Vector HyperP $\propto 1/\sqrt{d}$ $\propto 1$ 해당 없음 0
Unembedding HyperP $\propto 1/\sqrt{d}$ $\propto 1$ 해당 없음 0
Hidden Weights HyperP $\propto 1/(T^{0.32}\sqrt{d})$ $\propto 1/\sqrt{d_{in}}$ $1/\sqrt{2d}$ 0

위 표는 논문의 Table 1을 블로그용으로 단순화해 옮긴 것이다. 핵심은 hidden weight에 대해 학습률 배율이 토큰 수와 깊이에 동시에 의존한다는 점, 그리고 가중치 감쇠가 0으로 정리된다는 점이다. 반면 초기화 표준편차와 잔차 배율은 기존 $\mu$P 계열의 직관을 상당 부분 유지한다. 따라서 HyperP는 완전히 새로운 세계를 여는 방식이라기보다, 기존 전이 법칙에서 남아 있던 난점을 하이퍼스피어 최적화의 기하학으로 정리한 방식이라고 보는 편이 더 정확하다.

토큰 수에 따른 최적 학습률 스케일링

Figure 2: 토큰 수 증가에 따른 최적 학습률의 멱법칙

왼쪽 패널은 서로 다른 토큰 예산에서 손실 대 학습률 곡선을, 오른쪽은 그 곡선에서 추정한 최적 학습률을 로그-로그 축에 그린 결과를 보여준다. 점들이 거의 직선 위에 놓이며 기울기 0.32를 형성하는 것이 핵심이다. 논문은 이를 통해 작은 토큰 예산에서 찾은 기준 학습률을 더 긴 학습으로 옮길 수 있다고 주장하며, 실제 수치는 뒤의 표에서 10.4B에서 0.01515, 166.4B에서 0.00635로 감소한다고 보고한다.

3.3 SqrtGate는 왜 MoE 세분화 스케일링에 필요한가

논문의 세 번째 축은 MoE의 세분화 스케일링이다. 전문가 수와 top-$k$ 라우팅 구성이 바뀌면 같은 활성 파라미터 수를 유지하더라도 라우터 출력과 잔차 분기의 RMS가 달라질 수 있다. 논문은 일반적인 게이팅에서 라우팅 출력의 RMS가 대략 $r\sqrt{\sum_i g_i^2}$에 비례하고, 균등한 top-$k$ 게이팅에서는 이것이 $r/\sqrt{k}$ 수준으로 줄어든다고 설명한다. 즉, top-$k$가 커질수록 출력 규모가 구조적으로 달라져 같은 하이퍼파라미터를 옮기기 어려워질 수 있다는 뜻이다.

이를 보정하기 위해 저자들이 제안한 것이 SqrtGate다. 핵심은 게이트 가중치 $g_i$ 자체를 쓰지 않고 $\sqrt{g_i}$ 형태로 재구성해, 라우팅 출력 RMS가 top-$k$ 변화에도 대체로 일정하게 유지되도록 만드는 것이다. 논문은 이 설계가 하이퍼스피어 제약과 자연스럽게 맞물리며, granularity가 달라져도 라우팅 분기의 출력 크기를 보존하게 해 준다고 주장한다. 결과적으로 학습률 이전이 더 잘 유지되고, 라우터 로짓 폭주도 줄어드는 방향으로 작동한다.

이 주장은 단순한 직관을 넘어 실험적으로도 강하게 뒷받침된다. SqrtGate를 사용하면 top-$k$ 값이 2에서 64까지 바뀌는 동안 최적 학습률이 거의 흔들리지 않고, 손실도 일관되게 낮아진다. 더 인상적인 점은 안정성 지표에서의 이득이다. 후반부 Figure 15에서 보듯 SqrtGate가 없을 때는 라우터 $Z$-value가 계속 상승하며 190을 넘는 반면, SqrtGate가 있으면 40 아래로 억제된다. 논문이 MoE 구성에서 HyperP를 단순히 “동작한다”가 아니라 “구조적으로 맞는 조합”으로 제시하는 이유가 여기에 있다.

4. 실험 설정: Transformer-Next 계열 위에서 HyperP를 검증하는 방법

4.1 데이터셋 및 벤치마크: SlimPajama와 4K 컨텍스트를 기본 축으로 사용

실험은 기본적으로 SlimPajama 데이터셋 위에서 진행된다. 컨텍스트 길이는 4K로 고정하고, 기본 배치 크기는 2M 토큰으로 설정한다. 논문은 FLOPs 스케일링 비교에서 Chinchilla 법칙을 따라 파라미터 수 대비 학습 토큰 수를 비례적으로 늘리는 설정을 사용했으며, 이때 Tokens Per Parameter를 50 TPP 수준으로 맞춘 실험이 반복적으로 등장한다. 즉, 데이터 축은 단순히 많이 학습하는지의 문제가 아니라, 각 모델 규모에 맞는 비교적 계산 최적에 가까운 구성을 유지하려는 의도로 설계되었다.

벤치마크의 중심은 복잡한 다운스트림 태스크 점수가 아니라 검증 손실 곡선과 이를 바탕으로 한 스케일링 적합이다. 논문은 언어모델 사전학습에서 작은 손실 차이도 장기적인 계산 효율 차이로 크게 확대될 수 있다고 보고, 각 규모에서 세밀한 학습률 스윕을 수행한 뒤 그 최적점을 비교한다. 따라서 이 논문의 실험은 “최종 벤치마크 리더보드”보다도 최적화 법칙과 안정성 지표의 재현성에 더 초점을 맞추고 있다고 보는 편이 맞다.

4.2 구현 세부사항: Transformer-Next 아키텍처와 학습 스케줄

모델은 Transformer-Next 계열을 사용한다. dense 모델은 GQA 4 KV heads, head dimension 128, $\alpha=128$ 비율을 사용하며, 모델 너비는 $w=128d$로 깊이에 비례하도록 두었다. attention heads 수는 $n_{head}=2d$로 설정해 스케일링 동안 일정한 구조 비율을 유지한다. MLP는 SwiGLU를 사용하고 중간 차원은 $4w$로 둔다. 잔차 연결은 Pre-Norm을 사용하며, dense 실험에서는 QK-Normheadwise gated attention이 기본 구조에 포함된다.

MoE 모델은 여기서 더 나아가 SqrtGate와 shared expert를 포함한 구조를 사용한다. 논문은 이 구성이 Section 3.7의 이론과 맞물려 granularity 변화에도 RMS를 안정적으로 유지한다고 설명한다. 학습 스케줄은 warm-up 없이 선형 감쇠로 피크 학습률의 10%까지 내리는 방식이고, Muon과 MuonH 모두 모멘텀 0.95를 사용한다. 초기화는 PyTorch의 Kaiming uniform 기본값을 사용한다는 점도 명시되어 있는데, 이는 HyperP가 지나치게 특수한 초기화에 의존하지 않는다는 인상을 준다.

4.3 베이스라인: Muon, MuonH, MuonH+HyperP, 그리고 MuonH+HyperP MoE

핵심 비교군은 네 가지다. 첫째는 Muon으로, $\mu$P++와 $1/w$형 가중치 감쇠 스케일링을 사용하는 강한 기준선이다. 둘째는 MuonH로, 프로베니우스 구면 제약을 쓰지만 HyperP의 전체 이전 법칙은 적용하지 않은 변형이다. 셋째는 논문의 주인공인 MuonH+HyperP이고, 넷째는 여기에 MoE 구조를 얹은 MuonH+HyperP MoE다. 비교는 작은 규모에서 한 번 기준 학습률을 찾은 뒤, 각 방법이 제시하는 이전 법칙에 따라 더 큰 규모로 이동하는 방식으로 이뤄진다.

성능 비교에는 Compute Efficiency Leverage가 사용된다. 논문은 각 방법의 손실-대-FLOPs 곡선을 멱법칙으로 맞추고, 어떤 방법이 달성한 손실을 기준선이 달성하려면 얼마나 많은 FLOPs가 필요한지를 역산해 $\rho=C_{base}/C^*$로 정의한다. 따라서 $\rho>1$이면 같은 손실에 더 적은 연산으로 도달했다는 뜻이고, 단순한 손실 차이를 넘어 실제 계산 효율의 배율로 결과를 읽을 수 있게 된다. 이 지표는 작은 손실 이득이 실제 비용 절감과 얼마나 연결되는지를 함께 해석하게 만든다.

방법 기준 설정 핵심 차이
Muon $\mu$P++, weight decay scaling 학습률과 가중치 감쇠를 함께 조정해야 함
MuonH 프로베니우스 구면, vanilla transfer 가중치 감쇠 제거 가능하지만 완전한 이전 법칙 부재
MuonH+HyperP 구면 제약 + 폭/깊이/토큰 이전 법칙 작은 규모 기준 학습률을 큰 규모에 체계적으로 이전
MuonH+HyperP MoE HyperP + SqrtGate + shared expert MoE sparsity와 granularity까지 같은 프레임으로 분석

이 표는 논문이 실제로 비교한 방법을 리뷰용으로 정리한 것이다. 특히 MuonH 자체MuonH+HyperP를 분리해서 보는 것이 중요하다. 저자들의 주장은 단순히 “하이퍼스피어 최적화가 좋다”가 아니라, 그 위에 올려진 이전 법칙까지 포함해야 스케일링에서 진짜 이득이 난다는 데 있다. 따라서 HyperP의 기여는 최적화기 교체와 별도로 읽어야 한다.

5. 주요 실험 결과: 계산 효율과 안정성 측면에서 HyperP가 보여 준 것

5.1 MuonH는 가중치 감쇠를 없애도 성능을 잃지 않는가

논문은 먼저 가장 기본적인 질문부터 확인한다. 프로베니우스 구면에서 가중치 감쇠가 일차 근사에서 무의미하다면, 실제 학습에서도 그것을 제거해도 괜찮아야 한다. 이를 위해 저자들은 깊이 8의 dense 모델과 10.4B 토큰 설정에서 MuonMuonH를 직접 비교한다. Muon은 학습률과 가중치 감쇠를 함께 스윕하고, MuonH는 가중치 감쇠를 0으로 고정한다.

결과는 논문의 이론과 잘 맞는다. Muon은 최적 가중치 감쇠를 잘 찾았을 때 2.479의 best validation loss를 얻고 최적 학습률은 0.0222였다. 반면 MuonH는 가중치 감쇠 없이도 2.475의 더 낮은 손실과 0.0155의 최적 학습률을 기록했다. 손실 차이는 아주 크지 않지만, 중요한 것은 성능을 유지하면서 탐색 차원을 줄였다는 점이다. 또한 Muon에서는 가중치 감쇠가 $10^{-3}$일 때 가장 좋고 $4\times10^{-3}$일 때 2.500까지 나빠진다고 서술되어, 기준선이 감쇠 설정에 꽤 민감하다는 사실도 함께 드러난다.

방법 적합된 최적 학습률 최고 검증 손실 가중치 감쇠
Muon 0.0222 2.479 $10^{-3}$
MuonH 0.0155 2.475 0

이 비교는 HyperP의 전체 스토리에서 의외로 중요하다. 뒤에 나오는 복잡한 스케일링 결과를 믿으려면, 먼저 기본 최적화기 선택 자체가 합리적이어야 한다. 논문은 MuonH가 성능 희생 없이 가중치 감쇠를 제거할 수 있음을 보여 줌으로써, 이후의 스케일링 법칙이 “약한 기준선 위의 이득”이 아니라는 점을 확보한다. 말하자면 HyperP는 이미 어느 정도 강한 출발점 위에서 추가적인 이전 효율을 얻어 낸다는 것이다.

Muon과 MuonH의 손실 대 학습률 곡선 비교

Figure 3: Muon과 MuonH의 최적점 비교

이 그림은 Muon이 가중치 감쇠 $\lambda$를 함께 스윕해야 하는 반면, MuonH는 $\lambda=0$으로도 거의 같은 혹은 더 좋은 최적점을 얻는다는 사실을 시각적으로 보여 준다. 곡선의 최소점 위치가 완전히 같지는 않지만, 논문이 강조하는 포인트는 성능 차이가 아니라 탐색 공간의 축소다. 즉, 2차원 탐색을 1차원으로 줄이면서도 손실은 유지되거나 약간 개선된다.

5.2 깊이 스케일링과 임계 배치 크기: HyperP는 어느 축에서 이전을 안정화하는가

깊이 스케일링 실험에서는 깊이 $d\in\{8,12,16,20,24\}$로 모델을 키우면서 동일한 학습률 격자를 스윕한다. 결과는 이론과 매우 정직하게 맞아떨어진다. Depth-$\mu$P가 없으면 최적 학습률이 0.016에서 0.008까지 절반으로 내려간다. 반면 Depth-$\mu$P를 넣으면 최적 학습률은 대부분 0.014~0.016 근방에 머물러, 작은 규모에서 찾은 기준점을 더 깊은 모델로 옮기기 쉬워진다.

흥미로운 점은 최적 손실 자체는 두 설정이 크게 다르지 않다는 것이다. 예를 들어 깊이 24에서 Depth-$\mu$P 사용 시 손실은 2.1320, 미사용 시 2.1263으로 오히려 아주 근소하게 낮다. 논문은 이 결과를 두고, Depth-$\mu$P의 역할이 손실 자체를 마법처럼 줄이는 것이 아니라 학습률 풍경을 정렬해 이전 가능성을 높이는 데 있다고 해석한다. 즉, 최종 성능보다 중요한 것은 작은 모델에서 찾은 학습률을 큰 모델에서도 비슷하게 쓸 수 있게 만드는 것이다.

깊이 Depth-$\mu$P 사용 시 $\eta^*$ Depth-$\mu$P 사용 시 손실 미사용 시 $\eta^*$ 미사용 시 손실
8 0.014 2.4734 0.016 2.4693
12 0.016 2.3150 0.012 2.3079
16 0.016 2.2250 0.010 2.2196
20 0.016 2.1690 0.008 2.1656
24 0.014 2.1320 0.008 2.1263

이 표에서 가장 눈에 띄는 것은 깊이가 커질수록 미사용 설정의 최적 학습률이 지속적으로 내려가는 반면, 사용 설정은 거의 평평하다는 점이다. 리뷰 관점에서 말하면 HyperP의 깊이 방향 효과는 “성능을 높인다”보다 “튜닝 비용을 거의 고정시킨다”로 이해하는 것이 더 맞다. 실제 대규모 학습에서는 이 차이가 훨씬 중요하다. 큰 모델마다 새로 학습률 스윕을 해야 한다면 스케일링 법칙의 실용성 자체가 약해지기 때문이다.

Depth-μP 적용 여부에 따른 손실 대 학습률 곡선

Figure 4: Depth-$\mu$P 적용 여부에 따른 학습률 정렬 효과

왼쪽 패널에서는 Depth-$\mu$P를 넣었을 때 서로 다른 깊이의 손실 곡선 최소점이 거의 같은 위치에 모인다. 반대로 오른쪽에서는 깊이가 커질수록 최적점이 왼쪽으로 이동해 더 작은 학습률을 요구한다. 논문은 바로 이 정렬 효과를 HyperP의 실질적 가치로 제시한다. 성능 격차보다 중요한 것은 하나의 기준 학습률이 여러 깊이에서 계속 유효하다는 점이다.

배치 크기 스케일링 실험도 같은 맥락에서 읽을 수 있다. 깊이 8, 10.4B 토큰 설정에서 배치를 256K에서 2M까지 늘린 결과, 최적 학습률은 대략 $\eta^*=4.66\times10^{-6}\cdot B^{0.558}$ 형태를 따랐다. 지수 0.558은 선형 배율 규칙과 제곱근 배율 규칙 사이에 놓이며, 논문은 이 구간의 모든 배치가 아직 임계 배치 크기 아래에 있다고 해석한다. 실제로 최소 손실은 2.4697~2.4741 범위에서 거의 변하지 않는다.

배치 크기 적합된 최적 학습률 적합된 최소 손실
256K 0.00504 2.4711
512K 0.00706 2.4697
1M 0.01056 2.4700
2M 0.01562 2.4741

이 결과는 HyperP의 중심 기여는 아니지만, 실험 프로토콜의 안정성을 뒷받침한다. 배치 크기가 연구 전반의 손실 비교를 뒤흔들 정도로 민감한 상태였다면 스케일링 해석이 복잡해졌을 것이다. 그러나 논문은 적어도 본문에서 다루는 범위에서는 손실이 거의 일정하므로, 이후 모든 실험을 2M 토큰 배치로 고정해도 비교의 공정성이 크게 흔들리지 않는다고 정리한다.

5.3 MoE 스케일링: sparsity와 top-$k$가 달라져도 학습률은 얼마나 옮겨지는가

MoE 분석의 첫 번째 포인트는 보조 load balancing loss의 가중치 $\gamma$다. 기존 연구에서는 보조 손실을 너무 강하게 주면 언어모델링 품질이 나빠진다고 알려져 있었지만, 이 논문에서는 오히려 가장 큰 $\gamma=10^{-1}$이 가장 좋은 손실 2.332와 가장 낮은 Mean MaxVio 0.086을 동시에 기록한다. 논문은 하이퍼스피어 최적화가 로짓을 더 안정적으로 유지하기 때문에, 보조 손실이 메인 목적함수와 충돌하지 않고도 강하게 작동할 수 있다고 해석한다. 즉, 안정성이 좋아지면 load balancing도 더 공격적으로 걸 수 있다는 메시지다.

두 번째 포인트는 sparsity $S$다. 활성 파라미터 수는 208M으로 유지하되 총 파라미터 수는 208M에서 3.33B까지 변하게 만들고, $S=1$부터 32까지 늘려 본 결과 최적 학습률은 0.0163에서 0.0115로 완만하게만 감소한다. 반면 손실은 2.4766에서 2.2529까지 꾸준히 내려간다. 논문은 이를 두고 HyperP가 32배 sparsity 변화 범위에서도 학습률 이전을 상당히 잘 유지한다고 해석한다. 즉, MoE가 강해질수록 최적 하이퍼파라미터를 다시 처음부터 찾을 필요가 크지 않다는 것이다.

Sparsity $S$ 적합된 최적 학습률 적합된 최소 손실
1 0.0163 2.4766
2 0.0162 2.4236
4 0.0145 2.3705
8 0.0139 2.3262
16 0.0124 2.2861
32 0.0115 2.2529

세 번째 포인트는 granularity, 즉 top-$k$ 변화다. 여기서 SqrtGate의 존재감이 뚜렷하다. SqrtGate 없이도 최적 학습률은 0.0122~0.0140으로 아주 크게 흔들리지는 않지만, 손실은 모든 top-$k$에서 SqrtGate 사용 버전이 더 낮다. 특히 top-$k=2$에서 2.4306 대 2.4131, top-$k=64$에서 2.3244 대 2.3154로 개선 폭이 확인된다. 즉, SqrtGate는 학습률 풍경을 크게 왜곡하지 않으면서도 일관된 손실 개선을 제공한다.

Top-$k$ SqrtGate 없음 $\eta^*$ SqrtGate 없음 손실 SqrtGate 사용 $\eta^*$ SqrtGate 사용 손실
2 0.0140 2.4306 0.0139 2.4131
4 0.0132 2.3263 0.0139 2.3262
8 0.0137 2.3220 0.0135 2.3156
16 0.0126 2.3178 0.0129 2.3111
32 0.0127 2.3186 0.0131 2.3096
64 0.0122 2.3244 0.0128 2.3154

이 결과를 종합하면, 논문이 제안하는 HyperP와 SqrtGate 조합은 MoE의 두 가지 어려운 축, 즉 sparsity 증가granularity 변화 모두에서 하이퍼파라미터 재탐색 비용을 크게 줄일 가능성을 보여 준다. 그리고 이 가능성은 단지 손실 수치만이 아니라 뒤의 안정성 분석과도 이어진다. MoE에서는 성능보다 먼저 불안정성이 한계가 되는 경우가 많기 때문에, SqrtGate가 보여 준 안정성 이득은 실제 적용에서 더욱 중요할 수 있다.

MoE sparsity 변화에 따른 손실 및 최적 손실 스케일링

Figure 5: sparsity 증가에 따른 손실 개선과 학습률 안정성

왼쪽 패널은 sparsity가 커질수록 손실 대 학습률 곡선의 위치가 크게 어긋나지 않음을, 오른쪽 패널은 최적 손실이 sparsity에 따라 멱법칙적으로 내려감을 보여 준다. 논문은 $S=1$에서 $S=32$까지 최적 학습률이 0.0163에서 0.0115로만 이동한다고 보고하며, 이를 MoE sparsity에 대한 강한 전이성의 증거로 해석한다. 손실은 같은 구간에서 2.4766에서 2.2529로 의미 있게 개선된다.

top-k 변화와 SqrtGate의 영향

Figure 6: top-$k$ 변화에서 SqrtGate의 효과

이 그림은 top-$k$를 바꾸어도 학습률 곡선의 최소점이 크게 무너지지 않는다는 사실과, 동시에 SqrtGate가 대부분의 설정에서 더 낮은 손실을 제공한다는 점을 보여 준다. 논문이 제안하는 핵심은 단순한 성능 향상이 아니라 granularity 변화에도 RMS를 보존하는 구조적 보정이다. 따라서 SqrtGate는 “MoE 튜닝용 트릭”보다는 HyperP의 전이성을 완성하는 구성요소로 읽는 편이 적절하다.

5.4 Training FLOPs scaling: 작은 모델에서 고른 학습률이 큰 모델에서도 통하는가

이 절은 논문 전체에서 가장 직접적인 결론을 제공한다. HyperP를 사용하면 깊이 8에서 찾은 기준 학습률이 깊이 20까지도 손실-대-학습률 곡선의 최소점 부근을 계속 가리킨다. 반면 HyperP가 없으면 규모가 커질수록 최적 학습률이 서서히 이동해, 작은 모델에서 최적인 값이 큰 모델에서는 점점 과대하거나 과소한 값이 된다. 저자들이 HyperP를 “single base LR tuned at the smallest scale transfers optimally”라고 표현한 이유가 바로 이 부분에 있다.

최종 FLOPs 스케일링 비교에서는 손실만 봐도 차이가 쌓인다. 깊이 24, 약 $5.96\times10^{21}$ FLOPs에서 Muon은 1.8785, MuonH+HyperP는 1.8365, MuonH는 1.9015를 기록한다. 흥미로운 것은 중간 규모에서는 MuonH가 Muon보다 나은 구간도 있지만, 가장 큰 규모에서는 HyperP가 결합된 경우만이 계속 이득을 키운다는 점이다. 즉, 하이퍼스피어 최적화만으로는 충분하지 않고 그 위에 맞는 이전 법칙이 있어야 계산 효율 이득이 누적된다는 것이 실험적으로 확인된다.

깊이 FLOPs Muon 손실 MuonH+HyperP 손실 MuonH 손실
8 $2.14\times10^{19}$ 2.4777 2.4804 2.4845
12 $1.49\times10^{20}$ 2.2257 2.2192 2.2099
16 $6.59\times10^{20}$ 2.0671 2.0526 2.0500
20 $2.19\times10^{21}$ 1.9591 1.9311 1.9558
24 $5.96\times10^{21}$ 1.8785 1.8365 1.9015
깊이 FLOPs MuonH+HyperP CEL MuonH CEL
8 $2.14\times10^{19}$ 0.99$\times$ 0.96$\times$
12 $1.49\times10^{20}$ 1.04$\times$ 1.19$\times$
16 $6.59\times10^{20}$ 1.16$\times$ 1.17$\times$
20 $2.19\times10^{21}$ 1.35$\times$ 0.99$\times$
24 $5.96\times10^{21}$ 1.58$\times$ 0.70$\times$

CEL 표를 보면 더 선명하다. MuonH는 중간 규모까지는 1.19배, 1.17배 등 긍정적인 구간이 있지만, 가장 큰 규모에서는 오히려 0.70배로 밀린다. 반대로 MuonH+HyperP는 0.99배에서 시작해 1.04, 1.16, 1.35, 1.58배로 규모가 커질수록 효율 이득이 커진다. 이 패턴은 HyperP의 가치를 한 문장으로 요약한다. 작은 실험에서 맞는 설정이 큰 실험에서도 계속 맞아 떨어질 때만, 진짜 스케일링 효율 이득이 누적된다.

HyperP 적용 여부에 따른 FLOPs 증가 시 손실-학습률 곡선 정렬

Figure 7: FLOPs 증가에서 HyperP가 만드는 공통 기준 학습률

이 그림의 왼쪽은 HyperP를 사용할 때 깊이 8부터 20까지 손실-학습률 곡선이 거의 같은 기준 학습률 근방에서 최소점을 유지함을 보여 준다. 오른쪽은 HyperP가 없을 때 그 최소점이 점점 이동해 작은 모델에서 찾은 기준이 큰 모델에서 어긋나는 모습을 보여 준다. 논문은 바로 이 정렬 효과를 근거로, 한 번의 작은 규모 스윕으로 전체 스케일링 경로를 설계할 수 있다고 주장한다.

6. 추가 분석 및 Ablation Study: 안정성, 추정 오차, 아키텍처 선택을 다시 따져 보기

6.1 transferable stability: HyperP는 왜 큰 모델에서 더 불안정해지지 않는가

논문의 가장 인상적인 분석은 아마도 이 절일 것이다. 저자들은 MuonH+HyperP MoE 설정에서 깊이 8, 12, 16, 20 모델을 학습시키며 총 여섯 개의 안정성 지표를 추적한다. attention과 MoE routing에 대해 각각 $Z$-value, 출력 RMS, 활성 이상치 비율을 본다. 여기서 $Z$-value는 pre-softmax 로짓의 log-sum-exp 제곱 평균으로, 값이 커질수록 로짓 폭주 가능성이 크다고 해석된다.

결과는 HyperP의 주장을 매우 강하게 지지한다. attention $Z$-value는 깊이가 커져도 대략 200~220 수준에서 비슷하게 유지되고, router $Z$-value는 오히려 깊이 8의 56 수준에서 깊이 20의 33 수준으로 감소한다. 출력 RMS 역시 더 깊은 모델일수록 커지지 않고 줄어드는 경향을 보이며, 이상치 비율도 같은 방향을 따른다. 저자들은 이를 두고 HyperP가 단순한 최적 학습률 이전이 아니라 안정성 이전까지 제공한다고 정리한다.

이 결과가 중요한 이유는 대형 모델 학습에서 많은 기법이 작은 규모에서는 좋아 보이지만 큰 규모로 갈수록 예기치 못한 폭주 현상을 일으키기 때문이다. 논문은 하이퍼스피어 제약과 적절한 이전 법칙이 결합되면, 큰 모델로 갈수록 오히려 더 위험해지는 대신 지표가 상한 아래에 묶여 있는 경향을 보인다고 말한다. 물론 이것이 모든 규모와 모든 데이터셋에 대한 완전한 보장을 의미하는 것은 아니지만, 적어도 본문에서 다루는 범위에서는 “더 큰 모델일수록 더 위험하다”는 일반적 직관과 다른 결과가 나타난다.

HyperP MoE 설정의 안정성 지표 변화

Figure 8: 스케일 증가에도 bounded하게 유지되는 안정성 지표

이 그림은 attention과 MoE routing에 대한 $Z$-value, 출력 RMS, 활성 이상치 비율이 학습 동안 어떻게 변하는지 보여 준다. 핵심은 모든 지표가 규모가 커질수록 더 나빠지지 않는다는 점이다. 특히 라우터 $Z$-value의 피크가 깊이 8에서 56, 깊이 20에서 33으로 내려가는 현상은 논문이 말하는 transferable stability를 가장 직접적으로 뒷받침한다.

6.2 최적 학습률 추정은 얼마나 많은 sweep point가 필요할까

이 논문은 최적 학습률을 찾기 위해 quadratic fitting을 매우 자주 사용한다. 따라서 이 추정이 몇 개의 스윕 포인트로도 믿을 만한지가 자연스러운 질문이 된다. 저자들은 데이터 스케일링 실험에서 얻은 8개의 학습률 후보 중 일부만 뽑아 다시 포물선 적합을 수행하고, 전체 8점 적합과 비교한 상대 오차를 계산한다. 이 실험은 HyperP의 성능 그 자체보다도, 논문이 사용하는 평가 도구의 신뢰도를 보여 준다는 점에서 의미가 있다.

결론은 손실 추정이 학습률 추정보다 훨씬 안정적이라는 것이다. 포인트가 3개뿐이어도 손실 상대 오차는 0.03~0.14% 수준이지만, 학습률 상대 오차는 3.7~8.1%까지 올라간다. 저자들은 이 차이가 자연스럽다고 본다. 손실 최소값은 2차 정보라 주변 포인트의 오차에 둔감하지만, 최소점을 주는 학습률 자체는 1차 위치 정보라 더 흔들릴 수 있기 때문이다. 그래도 5개의 포인트만 있으면 최악의 경우 학습률 오차가 4.1%, 손실 오차는 0.04% 수준까지 줄어든다.

토큰 수 LR 오차 (n=3) LR 오차 (n=5) LR 오차 (n=7) 손실 오차 (n=3) 손실 오차 (n=5) 손실 오차 (n=7)
10.4B 5.87% 4.09% 1.55% 0.07% 0.04% 0.01%
20.8B 3.68% 1.46% 0.53% 0.04% 0.01% 0.01%
41.6B 4.27% 1.58% 0.46% 0.03% 0.01% 0.01%
83.2B 5.43% 1.88% 0.54% 0.05% 0.02% 0.01%
166.4B 8.07% 0.88% 0.28% 0.14% 0.01% 0.00%

이 분석은 리뷰 독자에게도 실용적 메시지를 준다. 논문 수준의 정밀한 스케일링 연구에서는 최적 학습률의 소수점 차이가 중요해 보이지만, 실제로는 손실 자체는 훨씬 둔감하다. 저자들은 이 점을 근거로 5포인트 정도의 스윕이면 본문에서 논의하는 0.006 nat 수준의 아키텍처 차이를 구분하기에 충분하다고 말한다. 결국 HyperP의 강점은 수학적 식 자체뿐 아니라, 그 식을 추정하는 실험 절차까지 상대적으로 효율적이라는 데 있다.

학습률 스윕 포인트 수에 따른 추정 오차

Figure 9: sweep point 수와 최적 LR/손실 추정 오차

왼쪽은 최적 학습률 추정 오차, 오른쪽은 최적 손실 추정 오차를 보여 준다. 포인트 수가 늘어날수록 두 오차 모두 줄지만, 손실 오차가 훨씬 빠르게 낮아진다는 사실이 핵심이다. 논문은 이를 근거로 5개의 sweep point면 대부분의 비교에 충분하다고 정리한다. 즉, 학습률 최적점 자체는 다소 흔들려도, 논문의 주요 결론을 좌우할 정도로 손실 추정이 불안정하지는 않다는 뜻이다.

6.3 아키텍처 재평가: HyperP가 공정 비교를 가능하게 만들었을 때 무엇이 남는가

HyperP의 또 다른 활용은 아키텍처 선택을 더 공정하게 비교하는 것이다. 저자들은 먼저 작은 규모에서 dense attention 변형과 MoE 변형의 최적 학습률을 찾는다. dense 쪽에서는 GA QK-Norm, QK-Norm, Baseline을 비교하고, MoE 쪽에서는 SharedExp + SqrtGate, SqrtGate, SharedExp를 비교한다. 핵심은 각 변형을 자기에게 맞는 최적 혹은 근사 최적 학습률에서 비교한 뒤 그 설정을 더 큰 모델로 옮기는 것이다.

작은 규모 결과만 보면 dense 쪽에서는 GA QK-Norm이 2.4727로 가장 좋고, QK-Norm은 2.4823, Baseline은 2.4960이다. MoE 쪽에서는 SharedExp + SqrtGate가 2.3154로 가장 좋고, 나머지 두 방법은 각각 2.3210과 2.3215다. 논문은 여기서 중요한 사실을 지적한다. 모든 방법의 최적 학습률이 매우 비슷하다는 것이다. 즉, 성능 차이는 단순히 학습률을 더 잘 맞춘 우연이 아니라, 구조 자체가 실제로 손실을 바꾼 결과라고 해석할 수 있다.

Dense 변형 적합된 최적 학습률 최소 손실
GA QK-Norm 0.0158 2.4727
QK-Norm 0.0151 2.4823
Baseline 0.0149 2.4960
MoE 변형 적합된 최적 학습률 최소 손실 최선 대비 차이
SharedExp + SqrtGate 0.0135 2.3154 기준
SqrtGate 0.0135 2.3210 +0.006
SharedExp 0.0137 2.3215 +0.006

흥미로운 것은 이 작은 규모 차이가 큰 규모로 갈수록 항상 커지지는 않는다는 점이다. dense 쪽에서는 Gated Attention과 QK-Norm의 손실 이득이 스케일이 커질수록 조금씩 줄어든다. 논문은 이것을 두고 성능 관점의 수확 체감으로 해석한다. 반면 안정성 관점에서는 이야기가 달라진다. SqrtGate가 없을 때 라우터 $Z$-value가 폭주하고, Gated Attention이 없을 때 MLP output RMS 스파이크가 심해지는 등, 큰 규모에서 구조적 차이는 성능보다 안정성에서 더 크게 드러난다.

이 지점에서 HyperP의 역할이 다시 중요해진다. 만약 각 아키텍처가 서로 다른 정도로 학습률 미스매치를 겪고 있었다면, 이런 비교는 해석하기 어렵다. 그러나 논문은 HyperP 덕분에 각 구조가 거의 최적에 가까운 설정에서 비교되므로, 남는 차이는 구조 자체의 영향으로 읽을 수 있다고 주장한다. 즉, HyperP는 하나의 모델을 더 잘 학습시키는 기술일 뿐 아니라, 아키텍처 연구의 비교 도구이기도 하다.

6.4 결과 종합 해석: HyperP의 이득은 어디서 발생하고 어디서 누적되는가

이제까지의 결과를 한데 묶어 보면, HyperP의 이득은 어느 한 지점의 압도적 승리보다는 작은 유리함이 규모 증가와 함께 누적되는 구조에서 나온다. 예를 들어 MuonH가 Muon보다 항상 훨씬 낮은 손실을 보이는 것은 아니다. 어떤 구간에서는 MuonH가 더 좋고, 다른 구간에서는 Muon이 경쟁적이다. 하지만 HyperP가 결합되면 손실 곡선의 정렬이 유지되고, 그 덕분에 작은 규모에서 찾은 기준 학습률이 큰 규모에서도 계속 합리적인 선택으로 남는다. 이 차이가 FLOPs가 커질수록 CEL 격차로 증폭된다.

이 누적 구조를 이해하려면 스케일링 연구의 실무 현실을 떠올릴 필요가 있다. 실제 대규모 학습에서는 가장 큰 모델에서 세밀한 학습률 탐색을 수행하는 비용이 너무 비싸기 때문에, 대부분 작은 모델에서 찾은 설정을 어느 정도 신뢰하고 넘어간다. 따라서 진짜 중요한 것은 거대한 모델에서 단 한 번 더 낮은 손실을 찍는 방법이 아니라, 작은 규모에서 찾은 설정이 큰 규모에서도 실패하지 않도록 만드는 원리다. HyperP는 바로 이 요구에 맞춰 설계되었고, 논문은 손실 곡선 정렬, 안정성 지표, CEL 결과를 통해 그 주장을 다층적으로 뒷받침한다.

또한 HyperP의 강점은 하이퍼파라미터 탐색의 의미를 바꾼다는 데 있다. 기존에는 큰 모델로 갈수록 학습률과 가중치 감쇠, MoE 보조 손실 가중치, top-$k$별 세부 튜닝이 다시 필요해지는 경우가 많았다. 이런 환경에서는 작은 모델에서 얻은 통찰이 구조 자체의 성질인지, 특정 하이퍼파라미터 조합의 우연인지 분리하기가 어렵다. 그러나 HyperP에서는 가중치 감쇠를 사실상 제거하고, 깊이·토큰·MoE 변화에 대한 배율을 명시적으로 제공하기 때문에, 탐색의 초점이 “모든 축을 다시 찾기”에서 “작은 기준점을 얼마나 정확히 찾을 것인가”로 이동한다. 이는 연구 비용을 줄이는 동시에 해석 가능성을 높이는 변화다.

MoE 실험에서도 같은 패턴이 반복된다. sparsity를 키우거나 top-$k$를 바꾸는 것은 단순히 전문가 구성을 바꾸는 문제가 아니라, 라우터의 로짓 분포와 출력 RMS, 전문가 균형까지 함께 흔드는 변화다. 일반적인 설정에서는 이런 변화가 일어날 때마다 새로운 튜닝이 필요하다고 생각하기 쉽다. 하지만 논문은 HyperP와 SqrtGate를 함께 사용하면, top-$k$ 변화에 따른 RMS 변동을 구조적으로 줄이고, 그 결과 학습률 이전이 더 잘 유지된다고 보인다. 다시 말해 이 조합은 구조 변경 자체를 하이퍼파라미터 탐색 문제로 환원하지 않게 해 주는 장치다.

결국 이 논문의 핵심 가치는 “하이퍼스피어 최적화가 안정적이다”라는 단순 주장보다 더 넓다. 저자들이 실제로 보여 주는 것은, 적절한 기하학과 전이 법칙을 결합하면 스케일링 실험의 단위 비용을 줄이면서도 결과 해석의 신뢰도를 높일 수 있다는 사실이다. 이 관점은 앞으로의 아키텍처 연구에도 직접적인 영향을 준다. 새 구조가 나왔을 때 큰 모델까지 모두 다시 튜닝하지 않고도, 작은 모델에서 얻은 최적점과 명시적 이전 법칙을 이용해 구조의 본질적 이득을 빠르게 판단할 수 있기 때문이다. HyperP는 그래서 최적화 기법이면서 동시에 실험 방법론이기도 하다.

6.5 수치가 말하는 실제 의미: 손실 차이를 계산 효율 관점에서 읽기

언어모델 사전학습에서는 검증 손실 차이가 소수점 셋째 자리 수준이라도, 그것이 실제 개발 비용으로 환산되면 매우 큰 차이가 될 수 있다. 이 논문이 CEL을 전면에 내세운 이유도 여기에 있다. 예를 들어 최종 손실이 1.8785에서 1.8365로 내려가는 변화는 숫자만 보면 크지 않아 보일 수 있다. 하지만 저자들은 이 차이가 기준선이 같은 손실에 도달하기 위해 더 많은 FLOPs를 쓰게 만든다고 해석하며, 그 결과 1.58배라는 비교적 직관적인 효율 배율로 환산한다. 이 방식은 스케일링 연구의 결과를 실제 계산 자원 관점으로 옮겨 읽게 해 준다.

특히 MoE 결과는 이 논리를 더 극적으로 보여 준다. 논문은 HyperP를 얹은 MoE 모델이 dense 기준 대비 3.38배 CEL을 달성했다고 보고한다. 이는 MoE가 단순히 같은 FLOPs에서 손실을 조금 낮췄다는 뜻이 아니라, 같은 품질 목표에 도달하기 위해 필요한 총 계산량을 몇 배나 줄일 수 있다는 의미다. 물론 이 배율은 논문이 설정한 active parameter와 TPP, sparse routing 조건 위에서 계산된 값이므로 절대적인 숫자로 받아들이기보다는, 하이퍼파라미터 전이성과 구조적 희소성이 결합될 때 얼마나 큰 누적 효과가 가능한지를 보여 주는 사례로 읽는 편이 좋다.

또 하나 흥미로운 지점은 손실 개선과 안정성 개선이 항상 같은 크기로 나타나지 않는다는 사실이다. 어떤 아키텍처 선택은 손실에서는 0.006 nat 정도의 작은 차이만 보이지만, 안정성 지표에서는 로짓 스파이크나 RMS 피크를 눈에 띄게 줄인다. 이는 대규모 학습에서 “최종 손실 몇 점”만으로 구조를 평가하기 어려운 이유를 보여 준다. 불안정성은 종종 특정 학습 길이 이상에서만 폭발적으로 나타나기 때문에, 작은 규모와 짧은 학습에서는 잘 보이지 않을 수 있다. HyperP는 이런 지표를 함께 보고함으로써, 성능과 안정성 사이의 비대칭을 더 잘 드러내는 프레임이 된다.

이 관점에서 보면 논문은 사실상 두 개의 질문에 동시에 답한다. 첫째는 “어떤 학습률을 옮겨야 하는가”이고, 둘째는 “그렇게 옮겼을 때 큰 모델이 정말 괜찮은 상태로 학습되는가”이다. 많은 기존 연구가 첫 번째 질문에만 집중했다면, 이 논문은 두 번째 질문까지 수치로 밀어붙인다. 그리고 그 결과가 bounded $Z$-value, 감소하는 outlier 비율, 유지되는 공통 기준 학습률로 이어진다. 그래서 HyperP의 의미는 단지 식 하나가 예쁘다는 데 있지 않고, 스케일링 실험에서 손실·안정성·효율을 하나의 이야기로 묶는다는 데 있다.

7. 한계점 및 향후 연구 방향: 논문이 스스로 인정하는 범위와 남은 질문

논문은 결론을 강하게 제시하지만, 동시에 몇 가지 한계를 분명히 적는다. 첫째, FLOPs 스케일링 비교는 Chinchilla 법칙이 해당 데이터셋과 학습 구성에서 계산 최적이라는 가정 위에 서 있다. 실제로는 데이터 품질과 토크나이저, 문맥 길이, 아키텍처 세부 설계에 따라 최적 TPP가 달라질 수 있으므로, 다른 환경에서 같은 배율 이득이 재현된다고 곧바로 단정하기는 어렵다. 따라서 HyperP의 이득은 “스케일링 축을 잘 설계한 특정 실험 체계” 안에서 먼저 읽어야 한다.

둘째, 0.32의 데이터 스케일링 지수는 경험적 발견이지 이론적 결과가 아니다. 저자들도 AdamW 계열에서 보였던 값이 다시 나타난다는 점을 흥미로운 보편성의 신호로 보지만, 왜 이런 지수가 나오는지에 대한 원인 분석은 아직 없다. 이 부분은 향후 이론 연구가 따라와야 한다. 만약 이 지수가 실제로 다양한 최적화기에서 공통적이라면, 스케일링 법칙 연구는 훨씬 더 깊은 수준의 보편 구조를 가지게 된다.

셋째, 논문이 다룬 아키텍처는 어디까지나 Transformer-Next와 그 MoE 변형이다. 저자들 역시 hybrid model이나 linear recurrent model 같은 다른 계열로의 확장을 중요한 미래 과제로 적고 있다. 특히 하이퍼스피어 제약이 attention 중심 구조에서 보이는 안정성 이득이, 다른 순환 구조나 state-space 계열에서도 같은 방식으로 나타나는지는 아직 알 수 없다. 따라서 HyperP는 매우 유망한 프레임워크이지만, 현재 단계에서는 특정 아키텍처 패밀리에서 강하게 검증된 결과로 이해하는 것이 안전하다.

넷째, 배치 크기 스케일링에서 나온 0.56 지수 역시 이론과 완전히 일치하지 않는다. SDE 기반 제곱근 규칙과 선형 배율 규칙 사이의 중간값이 관찰되었는데, 왜 이런 값이 나타나는지는 미해결 문제로 남는다. 또 본문에서 가장 큰 dense 모델과 MoE 모델이 이미 상당한 규모이긴 하지만, 오늘날 산업적 초대형 모델 수준의 파라미터와 장기 토큰 예산까지 올라가도 같은 패턴이 유지되는지는 아직 검증이 더 필요하다. 논문이 “rethinking”을 제안했다면, 후속 연구는 이 프레임을 더 큰 현실 규모에서 실전 검증하는 단계로 이어져야 할 것이다.

7.1 실무적 관점에서 본 적용 가능성: 왜 이 논문이 연구용 장난감 결과로 끝나지 않는가

실무적 관점에서 HyperP가 흥미로운 이유는, 대규모 사전학습에서 가장 비싼 작업이 종종 본학습 자체보다도 하이퍼파라미터 재탐색이기 때문이다. 새로운 데이터 혼합 비율이나 아키텍처 수정이 들어가면, 연구팀은 큰 모델을 여러 번 돌려 학습률과 weight decay, warm-up 길이, MoE load balancing 계수를 다시 맞추곤 한다. 이 과정은 계산비용뿐 아니라 실험 해석까지 흐리게 만든다. 어떤 변화가 실제 구조 이득인지, 단지 더 잘 맞춘 학습률의 효과인지 분리하기 어렵기 때문이다. HyperP가 제안하는 방식은 작은 모델에서 기준 학습률을 찾고, 이후의 폭·깊이·토큰·MoE 변화는 명시적 법칙으로 이동시키자는 것이다. 만약 이 원리가 더 넓은 조건에서 재현된다면, 연구 조직은 거대 모델에서의 튜닝 횟수를 크게 줄이고도 더 해석 가능한 실험 설계를 만들 수 있다.

또한 이 논문은 안정성 모니터링 자체의 중요성도 강조한다. 실제 현장에서는 손실 곡선이 몇 만 스텝 동안 멀쩡해 보여도, 특정 구간에서 라우터 로짓이나 activation outlier가 갑자기 폭주하며 훈련을 망치는 경우가 적지 않다. 그런데 이런 문제는 최종 손실 하나만 보면 사후적으로도 잘 드러나지 않는다. 논문이 $Z$-value, 출력 RMS, 이상치 비율을 함께 추적한 이유는, 좋은 전이 법칙이라면 작은 규모에서의 성공이 큰 규모의 안정성 실패로 뒤집히지 않아야 한다는 점을 보여 주기 위해서다. 이 메시지는 단순히 HyperP에만 해당하지 않는다. 앞으로의 스케일링 연구에서도 손실뿐 아니라 불안정성의 스케일링을 같이 보고하는 것이 더 자연스러운 기준이 될 가능성이 크다.

HyperP의 실용적 장점은 비교 실험의 정직함에도 있다. 아키텍처 논문들이 종종 받는 비판 중 하나는, 새 구조가 정말 좋아서 성능이 오른 것인지 아니면 더 많은 튜닝 시간을 투입했기 때문인지 알기 어렵다는 점이다. 이 논문은 작은 규모에서 공통 기준을 만들고, 그 기준을 명시적 법칙으로 옮김으로써 비교 절차를 더 투명하게 만든다. 물론 여전히 완전한 공정성을 보장하는 것은 아니지만, 적어도 “각 모델이 거의 최적에 가까운 영역에서 비교되었다”는 근거를 수치로 제시한다는 점은 강점이다. 이 부분은 향후 다양한 구조를 비교하는 벤치마크 연구에서 직접 차용될 수 있다.

7.2 이론적으로 더 따져볼 지점: HyperP가 던진 새로운 질문들

이 논문은 여러 정리를 제시하지만, 동시에 새로운 이론 질문도 열어 둔다. 가장 대표적인 것이 왜 데이터 스케일링 지수가 0.32인가라는 문제다. 저자들은 AdamW 계열에서 관찰된 값이 MuonH 기반 하이퍼스피어 최적화에서도 반복된다는 사실을 보고하지만, 이것이 단순한 경험적 우연인지, 아니면 손실 곡면과 노이즈 스케일에 관한 더 깊은 보편 법칙의 표면적 표현인지는 아직 모른다. 만약 이 값이 여러 최적화기에서 계속 등장한다면, 최적 학습률의 데이터 의존성은 개별 알고리즘보다 더 상위의 통계적 구조에 의해 지배될 가능성이 있다. 반대로 다른 데이터셋이나 다른 토크나이저에서 값이 크게 바뀐다면, 0.32는 현재 설정에 특화된 경험 상수로 남을 것이다.

또 다른 질문은 프로베니우스 구면이 왜 이 정도로 잘 작동하는가이다. 논문은 일차 근사에서 접공간 성분만 남는다는 깔끔한 정리를 제시하지만, 실제 대규모 학습은 결코 순수한 일차 근사만으로 돌아가지 않는다. 특히 긴 학습, 모멘텀, 비선형 activation, 정규화 층, sparse routing이 결합된 조건에서는 고차 효과가 얼마만큼 누적되는지 따져볼 필요가 있다. 그럼에도 실험이 잘 맞는다는 것은, 적어도 일정 범위에서는 프로베니우스 구면이 좋은 유효 모델을 제공한다는 뜻이다. 후속 연구는 왜 이 근사가 실제 학습에서 이렇게 견고한지, 그리고 어느 규모나 어느 구조에서 깨지기 시작하는지를 더 세밀하게 분석해야 한다.

MoE 관점에서도 남은 질문이 많다. SqrtGate는 top-$k$ 변화에 따른 RMS 감소를 보정하지만, 이것이 라우팅 엔트로피, 전문가 특화 정도, 토큰별 경쟁 구조와 어떤 관계를 맺는지는 아직 충분히 설명되지 않았다. 예컨대 SqrtGate가 출력 RMS를 안정화하는 동시에 전문가 간 경쟁을 지나치게 완화하거나 특정 전문가를 더 자주 호출하게 만들 가능성은 없는지, 긴 학습에서 전문가 전문화 패턴이 어떻게 바뀌는지 같은 문제는 후속 분석이 필요하다. 논문은 load balancing 관점의 결과를 강하게 제시하지만, sparse representation 학습의 질적 변화까지 깊게 다루지는 않는다. 따라서 SqrtGate는 매우 설득력 있는 출발점이지만, MoE 내부 동역학 전체를 설명하는 마지막 답은 아니다.

깊이 스케일링에 대해서도 비슷한 질문이 남는다. 논문은 Depth-$\mu$P가 여전히 필요하다고 설득력 있게 보이지만, 그렇다면 어떤 구조는 왜 깊이 증가에 더 민감하고, 어떤 구조는 덜 민감한가라는 더 큰 질문이 생긴다. 예를 들어 QK-Norm, Gated Attention, shared expert 같은 설계가 손실보다 안정성에서 더 큰 차이를 만든다는 관찰은, 깊이 방향 민감도가 단순히 잔차 누적 크기만의 문제가 아닐 수 있음을 시사한다. 결국 HyperP는 깊이 문제를 해결했다기보다, 깊이 문제를 더 정밀하게 관찰할 수 있는 기준좌표계를 제공했다고 보는 편이 맞다.

7.3 리뷰 관점의 최종 평가: 이 논문을 왜 중요하게 볼 만한가

리뷰어 관점에서 이 논문의 가장 큰 장점은 이론, 실험, 방법론적 메시지가 비교적 깔끔하게 맞물린다는 점이다. 가중치 감쇠 제거는 정리로 제시되고 바로 Muon 대 MuonH 비교로 확인된다. 깊이 스케일링은 이론에서 Depth-$\mu$P 필요성을 주장하고, 손실-학습률 곡선 정렬 실험으로 뒷받침한다. MoE에서는 SqrtGate의 RMS 보존 직관을 제시한 뒤 sparsity, top-$k$, stability 분석으로 이어 간다. 마지막으로 전체 FLOPs 스케일링 비교에서 이 모든 조각이 실제 계산 효율 차이로 귀결되는 모습을 보여 준다. 많은 스케일링 논문이 어느 한 축만 강하고 나머지가 약한 경우가 많은데, 이 논문은 적어도 논리의 연결성이 좋다.

물론 비판적으로 볼 부분도 있다. 손실 기반 비교가 주를 이루기 때문에, 더 다양한 다운스트림 태스크나 장기 문맥 과제에서도 같은 법칙이 유지되는지는 본문만으로 판단하기 어렵다. 또한 결과가 Transformer-Next 패밀리에 강하게 결합되어 있어, 이를 일반적인 언어모델 전체의 결론으로 확대하는 데에는 조심이 필요하다. 그럼에도 이 논문이 충분히 중요한 이유는, 기존 스케일링 담론에서 상대적으로 주변부였던 안정성의 전이성을 핵심 문제로 끌어올렸기 때문이다. 앞으로 비슷한 주제의 연구는 더 이상 “작은 모델에서 잘 됐다”는 말만으로 충분하지 않을 가능성이 높다.

정리하면, 이 논문은 HyperP라는 구체적 방법을 제안한 동시에 스케일링 실험을 어떻게 설계하고 해석해야 하는지에 대한 기준을 갱신했다. 특히 가중치 감쇠 제거, 0.32 데이터 지수, SqrtGate 기반 MoE 안정화, transferable stability라는 네 개의 메시지는 각각 독립적으로도 연구 가치가 있다. 만약 후속 연구가 이 결과를 더 넓은 데이터셋과 더 큰 모델, 더 다양한 구조에서 재현해 낸다면, HyperP는 단순한 한 편의 논문 제목이 아니라 차세대 스케일링 실험의 표준 도구 중 하나가 될 가능성이 있다.

7.4 후속 연구가 검증해야 할 체크리스트: 재현과 일반화의 기준

후속 연구가 이 논문을 실제 표준으로 받아들이려면 몇 가지 재현 기준을 통과해야 한다. 첫째는 다른 데이터 조합에서 0.32 지수가 유지되는지 확인하는 것이다. SlimPajama와 유사한 웹 기반 말뭉치뿐 아니라, 코드 비중이 큰 데이터나 고품질 합성 데이터가 섞인 경우에도 같은 지수가 반복된다면 HyperP의 데이터 스케일링 법칙은 훨씬 강한 보편성을 얻게 된다. 둘째는 다른 토크나이저와 문맥 길이에서도 같은 전이성이 보이는지 살펴봐야 한다. 문맥 길이가 길어질수록 attention 통계와 optimizer noise profile이 달라질 수 있기 때문이다. 셋째는 더 큰 파라미터 범위에서 현재의 bounded stability가 유지되는지 검증하는 일이다. 논문은 이미 상당한 규모까지 올라가지만, 초대형 산업 모델 영역까지 확대하면 새로운 불안정성이 등장할 수 있다.

넷째는 비Transformer 계열에 대한 적용이다. 저자들도 hybrid model과 linear recurrent model을 미래 과제로 언급하지만, 실제로는 이 지점이 HyperP의 일반성을 판정하는 가장 중요한 시험대일 가능성이 높다. attention 중심 모델에서는 QK-Norm, residual branch, router logits 같은 지표가 자연스럽지만, 상태공간모델이나 순환 구조에서는 불안정성이 다른 방식으로 나타날 수 있다. 이 경우 프로베니우스 구면 제약이 여전히 핵심 역할을 할지, 아니면 다른 노름 제약이나 다른 정규화 방식이 더 적합한지 탐색해야 한다. 만약 이런 확장에서도 “작은 모델에서 찾은 기준 학습률이 큰 모델에서 계속 통한다”는 현상이 유지된다면, HyperP는 특정 아키텍처 전용 기법을 넘어 진정한 범용 스케일링 프레임워크로 성장할 수 있다.

다섯째는 시스템 비용과 구현 복잡도까지 포함한 비교다. 하이퍼스피어 최적화와 업데이트 정규화는 이론적으로 깔끔하지만, 대규모 분산학습 시스템에서는 추가적인 통신이나 정규화 계산이 들어갈 수 있다. 논문은 성능과 효율의 관점에서는 강한 결과를 제시하지만, 실제 운영 환경에서 구현 비용이 얼마나 되는지까지는 깊게 다루지 않는다. 따라서 후속 연구는 “같은 품질에 더 적은 FLOPs”뿐 아니라 “같은 하드웨어 시간에 더 적은 비용”이라는 관점에서도 HyperP를 검증해야 한다. 특히 MoE 환경에서는 라우팅과 전문가 병렬화의 시스템 오버헤드가 크기 때문에, 이론적 효율과 시스템 효율 사이의 간극을 함께 측정하는 것이 중요하다.

7.5 독자를 위한 읽기 포인트: 이 논문을 한 문장으로 줄이면 무엇이 남는가

논문의 핵심 주장은 “좋은 스케일링 법칙은 최적 학습률뿐 아니라 안정성까지 함께 옮겨야 한다”는 점에 있다. 기존에는 작은 모델에서 최적 학습률을 찾고 큰 모델에 옮기는 것만으로도 상당한 진전으로 여겨졌지만, 저자들은 그것만으로는 부족하다고 본다. 큰 규모에서 로짓이 폭주하고 RMS가 치솟고 outlier가 늘어난다면, 그 전이 법칙은 실전에서 결국 실패할 가능성이 높다. HyperP는 바로 이 점을 겨냥해, 기하학적 제약과 전이 법칙을 결합하는 방식으로 스케일링 문제를 다시 정의한다.

독자가 이 논문에서 꼭 기억할 숫자는 몇 개뿐이다. 가중치 감쇠의 일차 제거, 데이터 지수 0.32, 최대 1.58배 CEL, MoE 포함 시 3.38배 CEL, 그리고 SqrtGate가 라우터 불안정을 크게 줄인다는 결과다. 하지만 이 숫자들의 진짜 의미는 각각의 절에 흩어진 세부 수치가 아니라, 이것들이 모두 같은 방향을 가리킨다는 데 있다. 작은 모델에서 잘 맞는 설정이 큰 모델에서도 성능과 안정성 면에서 계속 유효해야 한다는 것, 그리고 그 조건이 충족될 때 비로소 스케일링 곡선의 비교가 공정해진다는 것, 이것이 이 논문의 가장 큰 메시지다.

그래서 이 논문은 단순히 새로운 optimizer recipe를 소개하는 문서로 읽기보다는, 대규모 언어모델 연구가 스스로에게 요구해야 할 검증 기준을 높인 작업으로 읽는 편이 더 적절하다. 앞으로 어떤 스케일링 논문이 새로운 아키텍처나 최적화기를 제안하더라도, 작은 규모의 개선을 보여 주는 것만으로는 충분하지 않을 수 있다. 그 개선이 큰 규모에서도 공통 기준 학습률 아래 유지되는지, 불안정성 지표가 나빠지지 않는지, 계산 효율 이득이 실제로 누적되는지까지 보여 주어야 설득력이 생긴다. HyperP는 바로 그 새로운 기준의 하나를 제안한다.

7.6 세부 결과를 다시 읽는 법: 표와 그림 사이를 연결하는 해석

표를 먼저 보면 HyperP의 이득이 다소 평범해 보일 수 있다. 어떤 행에서는 MuonH가 Muon보다 좋고, 또 다른 행에서는 차이가 작으며, 일부 지점에서는 MuonH 단독이 더 나아 보이는 경우도 있다. 하지만 그림까지 함께 보면 중요한 사실이 드러난다. 논문이 강조하는 것은 각 점의 절대 우열이 아니라, 규모가 커질수록 최적점 정렬이 유지되느냐는 것이다. 손실-학습률 곡선의 최소점이 서로 다른 방향으로 흩어지면, 작은 모델에서의 선택은 큰 모델에서 점점 덜 신뢰할 수 있게 된다. 반대로 HyperP처럼 최소점의 위치 자체가 비교적 잘 보존되면, 큰 규모에서의 추가 탐색 없이도 합리적인 운영점에 계속 머무를 수 있다. 스케일링 법칙을 평가할 때 이 차이는 단일 손실 수치보다 훨씬 중요하다.

MoE 분석도 같은 방식으로 읽어야 한다. sparsity 표만 보면 학습률이 0.0163에서 0.0115로 꽤 내려가므로 “그렇게까지 강한 전이성은 아닌 것 아닌가”라고 볼 수도 있다. 그러나 논문이 말하는 전이성은 32배의 구조 변화에도 불구하고 학습률이 같은 자릿수와 비슷한 범위 안에 머무른다는 의미에 가깝다. 일반적인 대규모 실험에서는 top-$k$와 전문가 수가 바뀌면 학습률 풍경이 완전히 달라져 대규모 재탐색이 필요해지는 경우가 많다. 그 점을 감안하면 0.012~0.016 범위의 이동은 상당히 온건한 편이다. 그리고 손실은 꾸준히 개선되므로, 이 완만한 이동은 “재탐색의 필요가 거의 없는 구조 변화”라는 실용적 가치로 이어진다.

안정성 지표 역시 절대값보다 추세를 보는 것이 중요하다. 예를 들어 attention $Z$-value가 200 안팎이라는 숫자 자체는 독립적으로 큰 의미를 주지 않는다. 하지만 모델이 커질수록 값이 계속 커지지 않고 비슷하게 유지되거나 오히려 완만해진다면, 작은 모델에서 괜찮았던 설정이 큰 모델에서 폭주하지 않는다는 뜻이 된다. 논문이 말하는 transferable stability는 이런 추세의 보존에 가깝다. 따라서 HyperP의 실험은 한두 개의 숫자보다, 여러 규모에서 같은 방향으로 관찰되는 변화 패턴 자체를 읽는 것이 핵심이다.

결국 이 논문을 읽는 가장 좋은 방법은 표와 그림을 따로 보지 않는 것이다. 표는 수치적 근거를 제공하고, 그림은 그 수치가 어떤 형태의 곡선과 추세를 이루는지 보여 준다. HyperP의 설득력은 단일 표에서 나오지 않고, 이론 식-수치 표-곡선 그림-안정성 추적이 서로 같은 결론을 가리킬 때 생긴다. 이런 구성 덕분에 논문은 단순한 실험 보고를 넘어, 왜 그 결과를 그렇게 해석해야 하는지까지 독자에게 비교적 친절하게 제시한다.

7.7 개인적 해석이 아니라 논문이 실제로 보여 준 범위

이 리뷰를 마무리하기 전에 한 가지 분명히 할 점이 있다. HyperP를 읽다 보면 자칫 “이제는 거대 모델에서도 작은 모델에서 찾은 학습률 하나만 있으면 된다”라고 과장해서 받아들이기 쉽다. 하지만 논문이 실제로 보여 준 범위는 더 구체적이다. 저자들은 Transformer-Next 계열, SlimPajama 기반 학습, 정해진 TPP 규칙, MuonH와 프로베니우스 구면 제약이라는 조건 아래에서, 하나의 기준 학습률이 폭·깊이·토큰·MoE 변화에 잘 옮겨진다는 사실을 보였다. 따라서 이 결과를 읽을 때는 논문의 힘을 인정하되, 그 힘이 어느 조건에서 나온 것인지 함께 기억해야 한다. 이런 태도가 오히려 논문의 실제 기여를 더 선명하게 만든다.

그럼에도 불구하고 이 작업이 중요한 이유는, 스케일링 실험에서 무엇을 보여 주어야 하는지에 대한 검증 기준을 높였기 때문이다. 이전에는 작은 모델에서 더 좋은 손실을 보여 주고, 큰 모델 몇 개에서도 비슷한 추세가 보이면 충분한 경우가 많았다. 하지만 이 논문은 거기에 더해 학습률 곡선의 최소점이 계속 정렬되는지, 안정성 지표가 bounded한지, MoE 구조 변화에서도 RMS와 로짓이 통제되는지를 함께 제시한다. 즉, 결과의 강도는 숫자 하나보다도 동일한 결론을 가리키는 여러 종류의 증거가 동시에 존재한다는 데서 나온다.

그래서 HyperP를 둘러싼 가장 생산적인 후속 논의는 찬반을 단순히 나누는 것이 아니라, 어떤 조건에서 이 프레임이 유지되고 어디서 깨지는지를 찾는 일일 것이다. 만약 더 다양한 데이터와 아키텍처에서도 유사한 전이성과 안정성 보존이 관찰된다면, HyperP는 언어모델 스케일링의 중요한 표준으로 자리 잡을 수 있다. 반대로 특정 조건에서만 성립한다면, 그 사실 자체가 또 다른 이론적 통찰을 제공할 수 있다. 어느 쪽이든 이 논문은 스케일링 연구를 한 단계 더 정교한 질문으로 이동시켰고, 그 점만으로도 충분히 읽을 가치가 있다.

7.8 짧은 총평: 왜 지금 시점에 의미가 큰가

최근 언어모델 연구는 성능 향상 자체보다 성능 향상을 어떻게 믿을 것인가라는 문제가 점점 더 중요해지고 있다. 모델이 커질수록 실험 하나의 비용이 커지고, 그만큼 잘못된 결론을 얻었을 때의 기회비용도 커진다. HyperP는 바로 이 지점에서 의미가 크다. 논문은 단지 더 좋은 숫자를 내는 것이 아니라, 작은 모델에서 얻은 실험적 결론이 큰 모델에서도 유지되는지 확인할 수 있는 명시적 절차를 제안한다. 연구 생산성의 관점에서 보면 이것은 성능 몇 점만큼이나 중요한 기여다.

더 나아가 이 논문은 스케일링 논의를 최적화 이론, 시스템 비용, 아키텍처 비교, 안정성 분석이 만나는 지점으로 다시 묶는다. 그래서 HyperP의 직접적인 수치 이득이 앞으로 일부 환경에서 줄어들더라도, 이 논문이 제시한 문제 설정과 검증 틀은 오래 남을 가능성이 크다. 좋은 스케일링 법칙은 단지 곡선 맞추기가 아니라, 작은 규모의 통찰을 큰 규모의 현실로 안전하게 연결하는 다리여야 한다는 것, 이 한 문장만으로도 이 논문은 충분히 중요한 문제를 건드렸다.

8. 결론: HyperP는 최적 학습률 이전을 넘어 스케일링 실험의 해석 틀을 바꾼다

이 논문이 던지는 가장 큰 메시지는 명확하다. 언어모델 스케일링을 제대로 이해하려면, 단순히 손실 곡선만이 아니라 최적화 기하학과 안정성의 이전까지 함께 봐야 한다는 것이다. HyperP는 프로베니우스 구면 위의 하이퍼스피어 최적화와 MuonH를 바탕으로, 너비, 깊이, 토큰 수, MoE granularity에 걸친 학습률 이전 법칙을 하나의 체계로 묶는다. 그 과정에서 가중치 감쇠가 일차 근사에서 사라지고, Depth-$\mu$P가 여전히 필요하며, 토큰 수에 대한 최적 학습률이 0.32 지수의 멱법칙을 따른다는 결론을 제시한다.

실험 결과도 이론적 메시지와 잘 연결된다. MuonH는 가중치 감쇠를 없애도 성능을 잃지 않았고, HyperP는 깊이와 FLOPs가 커져도 공통 기준 학습률을 유지하게 만들었다. 그 결과 가장 큰 규모에서 Muon 기준 1.58배의 계산 효율을 달성했고, MoE와 결합하면 dense 기준 3.38배까지 올라간다. 여기에 안정성 지표가 규모가 커질수록 더 나빠지지 않는다는 분석까지 더해지면서, HyperP는 단순한 하이퍼파라미터 튜닝 규칙이 아니라 스케일링 실험을 더 믿을 수 있게 만드는 프레임워크로 자리 잡는다.

물론 아직 남은 질문도 많다. 데이터 지수 0.32의 이론적 이유, 다른 아키텍처로의 확장, 더 큰 산업 규모에서의 재현성은 모두 후속 연구가 답해야 한다. 그럼에도 이 논문은 적어도 하나의 중요한 기준을 세웠다. 앞으로 스케일링 연구에서 “작은 모델에서 잘 되었으니 큰 모델에서도 잘 될 것”이라고 말하려면, 단지 손실 곡선의 모양이 아니라 학습률 이전과 안정성 지표가 함께 유지되는지까지 보여 주어야 한다는 것이다. HyperP의 기여는 새로운 공식 하나보다도 스케일링 검증에서 함께 제시해야 할 안정성 조건을 구체화한 데 있다.

또한 결론부에서 눈여겨볼 점은, 논문이 HyperP를 만능 해법으로 포장하지 않는다는 사실이다. 저자들은 분명하게 한계를 적고, 0.32 지수의 이론 부재와 Chinchilla 가정 의존성, 다른 아키텍처로의 일반화 문제를 후속 과제로 남긴다. 그럼에도 이 논문이 설득력을 갖는 이유는, 제한을 숨기지 않으면서도 현재 조건 안에서는 일관된 방향의 증거를 충분히 제시하기 때문이다. 스케일링 연구에서 진짜 신뢰할 만한 작업은 대개 이렇게, 강한 주장과 명시적 한계를 동시에 갖는다.

종합하면 HyperP의 핵심은 작은 규모와 큰 규모 사이의 틈을 줄이는 데 있다. 그 틈은 단순히 학습률 숫자의 차이가 아니라, 하이퍼파라미터 탐색 비용의 차이이자 안정성 위험의 차이이며, 나아가 아키텍처 비교의 공정성 문제이기도 하다. 논문은 하이퍼스피어 최적화라는 기하학적 틀을 이용해 이 틈을 체계적으로 줄일 수 있다고 보여 준다. 그 시도가 앞으로 어디까지 확장될지는 더 지켜봐야 하지만, 적어도 지금 시점에서 이 논문은 언어모델 스케일링을 다시 생각하게 만드는 충분한 근거를 제공한다.

마지막으로 이 논문이 던지는 숨은 메시지는, 스케일링 연구의 성공이 더 이상 거대한 계산 예산 자체에만 달려 있지 않다는 점이다. 얼마나 많은 FLOPs를 투입하느냐 못지않게, 그 FLOPs를 어떤 기하학적 제약과 어떤 전이 법칙 아래 사용하느냐가 중요해지고 있다. 논문은 프로베니우스 구면이라는 비교적 단순한 제약만으로도 가중치 감쇠 문제를 정리하고, 깊이와 데이터 길이, MoE 세분화까지 하나의 이야기로 묶을 수 있음을 보였다. 이 통찰은 향후 초대형 모델 경쟁에서도 의미가 크다. 계산량이 커질수록 모든 것을 다시 튜닝하는 방식은 지속 가능하지 않기 때문이다. 결국 HyperP가 정말 오래 남을지 여부는 후속 검증에 달려 있겠지만, 최소한 이 논문은 더 큰 모델을 더 많이 돌리는 것과 더 잘 스케일링하는 것은 다른 문제라는 사실을 아주 선명하게 보여 준다.

이 점에서 HyperP는 단순히 “좋은 optimizer 조합”을 넘어 스케일링 거버넌스의 문제와도 연결된다. 거대한 모델 개발은 점점 더 많은 팀과 자원, 긴 검증 주기를 필요로 하며, 잘못된 하이퍼파라미터 전이 하나가 수주 이상의 시간을 낭비하게 만들 수 있다. 논문이 보여 준 공통 기준 학습률, bounded stability, 명시적 전이 법칙은 이런 위험을 줄이기 위한 하나의 조직적 언어가 될 수 있다. 즉, HyperP는 수학적으로는 구면 위의 최적화 법칙이지만, 실무적으로는 “어떤 작은 실험을 근거로 큰 실험을 진행해도 되는가”를 판단하는 기준으로 읽을 수 있다. 이런 해석까지 포함하면, 이 논문은 단순한 알고리즘 제안보다 훨씬 넓은 파급력을 가진다.

한편 이 논문의 미덕은 문제를 과도하게 철학화하지 않고, 결국은 어떤 실험 절차가 더 안전하게 큰 규모로 올라가는가라는 실용적 질문으로 되돌린다는 데 있다. HyperP가 제안하는 폭·깊이·토큰·MoE 전이 법칙은 모두 이 질문에 대한 구체적 답변이다. 작은 모델에서 한 번 찾은 기준점이 큰 모델에서 계속 합리적이라면, 연구자는 더 적은 시행착오로 더 많은 구조적 아이디어를 시험할 수 있다. 반대로 그 기준점이 규모와 함께 쉽게 무너지면, 스케일링 연구는 결국 막대한 비용을 들인 반복 튜닝으로 돌아갈 수밖에 없다. 이런 의미에서 HyperP의 성패는 단지 수학 공식의 우아함이 아니라, 실제 연구 프로세스를 얼마나 바꿀 수 있는지에 달려 있다고 볼 수 있다.

결국 HyperP의 진짜 시험대는 앞으로 더 많은 연구가 이 기준을 채택하느냐에 있다. 다만 현재 논문이 보여 준 범위만 보더라도, 스케일링을 단순한 곡선 적합이 아니라 전이 가능한 최적화와 안정성 설계의 문제로 확장했다는 점은 분명하다.

특히 이 논문은 작은 모델에서의 성공을 큰 모델의 성공으로 번역하는 규칙이 얼마나 중요한지, 그리고 그 번역 규칙이 안정성까지 포함해야 한다는 점을 분명히 보여 준다.

그 점이 바로 HyperP가 현재 시점에서 주목받을 만한 가장 실질적인 이유다.

스케일링을 더 정교하게 검증해야 한다는 요구 자체가 이 논문의 성과다.

그리고 그 기준은 앞으로 더 자주 인용될 가능성이 높다.

그 가치는 분명하다.

9. 요약 정리

  • HyperP는 프로베니우스 구면 제약과 MuonH를 기반으로, 언어모델의 너비·깊이·토큰 수·MoE granularity에 걸친 학습률 이전 법칙을 하나로 정리한 프레임워크다.
  • 논문은 프로베니우스 구면 위 재정규화에서 가중치 감쇠가 일차 근사에서 no-op가 된다고 보이며, 따라서 핵심 hidden weight에서는 weight decay 탐색 차원을 제거할 수 있다고 주장한다.
  • Depth-$\mu$P는 여전히 필요하다. 하이퍼스피어 최적화가 깊이 스케일링 문제를 자동으로 없애 주지는 않으며, 적절한 깊이 방향 보정이 있어야 공통 기준 학습률이 유지된다.
  • 토큰 수에 따른 최적 학습률은 실험적으로 $\eta^*=24.27\cdot T^{-0.320}$을 따랐고, 저자들은 이를 기존 AdamW 계열에서도 관찰된 0.32의 마법 지수와 연결해 해석한다.
  • MuonH는 가중치 감쇠 없이도 Muon과 비슷하거나 약간 더 좋은 손실을 보여, 더 단순한 탐색 공간을 제공한다는 점이 확인되었다.
  • 가장 큰 실험 규모에서 MuonH+HyperP는 Muon 기준 1.58배의 CEL을 기록했고, HyperP가 없는 MuonH는 동일 구간에서 오히려 0.70배까지 떨어져 스케일링 효율의 누적에 실패했다.
  • MoE에서는 SqrtGate가 top-$k$ 변화에도 출력 RMS를 안정적으로 유지하도록 설계되었고, 실제로 모든 top-$k$ 구간에서 더 낮은 손실과 더 안정적인 라우터 동역학을 보였다.
  • 안정성 분석에서 attention과 router의 $Z$-value, 출력 RMS, 활성 이상치 비율이 규모가 커질수록 폭주하지 않고 bounded 혹은 감소하는 양상을 보이며, 논문은 이를 transferable stability라고 부른다.
  • 아키텍처 ablation 결과는 HyperP가 단순한 튜닝 기법을 넘어, 서로 다른 구조를 거의 최적 조건에서 공정하게 비교하게 만드는 분석 도구로도 작동함을 보여 준다.
  • 한계로는 Chinchilla 가정 의존성, 0.32 지수의 이론 부재, Transformer-Next 계열 중심 검증, 더 큰 산업 규모에서의 추가 재현 필요성이 남아 있다.

댓글

홈으로 돌아가기

검색 결과

"" 검색 결과입니다.