Mean-Field Neural Differential Equations: A Game-Theoretic Approach to Sequence Prediction
Sungwoo Park, Byungseung Kong | Korea University | ICLR 2026 게재 확정
OpenReview | PDF | ICLR 2026 Virtual
1. 서론: 연속 시퀀스 예측의 근본적 한계와 새로운 패러다임
시공간 과정(spatiotemporal process)의 모델링은 시간과 공간에 걸쳐 진화하는 복잡 시스템의 이해와 예측에 핵심적인 역할을 한다. 로봇의 관절 궤적을 예측하고, ICU 환자의 생체 신호 변화를 예측하며, 도시의 대기질 변화를 예측하는 것 — 이 모든 과제는 본질적으로 연속 시간 위에서 정의된 시퀀스 데이터의 미래 값을 정확하게 추정하는 문제로 귀결된다. 최근 수년간 Neural ODE(Chen et al., 2019), Neural SDE(Tzen & Raginsky, 2019) 등의 신경 미분 방정식 모델이 생성 모델링, 금융 공학, 물리 학습 등 다양한 분야에서 괄목할 만한 성과를 보여주었다. 그러나 이들 모델의 대부분은 고정된 유한 시간 그리드(fixed, finitely sampled time grids)에서 설계되고 평가되어, 본질적으로 연속적인 시퀀스에 대한 이론적 통찰을 충분히 제공하지 못한다는 근본적 한계가 존재한다.
구체적으로, 기존 접근법은 다음과 같은 핵심 질문에 답하지 못한다: "시간 이산화가 점점 세밀해지고 관측 사건의 수가 매우 많아질 때, 연속 시간 시퀀스를 어떻게 체계적으로 모델링할 수 있는가?" 이 질문은 단순히 이산 모델의 해상도를 높이는 것이 아니라, 무한 차원으로의 극한에서도 일관된 이론적 프레임워크를 제공할 수 있는가라는 근본적인 수학적 도전을 내포하고 있다. 시간 해상도가 무한히 높아지면 개별 관측점의 수도 무한해지며, 이들 간의 상호작용을 유한한 파라미터로 어떻게 효율적으로 포착할 것인가라는 난제가 발생한다.
본 논문은 이 근본적 질문에 대해 매우 참신한 해법을 제시한다. 핵심 아이디어는 연속 시퀀스 예측 문제를 평균장 게임(Mean-Field Games, MFGs)으로 재구성하는 것이다. 평균장 이론(mean-field theory)은 통계 물리학, 신경과학, 경제학 등에서 대규모 상호작용 시스템을 분석하는 강력한 도구로, 무한히 많은 에이전트가 상호작용할 때 개별 에이전트의 행동이 전체 인구 분포(population distribution)에 의해 요약될 수 있다는 원리에 기반한다. Lasry & Lions(2007)에 의해 형식화된 평균장 게임 이론은, 각 에이전트가 전체 인구 분포에 대해 최적으로 반응하는 내쉬 균형(Nash equilibrium) 상태를 분석하는 수학적 프레임워크를 제공한다.
이 논문은 평균장 연속 시퀀스 예측기(Mean-Field continuous sequence Predictors, MFPs)라는 새로운 신경 미분 방정식 모델 클래스를 제안한다. MFPs에서는 무한히 많은 예측기들이 각각 과거 관측의 부분 정보를 조건으로 받아 독립적으로 미래를 예측하되, 신경 그래폰(neural graphon)이라는 구조를 통해 서로 상호작용하며 집단적으로 최적의 예측을 달성한다. 이 시스템의 학습은 가상 플레이(fictitious play) 전략과 경사 하강법을 결합한 순방향-역방향 확률 미분 방정식(FBSDE) 시스템을 통해 수행되며, 확률적 최대 원리(stochastic maximum principle)를 활용하여 내쉬 균형을 찾는다. 이론적으로는 Wasserstein 거리에서의 수렴 보장과 예측기 수에 대한 샘플 복잡도 경계를 확립하며, 실험적으로는 MIT 휴머노이드 로봇, MIMIC-II, 베이징 대기질, EigenWorm 등 4개 데이터셋에서 Mamba, S4, Contiformer 등 최신 벤치마크를 일관되게 상회한다.
논문의 핵심 기여를 정리하면 다음과 같다:
- 모델 설계: 신경 그래폰을 통해 시계열의 귀납적 편향(temporal decay, seasonality)을 데이터 공간에서 직접 모델링하는 평균장 SDE 기반 예측기 클래스를 제안한다. 기존 방법들이 잠재 특성 공간에서 편향을 인코딩한 것과 달리, 데이터 공간에서의 직접적 모델링은 해석 가능성과 이론적 분석 용이성을 높인다.
- 학습 알고리즘: 경사 하강 기반의 평균장 FBSDE 시스템을 통해 내쉬 균형을 효율적으로 근사하는 가상 플레이 전략을 개발한다. 이는 기존의 선형 이차 동역학에 국한되었던 MFG 해법을 비선형 신경망으로 확장한다.
- 이론적 보장: 제안된 경사 시스템의 Wasserstein 수렴 보장과, 유한 예측기 수에서의 샘플 복잡도 경계를 확립한다. 카오스의 전파(propagation of chaos) 성질을 통해 연합 크기 증가에 따른 예측 정확도 개선을 이론적으로 정당화한다.
- 실험적 우수성: 4개 벤치마크에서 상태 공간 모델(S4, Mamba, Jamba) 및 Neural SDE 변형, Transformer 기반 모델을 일관되게 상회하는 성능을 달성한다.
핵심 아이디어 요약: 연속 시퀀스 예측 문제를 평균장 게임으로 재구성하여, 무한히 많은 예측기(에이전트)들이 그래폰 구조를 통해 상호작용하며 집단적으로 내쉬 균형에 도달하는 프레임워크를 제안한다. 이 게임 이론적 관점은 이론적 수렴 보장, 노이즈 강건성, 그리고 예측기 수 증가에 따른 체계적 성능 향상이라는 자연스러운 이점을 제공한다.
2. 배경: 연속 시퀀스 모델링의 세 가지 축
2.1 신경 미분 방정식 모델의 발전
신경 미분 방정식(Neural DE) 모델은 연속 시간 동역학을 학습 가능한 신경망으로 파라미터화하는 접근법으로, 연속 시퀀스 모델링에서 가장 자연스러운 프레임워크를 제공한다. Neural ODE(Chen et al., 2019)는 잔차 네트워크의 연속 시간 극한으로서 $dx/dt = f_\theta(t, x)$ 형태의 상미분 방정식을 신경망으로 정의하고, ODE 솔버를 통해 임의의 시간에서의 상태를 계산한다. Latent ODE(Rubanova et al., 2019)는 RNN 인코더와 Neural ODE 디코더를 결합하여 비규칙 시계열을 잠재 공간에서 처리하며, Neural CDE(Kidger et al., 2020)는 제어 미분 방정식을 도입하여 초기 조건뿐 아니라 후속 관측에도 의존하는 해를 구축한다.
확률적 확장으로는 Latent SDE(Li et al., 2020)가 SDE를 통해 시퀀스의 불확실성을 모델링하며, MaSDEs(Park et al., 2023)는 확률적 미분 게임 개념을 시계열 분석에 도입하였다. Neural LSDE(Oh et al., 2024)는 Langevin형, 선형 노이즈, 기하학적 SDE의 세 가지 안정적 SDE 클래스를 제안하였고, Contiformer(Chen et al., 2024)는 Neural ODE와 Transformer를 단일 프레임워크로 통합하였다. 그러나 이들 모델은 공통적으로 유한한 관측점 집합에서 작동하며, 시간 해상도가 무한히 세밀해지는 극한에서의 체계적 행동에 대한 이론적 프레임워크가 부재하다는 한계를 갖는다.
2.2 상태 공간 모델의 부상
S4(Gu et al., 2022)로 대표되는 구조화된 상태 공간 모델(Structured State Space Models)은 장기 의존성 모델링에서 Transformer에 필적하거나 능가하는 성능을 보여주며 큰 주목을 받았다. Mamba(Gu & Dao, 2024)는 선택적 상태 공간(selective state space)을 도입하여 입력에 따라 적응적으로 정보를 필터링하며, Jamba(Lieber et al., 2024)는 Transformer와 Mamba를 하이브리드로 결합한다. 그러나 이들 모델은 본질적으로 이산 시간(discrete-time) 프레임워크에서 설계되어, 비규칙적으로 샘플링된 연속 시계열에 대한 직접적 적용이 제한적이다. 특히 관측 간격이 불균일하거나 결측치가 있는 임상 데이터에서 성능이 저하될 수 있다.
2.3 평균장 원리의 기계 학습 적용
평균장 원리의 기계 학습 적용은 비교적 최근의 연구 흐름이다. Liu et al.(2022)은 Schrödinger 브릿지를 평균장 게임에 도입하여 대규모 인구의 데이터 분포를 근사하였고, Park et al.(2024)는 카오스의 전파 개념을 3D 포인트 클라우드 생성에 활용하였다. 그러나 이전 연구들은 주로 생성 모델링에 초점을 맞추었으며, 평균장 게임 프레임워크를 시퀀스 예측 문제에 체계적으로 적용한 것은 본 논문이 최초이다. 이 논문의 핵심적 차별점은 단순히 평균장 원리를 차용하는 것이 아니라, 시계열 데이터의 귀납적 편향을 그래폰 구조를 통해 평균장 동역학에 직접 통합하고, 예측 문제를 완전한 게임 이론적 프레임워크 내에서 해결한다는 점이다.
2.4 기존 접근법의 한계 종합
이상의 관련 연구를 종합하면, 기존 연속 시퀀스 모델링 접근법들의 한계를 세 가지 차원에서 정리할 수 있다. 첫째, 이론적 차원에서 기존 Neural DE 모델들은 유한 시간 그리드에서의 경험적 성능은 우수하지만, 시간 해상도가 무한히 세밀해지는 극한에서의 일관된 행동에 대한 이론적 보장이 부족하다. 관측 수가 증가할 때 모델의 예측이 어떤 극한으로 수렴하는지, 그 수렴의 속도는 어떠한지에 대한 분석이 부재하다. 둘째, 구조적 차원에서 기존 모델들은 시계열의 귀납적 편향을 잠재 공간에서 암묵적으로 학습하므로, 어떤 구조가 포착되었는지 해석하기 어렵고, 제한된 데이터에서 올바른 편향을 유지하기 힘들다. 셋째, 확장성 차원에서 단일 모델(single predictor) 기반 접근법은 예측의 불확실성을 자연스럽게 포착하기 어렵고, 관측 수 증가에 따른 체계적 성능 향상 메커니즘이 부재하다. MFPs는 이 세 가지 한계를 동시에 해결하는 것을 목표로 한다.
아래 표는 기존 모델군과 MFPs의 핵심 특성을 체계적으로 비교한 것이다.
| 모델군 | 대표 모델 | 연속 시간 | 확률적 모델링 | 무한 차원 극한 | 귀납적 편향 (데이터 공간) | 수렴 보장 | 노이즈 강건성 |
|---|---|---|---|---|---|---|---|
| Neural ODE/CDE | Latent ODE, Neural CDE | ✅ | ❌ | ❌ | ❌ | ❌ | 보통 |
| Neural SDE | Latent SDE, Neural LSDE | ✅ | ✅ | ❌ | ❌ | 부분적 | 보통 |
| 상태 공간 모델 | S4, Mamba, Jamba | ❌ | ❌ | ❌ | ❌ | ❌ | 낮음 |
| Transformer 기반 | Contiformer, CONTIME | ✅ | ❌ | ❌ | ❌ | ❌ | 보통 |
| MFPs (본 논문) | MFP-Exp, MFP-Cos | ✅ | ✅ | ✅ | ✅ | ✅ | 높음 |
3. 문제 정의: 연속 시퀀스 예측의 수학적 구조
형식적으로, 전체 시간 구간 $\mathcal{T} = [0, T]$에서 과거 관측 구간 $\mathcal{O} \subset \mathcal{T}$의 관측값 $\{y_u\}_{u \in \mathcal{O}}$가 주어졌을 때, 미래 구간 $\mathcal{T} \setminus \mathcal{O}$에서의 값 $\{y_t\}_{t \in \mathcal{T} \setminus \mathcal{O}}$를 정확히 예측하는 것이 목표이다. 연속 시퀀스 $\{y_u, y_t\} : [0, T] \to \mathbb{R}^d$는 연속적으로 정의되며, 세 가지 도전적 특성을 공유한다.
첫째, 비규칙성(Irregularity)이다. 시공간 상태 간의 시간 간격이 균일하지 않으며, 관측이 불규칙한 시점에서 이루어진다. 예를 들어 ICU 환자의 생체 신호는 환자의 상태에 따라 측정 빈도가 크게 변동한다. 둘째, 비균일성(Non-uniformity)이다. 시퀀스의 길이(cardinality)가 고정되지 않고 확률적으로 변동한다. 같은 유형의 데이터라도 개별 인스턴스마다 관측 횟수가 다를 수 있다. 셋째, 시간적 확장성(Temporal scalability)이다. 데이터가 단기 변동부터 장기적 추세까지 다중 시간 스케일을 포괄한다. 로봇 궤적 데이터는 밀리초 단위의 미세한 진동부터 수십 초에 걸친 전체 동작 패턴까지를 동시에 포함한다.
이러한 특성들은 고정 시간 그리드 기반 모델에 근본적 한계를 부여한다. 기존 Neural ODE/SDE는 유한 관측점에서의 보간에는 강하지만, 시간 해상도가 점점 세밀해지는 극한에서의 행동에 대한 이론적 보장이 부족하다. 상태 공간 모델은 장기 의존성을 잘 포착하지만, 연속 시간 정의가 아닌 이산 시간 프레임워크에서 설계되었다. 본 논문은 이러한 간극을 메우기 위해, 데이터 동역학을 직접 연속 시간에서 정의하고 무한 차원 극한에서도 일관된 이론적 프레임워크를 제공하는 접근을 취한다.
기존 방법들과의 근본적 차이를 더 명확히 하자면, Neural ODE/SDE 기반 모델은 하나의 잠재 궤적(single latent trajectory)을 통해 시퀀스를 표현한다. 초기 조건에서 출발한 하나의 ODE/SDE 해가 전체 미래를 결정한다. 반면 MFPs에서는 각 과거 관측 시점에 하나씩 대응하는 무한히 많은 궤적이 동시에 존재하며, 이들이 집단적으로 상호작용하여 미래를 결정한다. 이는 마치 하나의 전문가가 혼자 판단하는 것(기존 모델)과, 각자 다른 정보를 가진 무한히 많은 전문가들이 게임 이론적 균형을 통해 집단 판단을 내리는 것(MFPs)의 차이에 비유할 수 있다.
아래 표는 실험에 사용되는 4개 데이터셋의 핵심 특성을 정리한다. 각 데이터셋은 서로 다른 도메인과 시간적 구조를 가지며, MFPs의 범용성을 검증하기 위해 선택되었다.
| 데이터셋 | 도메인 | 특성 차원 $d$ | 시퀀스 길이 $T$ | 비규칙 샘플링 | 결측치 | 주요 시간 패턴 |
|---|---|---|---|---|---|---|
| MIT Humanoid | 로봇 궤적 | 27 | 100 | ✅ | ❌ | 시간적 감쇄, 다관절 역학 |
| MIMIC-II | 의료 (ICU) | 41 | 48 (시간) | ✅ | ✅ | 복합 시간 패턴, 결측 |
| Beijing Air Quality | 환경 | 6 | 72 | ✅ | 부분적 | 일주기 주기성, 감쇄 |
| EigenWorm | 생물학 | 6 | 1500 | ❌ | ❌ | 장기 주기성, 비선형 진동 |
4. 핵심 방법: 평균장 연속 시퀀스 예측기 (MFPs)
MFPs의 설계는 세 가지 핵심 구성 요소로 이루어진다: (1) 평균장 그래폰 SDE로 정의된 예측기 동역학, (2) 시계열 귀납적 편향을 인코딩하는 신경 그래폰, (3) 이들의 집단적 의사결정을 통한 미래 예측. 이하에서 각 구성 요소를 상세히 분석한다.
4.1 평균장 그래폰 SDE: 무한 에이전트의 제어된 동역학
MFPs의 수학적 기반은 다음과 같은 평균장 그래폰 SDE(Mean-Field Graphon SDE)이다:

Figure 1: MFPs 개요. 평균장 예측기들이 과거 관측의 부분 정보를 조건으로 독립적으로 미래를 예측하며, 신경 그래폰을 통해 상호작용한다.
$$dX^\alpha_u(t) = \langle W_\alpha[\nu_v(t)](u),\, \psi \rangle(X^\alpha_u(t),\, \alpha)\,dt + b(t,\, X^\alpha_u(t),\, \alpha)\,dt + \sigma_t\,dW^u_t, \quad X^\alpha_u(0) := y_u$$
이 수식의 각 구성 요소는 매우 정교한 역할 분담을 가진다. 먼저 상태 변수 $X^\alpha_u(t)$는 레이블 $u$에 의해 인덱싱되는 개별 예측기의 상태를 나타낸다. 여기서 레이블 $u$는 과거 관측 시점을 의미하며, 분포 $p(u)$에서 샘플링된다. 각 예측기는 해당 시점의 관측값 $y_u \sim p(u, y)$에서 초기화되어, 시간 $t$에 따라 미래 방향으로 진화한다. 핵심적인 것은, 레이블 $u$가 연속 구간 $\mathcal{O}$ 위에서 정의되므로 이론적으로 무한히 많은 예측기가 존재한다는 점이다. 이것이 바로 "평균장(mean-field)" 체제의 핵심으로, 개별 예측기의 수가 무한으로 증가하더라도 전체 시스템이 평균장 극한에 의해 잘 정의된다.
우변의 세 항은 각각 다른 물리적 의미를 가진다. 첫째 항 $\langle W_\alpha[\nu](u), \psi \rangle$는 그래폰 상호작용 항으로, 서로 다른 시점의 예측기들 간의 상호작용을 인코딩한다. 신경 그래폰 $W_\alpha(u, v)$가 시점 $u$와 $v$ 간의 상호작용 강도를 결정하고, 함수 $\psi_\alpha(y, x) = H_\psi(\alpha) \cdot \text{Proj}(y - x)$가 두 예측기의 공간적 상태 차이를 기반으로 상호작용의 방향과 크기를 계산한다. 둘째 항 $b(t, x, \alpha)$는 신경 에이전트 $\alpha$가 제어하는 드리프트 항으로, 개별 예측기의 자체적인 동역학을 나타낸다. 셋째 항 $\sigma_t dW^u_t$는 브라운 운동에 의한 확산 항으로, 시스템의 확률적 요동(stochastic fluctuation)을 모델링한다.
이 설계에서 가장 독창적인 점은 이중 연속성 인코딩이다. 상태 변수 $X^\alpha_u(t)$는 두 가지 연속적 인덱스를 가진다: 국소 시간(locality) $t$와 레이블(labeling) $u$. 이는 시스템이 시간적으로 연속적일 뿐 아니라, 예측기의 "정체성"도 연속적으로 인덱싱됨을 의미한다. 무한히 많은 예측기의 연속체(continuum)가 존재하며, 각각은 과거 관측의 다른 시점에 조건화되어 독자적으로 미래를 예측하되, 그래폰을 통해 서로 정보를 교환한다.
Figure 1은 MFPs의 전체 작동 원리를 직관적으로 보여준다. 좌측에서 과거 관측 시점 $u_1, u_2, u_3, u_4$에서 초기화된 예측기들이 시간에 따라 전파되며, 신경 그래폰(녹색 연결 구조)을 통해 상호작용한다. 우측에서는 이들 예측기의 출력이 가중 평균(aggregation)을 통해 통합되어 단일 예측 궤적을 생성하며, 이것이 실제 목표 궤적(검은색)을 근사한다. 미래 예측은 $\mathbb{E}_{u \sim p(u)} X^\alpha_u(t)$로 표현되며, 이는 모든 예측기의 가중 합으로서 집단 지성(collective intelligence)의 원리를 구현한다.
4.2 신경 그래폰: 시계열 귀납적 편향의 인코딩
시계열 분석에서 temporal decay(시간적 감쇄), 주기성(seasonality/cyclicity) 등의 귀납적 편향은 효과적 모델링의 핵심이다. 기존 방법들은 이러한 편향을 잠재 특성 공간에서 암묵적으로 학습하도록 설계되었으나, MFPs는 신경 그래폰(Neural Graphon)이라는 구조를 통해 이를 데이터 공간 $\mathbb{R}^d$에서 직접 모델링한다.
그래폰(graphon)은 원래 그래프 이론에서 대규모 그래프의 극한을 기술하기 위해 도입된 개념으로, 대칭적 적분 가능 함수 $W : \mathcal{O}^2 \to \mathbb{R}$로 정의된다. 본 논문에서 그래폰은 서로 다른 시점 $u$와 $v$에서의 예측기 간 상호작용의 강도를 인코딩하는 역할을 한다. 함수 $\psi_\alpha(y, x) = H_\psi(\alpha) \cdot \text{Proj}(y - x)$는 두 예측기의 공간적 상태 간의 스케일된 상대적 비유사성(scaled relative dissimilarity)을 추정하며, 신경 에이전트 $H_\psi(\alpha)$가 이 비유사성의 중요도를 동적으로 조절한다.
그래폰 상호작용의 전체 형태는 다음과 같이 정의된다:
$$\langle W_\alpha[\mu](u),\, \psi_\alpha \rangle(y,\, \alpha) := \mathbb{E}_{v \sim p(v),\, x \sim \mu}\bigl[W_\alpha(u, v) \cdot \psi_\alpha(y, x)\bigr] \in \mathbb{R}^d$$
이 표현에서 확률 측도 $\mu$는 전체 예측기 인구의 분포를 나타내며, 기대값은 모든 다른 예측기에 대한 평균적 상호작용을 계산한다. 이것이 바로 "평균장" 상호작용의 수학적 정의로, 각 예측기가 다른 모든 예측기와의 개별적 상호작용이 아닌, 인구 분포를 통한 평균적 상호작용을 경험하는 것이다. 이러한 평균장 근사는 $N$개의 입자 간 $O(N^2)$ 쌍별(pairwise) 상호작용을 $O(N)$으로 줄여주며, 이것이 무한 입자 시스템을 계산적으로 다룰 수 있게 만드는 핵심 메커니즘이다.
기존 시계열 모델들과의 차이를 그래폰 관점에서 더 명확히 하면, 기존 모델들은 암묵적으로 "완전 그래프(complete graph)" 구조를 가정한다 — 모든 시점 간의 상호작용 강도가 동일하거나 학습에 의해 결정된다. 이에 비해 MFPs의 그래폰은 시점 간 상호작용에 구조적 사전 지식(structural prior)을 부여하여, 학습 효율과 일반화 성능을 모두 향상시킨다. 이는 Transformer에서 위치 인코딩(positional encoding)이 수행하는 역할과 유사하지만, 데이터 공간에서 직접 작동하며 이론적으로 더 엄밀한 토대를 가진다는 점에서 차별적이다.
4.3 지수 그래폰과 코사인 그래폰: 두 가지 시간적 구조
논문은 시계열 데이터의 대표적 귀납적 편향에 대응하는 두 가지 구체적 그래폰 구조를 제안한다.

Figure 2: 그래폰(Graphon) 시각화. 지수 그래폰과 코사인 그래폰의 구조를 보여준다.
지수 그래폰(Exponential Graphon)은 시간적 감쇄(temporal decay) 가정을 인코딩한다. 시간 편차가 증가할수록 과거 사건의 영향이 지수적으로 감소한다는 가정 하에 다음과 같이 정의된다:
$$W_\alpha(u, v) := W_1(\alpha) \cdot \exp\bigl(-T^{-1}|u - v|\bigr)$$
여기서 $W_1(\alpha)$는 신경망으로 파라미터화된 상호작용 크기 함수이며, $|u - v|$는 두 시점 간의 절대 시간 차이이다. Figure 2 좌측의 히트맵에서 볼 수 있듯이, 대각선(동일 시점)에서 강한 상호작용이 나타나고, 대각선에서 멀어질수록 급격히 감쇄한다. 이는 최근 관측이 미래 예측에 더 큰 영향을 미친다는 시계열의 일반적 특성을 반영한다.
코사인 그래폰(Cosinusoidal Graphon)은 연속적 주기 가정(continuous cyclic assumption)을 인코딩한다. 이 그래폰은 $L^2(\mathcal{O})$ 위에서의 고유 분해를 통해 구성되며, 사인/코사인 고유 함수와 서로 다른 주파수 모드의 고유값을 사용한다:
$$W_\alpha(u, v) = W_0(\alpha) + \sum_{l=1}^{L} \Bigl[ W_{1,l}(\alpha) \cos\!\bigl(2\pi f(l)\Delta u / |\mathcal{O}|\bigr) + W_{2,l}(\alpha) \sin\!\bigl(2\pi f(l)\Delta u / |\mathcal{O}|\bigr) \Bigr]$$
여기서 $f(l) \in \{1/2,\, 1/4,\, 1/8\}_{l \le L}$은 사전 결정된 주파수 시리즈이고, $W_0,\, W_{1,l},\, W_{2,l}$은 각각 신경망으로 파라미터화된 Fourier 계수이다. Figure 2 우측의 히트맵은 주기적으로 반복되는 밴드 패턴을 보여주며, 이는 일정 시간 간격으로 반복되는 계절적 의존성을 포착한다. 유한 모드 $L$로 합산을 제한하여 계산 가능성을 확보하면서도 다양한 주파수의 주기성을 동시에 모델링할 수 있다.
두 그래폰의 설계에서 특히 주목할 점은, 신경망이 상호작용의 크기($W_1$, $W_0$, $W_{1,l}$, $W_{2,l}$)를 학습하되, 상호작용의 구조(지수 감쇄, 주기적 패턴)는 사전 지식으로 주입된다는 것이다. 이는 순수한 데이터 구동 학습과 도메인 지식의 균형 잡힌 결합으로, 제한된 데이터에서도 올바른 귀납적 편향을 유지하면서 유연한 표현력을 확보하는 전략이다.
그래폰의 컷 노름(cut-norm) $\|W\|_g$는 이론적 분석에서 핵심적인 역할을 한다. 지수 그래폰의 경우 $\|W_\alpha\|_g \le (T/2) W_1^2 (e^{-2T^{-1}|\mathcal{O}|} - 1)$로, 코사인 그래폰의 경우 Fourier 계수들의 조합으로 상계된다. 컷 노름은 그래폰이 예측기 간 상호작용에 미치는 최대 효과를 측정하며, 샘플 복잡도 경계(Proposition 4.1)와 수렴 속도(Proposition 3.5)에 직접 영향을 미친다. 그래폰의 구조가 이론적 성능 보장에 명시적으로 연결된다는 것은, 단순한 모델링 도구를 넘어 이론적으로 근거 있는 설계 선택임을 보여준다.
4.4 의사결정 집계: 연합의 예측 생성
개별 예측기의 출력을 하나의 미래 예측으로 결합하는 과정은 의사결정 집계 함수 $w : \mathcal{O} \to [0, 1]$을 통해 이루어진다. 이 함수는 $\int w(u)\,du = 1$을 만족하며, 각 시점 $u$에서의 예측기에 부여되는 가중치를 결정한다. 미래 시점 $t$에서의 집단적 예측은 $\mathbb{E}_{u \sim p(u)} X^\alpha_u(t)$로 표현되며, 여기서 $p(u) := w_\#[\text{Unif}(\mathcal{O})](u)$는 균일 분포의 가중 푸시포워드(push-forward) 측도이다.
이 집계 과정의 물리적 의미는, 각 과거 관측 시점의 정보가 미래 예측에 기여하는 정도를 적응적으로 조절한다는 것이다. 예를 들어, 최근 관측이 더 높은 가중치를 받아 미래 예측에 더 큰 영향을 미칠 수 있다. Figure 1(우측)에서 보듯이, 여러 예측기의 궤적이 가중 평균을 통해 단일 예측 궤적으로 수렴하는 과정이 이 집계의 결과이다.
5. 학습 알고리즘: 예측을 평균장 게임으로 재구성하기
5.1 비용 함수와 가치 함수: 예측 목표의 형식화
MFPs의 학습 목표는 예측기 연합의 집단적 출력이 실제 미래 궤적에 가능한 한 가깝도록 신경 에이전트 $\alpha$를 최적화하는 것이다. 이는 다음의 확률적 제어 문제(stochastic control problem)로 형식화된다:
$$V := \inf_{\alpha \in \mathcal{A}} \mathcal{J}(\nu^\alpha, \alpha) = \inf_{\alpha \in \mathcal{A}} \mathbb{E}_{\alpha, \nu, t}\!\left[\left\|\mathbb{E}_{u \sim p(u)} X^\alpha_u(t) - y_t\right\|_E^2 + G^\alpha\right]$$
비용 함수 $\mathcal{J}$는 두 성분으로 구성된다. 첫째, 실행 비용(running cost) $\|\mathbb{E}_u X^\alpha_u(t) - y_t\|^2$는 예측기 연합의 가중 평균 출력과 실제 목표 값의 차이를 측정한다. 여기서 기대값 $\mathbb{E}_{u \sim p(u)}$는 의사결정 집계 함수 $w : \mathcal{O} \to [0, 1]$ ($\int w(u)\,du = 1$)에 의한 가중 평균으로, 서로 다른 시점의 예측기 출력을 결합한다. 둘째, 종단 비용(terminal cost) $G^\alpha := G(X^\alpha_u(T), \nu^\alpha)$는 시간 $T$에서의 최종 상태에 대한 페널티이다.
가치 함수 $V$는 허용 가능한 모든 신경 에이전트 $\alpha \in \mathcal{A}$에 대한 비용 함수의 하한(infimum)으로 정의되며, 최적의 집단적 예측을 달성하는 에이전트 $\alpha^*$를 찾는 것이 궁극적 목표이다. 이 문제의 핵심적 어려움은 신경 에이전트 $\alpha$가 예측기 인구의 법칙(law) $\nu^\alpha$에 영향을 미치고, 이 법칙이 다시 그래폰 상호작용을 통해 개별 예측기의 동역학에 영향을 미치는 순환적 구조에 있다. 이것이 바로 평균장 게임의 전형적 구조이다.
5.2 순방향-역방향 PDE 시스템: 평균장 균형의 특성화
최적 신경 에이전트 $\alpha^*$에서, 가치 함수 $V$와 예측기 인구의 법칙 $\nu$는 결합된 편미분 방정식(PDE) 시스템에 의해 특성화된다. 이 시스템은 두 개의 방정식으로 구성된다:
Hamilton-Jacobi-Bellman(HJB) 방정식은 가치 함수 $V$의 시간적 진화를 기술한다:
$$\partial_t V(t, x) + \frac{\sigma_t^2}{2} \Delta V(t, x) + H(t, x, \partial_x V, \nu_u(t), \alpha^*) = 0$$
Fokker-Planck-Kolmogorov(FPK) 방정식은 예측기 인구의 확률 분포 $\nu$가 시간에 따라 어떻게 진화하는지를 기술한다:
$$\partial_t \nu^{\alpha^*}_u(t) - \frac{\sigma_t^2}{2} \Delta \nu^{\alpha^*}_u(t) + \nabla \cdot \Bigl[\bigl(b_W(x, \nu^{\alpha^*}_u(t), \alpha^*) + b(t, x, \alpha^*)\bigr) \nu^{\alpha^*}_u(t)\Bigr] = 0$$
여기서 확률적 해밀토니안은 $H(t, x_u, a, \nu, \alpha) := (b_W(x_u, \nu, \alpha) + b(t, x_u, \alpha)) \cdot a + \|\mathbb{E}_{u \sim p(u)} x_u - y_t\|^2$으로 정의된다. 평균장 균형(mean-field equilibrium)에서 이 두 방정식은 결합된다: HJB가 결정하는 최적 제어가 FPK를 통해 인구 분포를 변화시키고, 변화된 인구 분포가 다시 HJB의 해에 영향을 미치는 자기 일관적(self-consistent) 구조를 형성한다.
이 결합 시스템의 핵심 개념이 평균장 $\epsilon$-내쉬 균형(Mean-field $\epsilon$-Nash Equilibrium)이다. 측도의 연속 흐름 $\nu_u(\cdot)$가 $\epsilon$-균형이라 함은, 적절한 수치 상수 $\epsilon > 0$이 존재하여 모든 시점과 레이블에 대해 $\sup_{u,t} W_2^2(\nu_u(t), \text{Law}(X^{\alpha^*}_u(t))) \lesssim O(\epsilon)$이 성립한다는 것이다. 물리적으로 이는, 균형 상태에서 어떤 개별 예측기도 자신의 정책을 단독으로 변경함으로써 이득을 얻을 수 없다는 내쉬 균형의 정의에 부합한다.
그러나 이 PDE 시스템을 직접 풀기는 극도로 어렵다. 기존의 고정점 반복(fixed-point iteration)이나 가상 플레이 방법들은 선형 이차(linear-quadratic) 동역학에 국한되어 신경망과 같은 비선형 시스템에는 적용하기 어렵다. 또한 고차원 데이터 공간에서의 PDE 수치 해법은 차원의 저주(curse of dimensionality)로 인해 실질적으로 불가능하다. $d$차원 공간에서의 PDE 격자 해법은 $O(n^d)$의 계산량을 요구하며, $d = 27$(MIT 로봇 데이터)이나 $d = 41$(MIMIC-II)과 같은 차원에서는 완전히 비실용적이다. 이 문제를 해결하기 위해 논문은 확률적 표현(probabilistic representation)을 활용하여 PDE를 FBSDE로 변환하고, 이를 신경망으로 근사하는 전략을 취한다.
6. 경사 기반 FBSDE 시스템: 깊은 신경망으로 평균장 게임 풀기
본 논문의 가장 핵심적 기술적 기여는, 위에서 기술한 PDE 시스템을 근사적으로 풀기 위한 경사 기반 순방향-역방향 확률 미분 방정식(Gradient System of FBSDEs)을 제안하는 것이다. 가상 플레이(fictitious play)의 계산 알고리즘에서 영감을 받되, 경사 하강법을 결합하여 비선형 신경망 에이전트로의 확장을 가능하게 한다.
6.1 FBSDE 시스템의 구조
경사 시스템은 각 단계 $m$에서 세 가지 과정 $(X_u(t), Y_u(t), Z_u(t))$의 삼중항(triplet)을 해로 가진다. 순방향 SDE는 예측기의 상태를 시간 순방향으로 전파하며, FPK 방정식의 확률적 대응물이다:
$$dX^{m, \alpha_m}_u(t) = b_W\,dt + b^m\,dt + \sigma_t\,dW^u_t$$
역방향 SDE는 비용 정보를 시간 역방향으로 전파한다. 종단 조건 $Y_u(T) = G(X_T, \nu_T)$에서 출발하여 시간을 거슬러 올라가며, 확률적 해밀토니안 $H$의 음의 값을 드리프트로 가진다:
$$dY^{m, \alpha_m}_u(t) = -H^m\,dt - Z^m_t \cdot dW^u_t$$
역방향 동역학 $Y_u(t)$는 비용 함수 $\mathcal{J}$와 동일시되며, 이는 HJB 방정식의 확률적 대응물이다. 보조 과정 $Z_t$는 가치 함수의 공간적 그래디언트와 관련되며, $Z_t = (\partial_x \mathcal{J}) \sigma_t^{-1}$으로 해석된다.
핵심적인 신경 에이전트 업데이트 규칙은 다음과 같다:
$$\alpha_{m+1} := \alpha\!\left(t, X^{m, \alpha_m}_u;\; \theta_m - \mathbb{E}_{Y, t \le T}\!\left[\gamma_m \nabla_\theta Y^{m, \alpha_m}_u(t)\right]\right)$$
즉, $(m+1)$번째 단계의 신경 에이전트는 역방향 동역학 $Y$의 파라미터에 대한 그래디언트 방향으로 업데이트된다. 역방향 과정이 비용 함수와 동일시되므로, 이는 비용을 최소화하는 방향으로의 경사 하강에 해당하며, 인구 측도는 이전 단계의 최적 예측기 법칙으로 갱신된다: $\nu_u = \text{Law}(X^{m-1, \alpha^*_{m-1}}_u)$.
6.2 두 단계 반복 알고리즘
Figure 3에 도시된 바와 같이, 알고리즘은 총 $M$ 단계에 걸쳐 두 단계를 반복한다:

Figure 3: 경사 기반 FBSDE 시스템의 알고리즘 설명. 순방향-역방향 확률 미분 방정식을 통해 내쉬 균형을 근사한다.
단계 (A) 정보 전파(Information Propagation): 이전 단계의 인구 정보를 기반으로 순방향-역방향 SDE를 전파한다. 먼저 인구 측도를 $\nu_u \leftarrow \text{Law}(X^{m-1, \alpha^*_{m-1}}_u)$로 갱신하고, 이 인구 하에서 순방향 동역학 $X^m_u$과 역방향 동역학 $Y^m_u$를 동시에 전파한다. 역방향 동역학은 종단 상태 $Y_u(T) = G$에서 시작하여 시간을 거슬러 진행하고, 순방향 동역학은 초기 상태에서 시작하여 순방향으로 진행한다.
단계 (B) 제어 프로파일 갱신(Update Control Profiles): 역방향 동역학 $Y^m_u$의 값을 최소화하는 방향으로 신경 에이전트의 파라미터 $\theta_m$을 갱신한다. 역방향 동역학이 비용 함수 $\mathcal{J}$와 동일시되므로, 이는 예측기 연합의 집단적 예측 오차를 줄이는 방향으로의 학습에 해당한다.
이 두 단계의 반복은 수학적으로 두 연산자의 합성으로 표현된다. 사영 연산자(Projector) $\Phi$는 주어진 에이전트 하에서 상태 법칙을 전파하고, 갱신 연산자(Updater) $\Psi$는 주어진 인구 하에서 최적 에이전트를 구한다:
$$\Phi(\nu^{\alpha_m}) := \left\{\text{Law}(X^{\alpha_m}_u(t))\big|_{\nu = \nu_{\alpha^*_{m-1}}};\; t \in \mathcal{T},\, u \in \mathcal{O}\right\}$$ $$\Psi(\nu^{\alpha_{m-1}}) := \left\{\nu^{\alpha_m} = \alpha^*_{m-1};\; V = \mathcal{J}(\nu^{\alpha^*_{m-1}}, \alpha^*_{m-1})\right\}$$
합성 $\Phi \circ \Psi$의 $m$-fold 적용이 인구를 수렴시키는 것이 핵심 이론적 결과이다.
6.3 확률적 최적성 보장
논문은 제안된 경사 시스템의 최적성에 대해 엄밀한 이론적 보장을 제공한다. Proposition A.4는 적절히 구성된 허용 제어 집합 $\mathcal{A}$ 내에서, 비용 함수의 Gâteaux 도함수 $D_\alpha \mathcal{J}$가 0으로 수렴함을 증명한다. 이는 Pontryagin 확률적 최대 원리(stochastic maximum principle)의 의미에서의 최적성으로, 해밀토니안 시스템의 최소화를 보장한다:
$$\lim_{m \to \infty} H(\cdot, \alpha_m) \approx \inf_{\alpha \in \mathcal{A}} H(\cdot, \alpha), \quad V \approx Y^\infty_u(0) = \mathcal{J}(\nu^{\alpha_\infty}, \alpha_\infty)$$
증명의 핵심 아이디어는 두 단계로 구성된다. 첫째, Gâteaux 도함수를 명시적으로 계산하여, 이것이 해밀토니안의 제어에 대한 편미분과 에이전트 업데이트 방향의 내적으로 상계됨을 보인다. 둘째, 제어 집합을 $L^1$ 공간의 메트릭 볼 $B_m := B(\alpha_{m-1}, r_m)$과, 학습률 조건을 만족하는 집합 $C_m$의 교집합으로 구성하여, 볼록성과 경사 하강의 수렴을 동시에 보장한다. 특히 메트릭 볼의 반경 $r_m = \varepsilon \cdot \gamma_{m-1} \cdot \text{Lip}_\alpha \cdot \delta_\theta Y^{m-1}$는 역방향 동역학의 그래디언트 노름에 비례하므로, 학습이 진행될수록 업데이트 반경이 줄어들어 수렴 행동이 보장된다.
6.4 평균장 균형으로의 수렴
최적성 보장을 넘어, Proposition 3.5는 제안된 경사 시스템이 Wasserstein 메트릭에서 수렴함을 증명한다. 핵심 결과는 다음과 같다:
$$W_2^2\!\left([\Phi \circ \Psi]^{\circ m}(\nu^{\alpha_1}),\; [\Phi \circ \Psi]^{\circ m}(\nu^{\alpha_0})\right) \le \sup_t \|\nabla_\theta Y^m\|_E \cdot O(\gamma_m, C) := \epsilon_m \xrightarrow{m \to \infty} 0$$
이 부등식에서 $C(T)$는 드리프트 함수의 Lipschitz 상수 $\text{Lip}_b$, 초기 분포의 이차 모멘트 $m_2$, 관측 구간 $|\mathcal{O}|$, 그래폰의 컷 노름 $h(\alpha)$, 그래폰의 Lipschitz 상수 $\text{Lip}_W$, 그리고 상호작용 함수의 스펙트럼 노름 $H_\psi$ 등에 의존하는 수치 상수이다. 증명은 Grönwall 부등식과 Burkholder-Davis-Gundy 부등식을 핵심 도구로 활용하며, 그래폰 상호작용 항의 Lipschitz 추정(I, II, III, IV 네 항의 분리 분석)과 컷 거리의 제어를 거쳐 최종 결과에 도달한다.
이 결과는 두 가지 이론적 함의를 가진다. 첫째, 합성 연산자 $\{\Phi \circ \Psi\}^{\circ m}$이 측도 공간 $\mathcal{M}$ 위의 코시 열(Cauchy sequence)을 형성하여, 분포적 의미에서의 수렴을 보장한다. 인구 측도 간의 Wasserstein 거리가 역방향 동역학의 그래디언트 노름에 의해 제어되며, 이 노름은 학습이 진행될수록 감소한다. 둘째, 상계 $\epsilon_m$은 평균장 내쉬 $\epsilon_m$-균형의 마진에 해당하며, 신경 에이전트의 용량이 클수록(메트릭 볼의 반경 $r_m$이 작을수록) 더 타이트한 상계를 얻을 수 있다.
7. 샘플링 및 이론적 분석: 유한에서 무한으로
7.1 그래폰 평균장 오일러-마루야마 샘플링
무한 차원의 평균장 시스템을 실제로 구현하기 위해서는, 유한 수의 예측기를 샘플링하고 시간을 이산화해야 한다. 논문은 McKean-Vlasov 형 SDE를 위한 오일러-마루야마(Euler-Maruyama) 접근법에 영감을 받아, 그래폰 상호작용 입자 시스템에 맞춤화된 샘플링 알고리즘을 제안한다. 핵심 업데이트 규칙은 다음과 같다:
$$X^n_i(t + \Delta t) = X^n_i(t) + \frac{1}{n}\sum_j W_{ij}\,\psi_{ij}\,\Delta t + b(t, X^n_i, \alpha_i)\,\Delta t + \mathcal{N}(0, \sigma_t \Delta t \cdot I_d)$$
미래 예측 구간 $\mathcal{T} \setminus \mathcal{O}$에서는 집계 함수 $\Lambda_t = \sum_i w(U, \lceil n u_i \rceil / n) \cdot X^{n, \alpha_i}_i(t)$가 $\mathbb{E}_{u \sim p(u)} X^\alpha_u(t)$를 근사한다. 계산 효율성을 위해 모든 예측기를 독립적으로 병렬 전방 평가할 수 있다는 점을 활용하여, 공유 메모리에 모든 예측기의 현재 상태를 저장하고 병렬로 한 스텝씩 진행한다. 이를 통해 순방향 평가의 반복 횟수를 $O(SN)$에서 $O(S)$로 줄인다($S$: 시간 스텝 수, $N$: 샘플링된 관측 수).
7.2 샘플 복잡도 경계
유한 수의 예측기가 무한 차원의 평균장 극한을 얼마나 잘 근사하는가라는 질문은 실용적으로 매우 중요하다. 논문의 Proposition 4.1은 이에 대한 정밀한 이론적 답을 제공한다. 샘플링된 경험적 측도 $\nu^N_t = (1/N)\sum_i \delta_{X^n_i(t)}$와 평균장 극한 $\hat{\mu}_t = \mathbb{E}_{u \sim p(u)}[\nu_u(t)]$ 사이의 2-Wasserstein 거리에 대한 확률적 상계는 다음과 같다:
$$\sup_{t \in \mathcal{T}} P\!\left(W_2^2(\nu^N_t, \hat{\mu}_t) \ge \epsilon\right) \le A \cdot (B + C + D)$$
여기서 각 항은:
$$B := \frac{e^{-N\epsilon^2 / 4c}}{\epsilon^2}, \quad C := \frac{1}{724\epsilon\sqrt{N}}, \quad D := \frac{e^{-N\epsilon}}{N}\!\left(1 - \frac{128\omega\,h(\alpha)}{N}\right)^{-d/8}$$
이 부등식에서 $N$은 샘플 수, $d$는 데이터 차원, $h(\alpha) = \|W_\alpha\|_g$는 그래폰의 컷 노름이다. 상계는 세 항으로 구성되며, $B$와 $D$는 $N$에 대해 지수적으로 감소하고, $C$는 다항적으로 감소한다. 이 세 항 모두 $N$이 증가함에 따라 짧은 꼬리 집중(short-tailed concentration)을 보여준다. 특히 $D$ 항에 나타나는 그래폰 컷 노름 $h(\alpha)$는, 그래폰의 구조가 샘플 복잡도에 직접 영향을 미침을 보여주는 흥미로운 연결이다.
7.3 카오스의 전파
이론적 분석의 최종 귀결은 카오스의 전파(propagation of chaos) 성질이다. 이는 평균장 이론의 핵심 결과로, 유한 입자 시스템에서 개별 입자들이 $N$이 무한대로 갈 때 점근적으로 독립이 됨을 의미한다. MFPs의 맥락에서, 이는 충분히 많은 예측기가 샘플링되면 개별 예측기의 궤적이 점근적으로 독립이 되며, 각각이 독립적으로 평균장 극한의 SDE를 따르게 된다는 것이다:
$$\sup_{t \in \mathcal{T}} \lim_{k \to \infty} W_2^2\!\left(\text{Law}(X^n_{i_1}, \ldots, X^n_{i_k}),\; \bigotimes_{j=1}^{k} \nu_{j/n}(t)\right) \le \Omega(N, k) \to 0$$
이 결과는 다음과 같은 직관을 뒷받침한다: 내쉬 균형을 만족하는 합리적 개체(rational individuals)들이 부분 정보(partial information)에 조건화되어 연합(coalition)을 형성하고, 연합 크기가 증가할수록 집단적 의사결정이 점진적으로 정밀하고 신뢰할 수 있게 된다. 이는 "집단 지성"의 수학적 정당화이며, 콘도르세 배심원 정리(Condorcet jury theorem)의 연속 시간·연속 공간 버전으로 해석할 수 있다.
8. 실험 결과: 네 가지 도메인에서의 검증
8.1 모델 아키텍처 및 하이퍼파라미터 상세
MFPs의 신경망 아키텍처에서, 각 순방향 스텝에서 신경망은 현재 상태 $X_u(t)$, 시간 $t$, 레이블 $u$를 입력으로 받아 드리프트 $b(\cdot, \alpha)$, 그래폰 가중치 $W(\alpha)$, 집계 가중치 $w$를 출력한다. $X_u(t)$와 $t$가 연결(concatenate)되어 다층 퍼셉트론(MLP)을 통해 은닉 벡터로 투영되며, 스킵 연결이 포함된 여러 MLP 계층으로 구성된 계산 블록을 통과한다. 레이블 정보 $u$의 처리에는 적응적 정규화(adaptive normalization)(Peebles & Xie, 2023)가 사용된다. 정규화 계층의 스케일과 시프트 파라미터를 고정값 대신 $u$에 기반하여 회귀(regress)하는 방식으로, DiT(Diffusion Transformer)에서의 클래스 조건화 기법과 동일하다. 전체적으로 약 100만 개의 파라미터를 사용한다.
아래 표는 주요 하이퍼파라미터 설정을 데이터셋별로 정리한 것이다.
| 하이퍼파라미터 | MIT Humanoid | MIMIC-II | Beijing Air Quality | EigenWorm |
|---|---|---|---|---|
| 은닉 차원 | 128 | 128 | 64 | 128 |
| MLP 계층 수 | 4 | 4 | 3 | 4 |
| 학습률 $\gamma$ | $1 \times 10^{-3}$ | $5 \times 10^{-4}$ | $1 \times 10^{-3}$ | $5 \times 10^{-4}$ |
| 예측기 수 $N$ | 16 | 16 | 8 | 16 |
| FBSDE 단계 $M$ | 5 | 5 | 3 | 5 |
| 확산 계수 $\sigma$ | 0.1 | 0.05 | 0.1 | 0.1 |
| EM 시간 스텝 수 $S$ | 100 | 100 | 50 | 200 |
| Fourier 모드 수 $L$ (Cos. only) | 3 | 3 | 3 | 5 |
| 총 파라미터 수 (approx.) | ~1.05M | ~1.12M | ~0.52M | ~1.05M |
| Optimizer | AdamW | AdamW | AdamW | AdamW |
| Batch size | 64 | 64 | 32 | 64 |
| 에포크 수 | 300 | 200 | 200 | 500 |
8.2 주요 정량적 결과: 세 데이터셋 벤치마크
아래 표는 세 데이터셋에서의 주요 벤치마크 결과를 재구성한 것이다. 모든 수치는 $\times 10^{-2}$ 단위이며, 5회 독립 실행의 평균 ± 표준편차로 보고된다. 굵은 글씨는 각 지표에서의 최고 성능을, 밑줄은 2위 성능을 나타낸다.
| 모델 | MIT Humanoid | MIMIC-II | Beijing Air Quality | |||
|---|---|---|---|---|---|---|
| MSE ↓ | MAE ↓ | MSE ↓ | MAE ↓ | MSE ↓ | MAE ↓ | |
| Neural Laplace | 8.11 ± 0.42 | 18.30 ± 0.53 | 7.76 ± 0.31 | 19.06 ± 0.34 | 4.21 ± 0.19 | 13.57 ± 0.28 |
| MaSDEs | 6.22 ± 0.38 | 15.41 ± 0.49 | 8.89 ± 0.40 | 20.33 ± 0.47 | 3.94 ± 0.22 | 12.81 ± 0.31 |
| CRU | 6.88 ± 0.35 | 16.22 ± 0.41 | 8.15 ± 0.28 | 19.44 ± 0.35 | 4.08 ± 0.21 | 13.21 ± 0.27 |
| Latent SDE | 6.01 ± 0.32 | 15.05 ± 0.40 | 7.98 ± 0.25 | 19.17 ± 0.30 | 3.75 ± 0.18 | 12.40 ± 0.24 |
| Neural LSDE | 5.78 ± 0.30 | 14.55 ± 0.37 | 8.02 ± 0.29 | 19.28 ± 0.33 | 3.69 ± 0.17 | 12.22 ± 0.23 |
| CONTIME | 5.92 ± 0.31 | 14.88 ± 0.39 | 8.34 ± 0.36 | 19.72 ± 0.41 | 3.88 ± 0.20 | 12.65 ± 0.26 |
| Contiformer | 5.55 ± 0.28 | 14.21 ± 0.35 | 7.90 ± 0.27 | 18.95 ± 0.31 | 3.52 ± 0.16 | 11.88 ± 0.22 |
| S4 | 5.45 ± 0.27 | 14.05 ± 0.34 | 13.24 ± 0.55 | 25.10 ± 0.62 | 3.44 ± 0.15 | 11.72 ± 0.21 |
| Mamba | 5.21 ± 0.25 | 13.32 ± 0.33 | 13.23 ± 0.52 | 24.98 ± 0.58 | 3.38 ± 0.14 | 11.45 ± 0.20 |
| Jamba | 5.13 ± 0.24 | 13.20 ± 0.31 | 12.88 ± 0.50 | 24.55 ± 0.55 | 3.25 ± 0.13 | 11.18 ± 0.19 |
| MFPs (Cosin.) | 3.91 ± 0.22 | 11.85 ± 0.30 | 7.51 ± 0.23 | 18.44 ± 0.28 | 3.12 ± 0.14 | 10.55 ± 0.19 |
| MFPs (Exp.) | 3.31 ± 0.19 | 10.12 ± 0.27 | 7.51 ± 0.22 | 18.41 ± 0.27 | 2.98 ± 0.12 | 10.06 ± 0.17 |
MIT 휴머노이드 로봇에서 MFPs(Exp.)는 MSE 3.31, MAE 10.12를 달성하여, 2위인 Jamba(MSE 5.13)와 대비 35.5%의 MSE 개선과 Mamba(MAE 13.32) 대비 24.0%의 MAE 개선을 보인다. 기존 Neural DE 모델들(Latent SDE: MSE 6.01, Neural Laplace: MSE 8.11)은 복잡한 시공간 동역학 처리에 어려움을 겪는 반면, 상태 공간 모델들(Mamba: 5.21, Jamba: 5.13)은 상대적으로 나은 성능을 보이지만 MFPs에는 미치지 못한다. 27차원의 로봇 관절 궤적 데이터에서 MFPs가 이처럼 큰 폭의 개선을 보이는 것은, 시간적 감쇄를 인코딩하는 지수 그래폰이 다관절 역학의 시간적 상관 구조를 정확히 포착하고 있음을 시사한다.
MIMIC-II에서는 MFPs(Exp.)와 MFPs(Cosin.) 모두 MSE 7.51을 달성하며, Neural Laplace(7.76)와 Contiformer(7.90)를 소폭 상회한다. 비규칙 샘플링과 결측치가 많은 의료 데이터에서 기존 Neural DE 모델들도 경쟁력을 보이기 때문에 성능 격차가 상대적으로 작다. 반면 S4(13.24)와 Mamba(13.23)는 비규칙 시계열 처리에 약점을 드러낸다. 이는 상태 공간 모델이 이산 시간 프레임워크에서 설계되었기 때문에, 관측 간격이 불균일한 ICU 데이터에서 시간적 구조를 효과적으로 포착하지 못한다는 근본적 한계를 보여준다.
베이징 대기질에서 MFPs(Exp.)는 MSE 2.98, MAE 10.06으로 최고 성능을 달성한다. 대기 오염 데이터의 일주기적(diurnal) 패턴과 시간적 감쇄 특성을 지수 그래폰이 특히 잘 포착하는 것으로 보인다. Jamba(MSE 3.25) 대비 8.3%의 개선을 보이며, 특히 MAE에서 10.06 대 11.18로 10.0%의 개선이 관찰된다.
지수 그래폰(Exp.)과 코사인 그래폰(Cosin.)의 상대적 성능 차이도 주목할 만하다. MIT 로봇 데이터에서 지수 그래폰(MSE 3.31)이 코사인 그래폰(MSE 3.91)보다 약 15% 우수한데, 이는 로봇 궤적의 시간적 연관성이 주기적 패턴보다 시간적 감쇄에 의해 더 잘 특성화됨을 시사한다. 반면 MIMIC-II에서는 두 그래폰이 동일한 MSE(7.51)를 달성하여, 의료 시계열의 복잡한 시간적 구조가 양쪽 귀납적 편향의 기여를 고르게 필요로 함을 보여준다.
8.3 장기 예측 능력: EigenWorm 벤치마크
길이 1500의 EigenWorm 데이터셋은 장기 예측 능력을 평가하는 가장 도전적인 벤치마크이다. 아래 표는 이 데이터셋에서의 상세 결과를 보여준다.
| 모델 | MSE ↓ | MAE ↓ | vs. MFP(Exp.) MSE 개선 |
|---|---|---|---|
| Neural Laplace | 18.45 ± 0.44 | 32.88 ± 0.51 | -32.1% |
| Latent SDE | 16.22 ± 0.38 | 30.15 ± 0.45 | -22.8% |
| Contiformer | 14.88 ± 0.30 | 28.75 ± 0.39 | -15.9% |
| S4 | 14.16 ± 0.25 | 27.82 ± 0.35 | -11.6% |
| Mamba | 15.79 ± 0.28 | 29.44 ± 0.38 | -20.7% |
| Jamba | 17.63 ± 0.35 | 31.22 ± 0.44 | -29.0% |
| MFPs (Cosin.) | 13.05 ± 0.20 | 27.10 ± 0.31 | -4.1% |
| MFPs (Exp.) | 12.52 ± 0.16 | 26.61 ± 0.29 | — |
MFPs(Exp.)는 MSE $12.52 \pm 0.16$, MAE $26.61 \pm 0.29$를 달성하여, 장기 시퀀스에 특화된 S4(MSE 14.16) 대비 11.6%의 MSE 개선을 보이며, 표준 편차도 0.16으로 가장 작아 안정적인 예측을 제공한다. Mamba(15.79)와 Jamba(17.63)는 장기 의존성 포착에서 기대만큼의 성능을 보이지 못하는데, 이는 이산 시간 프레임워크의 한계와 비규칙 시간 구조에 대한 적응성 부족에 기인하는 것으로 분석된다. Figure 5의 정성적 결과에서도 MFPs(Exp.)의 예측이 실제 궤적을 가장 밀착하여 추적하며, 특히 급격한 방향 전환이나 미세한 진동 패턴에서 두드러진 추적 정확도를 보인다.
EigenWorm에서 특히 흥미로운 점은 코사인 그래폰(MSE 13.05)이 지수 그래폰(MSE 12.52)에 근접하지만 약간 열위라는 것이다. 선충의 운동 패턴은 본질적으로 주기적 성분을 포함하므로 코사인 그래폰이 유리할 것으로 예상되지만, 실제로는 지수적 시간 감쇄가 주기적 패턴보다 예측에 더 유용한 정보를 제공하는 것으로 보인다. 이는 주기성이 완전한 반복이 아닌 점진적으로 변조되는(modulated) 패턴을 가지기 때문일 수 있다.
8.4 샘플 복잡도 실험적 검증
이론적 결과(Proposition 4.1)의 실험적 검증을 위해, 샘플링된 예측기 수 $N$을 1에서 16까지 변화시키며 예측 정확도를 관찰한다. Figure 4(좌)에서 $N$이 증가할수록 MSE와 MAE 모두 단조 감소하며, 이는 카오스의 전파 성질과 일치한다. $N = 1$에서 $N = 16$으로 증가 시 MSE가 약 4.5에서 3.9로 약 13% 감소하고, MAE도 약 1.30에서 1.15로 약 12% 감소한다. 그러나 $N$이 증가할수록 한계 개선(marginal improvement)이 감소하는 수확 체감의 패턴이 관찰되며, 이는 추론 시 계산 비용과의 균형을 시사한다.

Figure 4: 절삭 연구 결과. (좌) 샘플 복잡도에 대한 민감도 분석, (우) 하이퍼파라미터 변화에 따른 성능 변화.
8.5 노이즈 강건성
Figure 4(우측)의 노이즈 강건성 분석은 MFPs의 가장 인상적인 특성 중 하나를 보여준다. 과거 관측에 분산 $\sigma_{\text{noise}} = 0.3$의 가우시안 노이즈를 주입하여 테스트 분포 이동(distributional shift)을 생성하고, 손상된 관측 수를 0에서 80까지 증가시키며 성능 저하를 측정한다. MFPs(Exp.)는 노이즈 개입이 80까지 증가해도 거의 평탄한 성능 저하를 보이는 반면, Mamba는 급격한 정확도 하락을 겪는다.

Figure 5: 정성적 예측 결과. (좌) MIT 휴머노이드 로봇 데이터셋, (우) EigenWorm 데이터셋에서의 예측 시각화.
이 강건성의 메커니즘은 평균장 프레임워크의 본질적 특성에서 비롯된다. 깨끗한 원래 시퀀스 $p(u, y)$에서 학습된 예측기 연합은, 노이즈가 주입된 일부 개체 $\hat{p}(u, y) = p(u, y) \circledast \mathcal{N}(0, \sigma_{\text{noise}} I)$의 영향을 집단적으로 중화(neutralize)한다. 연합 내의 다수의 정상 예측기가 소수의 노이즈 조건화된 예측기의 편향을 상쇄하여, 내쉬 균형이 보존된다. 이는 앙상블 방법의 강건성 원리와 유사하지만, 평균장 게임의 이론적 프레임워크 내에서 자연스럽게 발현된다는 점이 차별적이다.
8.6 절삭 연구(Ablation Study) 요약
논문은 다양한 절삭 연구를 통해 MFPs의 각 구성 요소의 기여를 분석한다. 아래 표는 EigenWorm 데이터셋에서의 주요 절삭 실험 결과를 정리한 것이다.
| 변형 | MSE ↓ | MAE ↓ | 설명 |
|---|---|---|---|
| MFP (Full, Exp.) | 12.52 | 26.61 | 전체 모델 (지수 그래폰) |
| w/o Graphon | 15.88 | 30.14 | 그래폰 상호작용 제거 ($W = 0$) |
| w/o MF aggregation | 14.35 | 28.72 | 평균장 집계 대신 단일 예측기 |
| w/o Adaptive Norm. | 13.41 | 27.55 | 적응적 정규화 → 표준 정규화 |
| $N = 1$ (단일 예측기) | 17.22 | 31.88 | 예측기 1개만 사용 |
| $N = 4$ | 14.10 | 28.25 | 예측기 4개 |
| $N = 8$ | 13.15 | 27.30 | 예측기 8개 |
| Uniform $W$ (상수 그래폰) | 14.77 | 29.05 | $W(u,v) = c$ 상수 |
절삭 연구에서 가장 큰 성능 저하를 유발하는 것은 그래폰 상호작용의 제거(MSE 12.52 → 15.88, +26.8%)로, 이는 그래폰을 통한 예측기 간 상호작용이 MFPs의 성능에 핵심적으로 기여함을 보여준다. 다음으로 평균장 집계의 제거(MSE 14.35)도 상당한 성능 저하를 유발하며, 이는 다중 예측기의 집단적 의사결정이 단일 예측기보다 본질적으로 우수함을 확인한다. 상수 그래폰(MSE 14.77)과 지수 그래폰(MSE 12.52)의 비교는 구조화된 귀납적 편향의 중요성을 명확히 보여준다 — 단순히 예측기 간 상호작용을 허용하는 것만으로는 불충분하며, 적절한 시간적 구조를 가진 상호작용이 핵심이다.
예측기 수 $N$에 따른 결과($N = 1$: 17.22 → $N = 4$: 14.10 → $N = 8$: 13.15 → $N = 16$: 12.52)는 카오스의 전파 이론과 일치하는 단조 감소 패턴을 보여주지만, $N = 8$에서 $N = 16$으로의 개선(4.8%)이 $N = 1$에서 $N = 4$로의 개선(18.1%)보다 훨씬 작아, 수확 체감(diminishing returns)의 경향이 명확하다. 실무적으로 $N = 8 \sim 16$ 범위가 성능과 계산 비용의 적절한 균형점으로 판단된다.
9. 비평적 분석 및 논의
9.1 강점
첫째, 이론적 깊이와 실험적 성능의 양립. 이 논문의 가장 두드러진 강점은 엄밀한 수학적 이론과 실용적 성능이 동시에 달성된다는 점이다. 단순히 "게임 이론을 시계열에 적용했다"는 수준이 아니라, 확률적 최적성(Proposition A.4), 분포적 수렴(Proposition 3.5), 샘플 복잡도(Proposition 4.1)에 대한 정밀한 이론적 경계를 제공하며, 이들이 실험적으로도 검증된다. 이론과 실험의 이러한 정합성은 프레임워크의 근본적 건전성을 강력히 지지한다.
둘째, 그래폰을 통한 귀납적 편향의 원칙적 통합. 시계열의 귀납적 편향(시간적 감쇄, 주기성)을 그래폰 구조를 통해 데이터 공간에서 직접 인코딩하는 설계는 매우 우아하다. 기존 방법들이 잠재 공간에서의 암묵적 학습에 의존하는 반면, 이 접근은 편향의 형태를 명시적으로 지정하면서도 신경망으로 그 강도를 학습하는 균형 잡힌 설계를 제공한다. 이는 물리 정보 학습(physics-informed learning)의 정신과 일맥상통한다.
셋째, 노이즈 강건성의 자연스러운 발현. 평균장 프레임워크의 집단적 의사결정 구조가 노이즈에 대한 본질적 강건성을 제공하는 것은 매우 매력적인 특성이다. 이는 별도의 정규화나 데이터 증강 없이도 분포 이동에 대한 자연적 방어 메커니즘을 제공하며, 실세계 응용에서의 신뢰성을 높인다.
넷째, 수학적 엄밀성과 접근 가능한 서술의 균형. 32페이지에 달하는 부록에서 제공되는 증명들(Proposition A.4의 Gâteaux 도함수 계산, Proposition 3.5의 연산자 합성 안정성, Proposition 4.1의 집중 부등식)은 기술적으로 견실하며, Bolley et al.(2007)의 측도 집중, Carmona & Delarue(2013)의 확률적 MFG 분석, Bayraktar et al.(2023)의 그래폰 MFG 분석 등 관련 분야의 최신 결과를 적절히 활용한다. 동시에 본문에서는 핵심 직관과 알고리즘적 의미를 명확하게 전달하여, 이론적 깊이와 실용적 이해 사이의 균형을 잘 유지한다.
9.2 한계 및 향후 연구 방향
첫째, 계산 복잡도의 실질적 평가 부재. 논문은 병렬 계산 기법을 통해 순방향 평가의 반복 횟수를 $O(SN)$에서 $O(S)$로 줄인다고 언급하지만, 실제 훈련 시간과 추론 시간에 대한 정량적 비교가 부족하다. 벤치마크 대비 얼마나 많은 계산 자원이 필요한지, 특히 FBSDE의 순방향-역방향 전파에 수반되는 추가 비용이 어떠한지에 대한 구체적 수치가 제공되지 않는다. 실용적 관점에서 이는 중요한 누락이다.
둘째, 그래폰 구조 선택의 자동화 부재. 지수 그래폰과 코사인 그래폰이라는 두 가지 사전 정의된 구조를 제공하지만, 주어진 데이터에 어떤 그래폰이 적합한지를 자동으로 결정하는 메커니즘은 없다. Table 4에서 데이터셋에 따라 두 그래폰의 상대적 성능이 다르며(MIT 로봇에서는 Exp.가 우세, MIMIC-II에서는 동등), 이 선택이 실무자에게 추가적 하이퍼파라미터 부담으로 작용할 수 있다. 그래폰 구조의 자동 탐색이나 여러 그래폰의 적응적 결합(adaptive mixture)은 흥미로운 확장 방향이다.
셋째, 데이터셋의 규모와 다양성. 실험에 사용된 4개 데이터셋은 비교적 소-중규모이며, 대규모 산업 시계열 데이터(수백만 개 시점, 수천 개 특성)에서의 확장성은 검증되지 않았다. 특히 시공간 차원이 매우 큰 경우에 그래폰 상호작용의 계산이 어떻게 확장되는지에 대한 분석이 필요하다.
넷째, 예측기 수 $N$의 선택 가이드라인 부재. 샘플 복잡도 경계가 $N$에 대한 이론적 관계를 제공하지만, 주어진 정확도 목표에 대해 실무적으로 최적의 $N$을 결정하는 구체적 가이드라인은 부족하다. Figure 4의 결과는 $N = 16$에서도 여전히 개선의 여지가 있음을 보여주지만, 추론 비용 대비 성능 향상의 파레토 최적점에 대한 분석은 제공되지 않는다.
다섯째, 이론적 가정의 실무적 적용 가능성. 수렴 보장과 샘플 복잡도 경계는 Lipschitz 연속성, 소산성(dissipativity), 이차 모멘트의 유계성 등 여러 기술적 가정에 의존한다. 실제 신경망과 데이터가 이러한 가정을 엄밀히 만족하는지에 대한 논의가 추가되면 이론적 결과의 실무적 관련성이 더욱 명확해질 것이다.
여섯째, 다른 그래폰 구조의 탐색. 지수와 코사인 이외에도, 시계열 데이터에 적합한 그래폰 구조는 다양하게 고안될 수 있다. 예를 들어, 다중 스케일 감쇄(multi-scale decay), 인과적 비대칭(causal asymmetry, 과거에서 미래로의 영향이 그 역보다 강한 구조), 또는 학습 가능한 비모수적(non-parametric) 그래폰 등이 탐색 대상이 될 수 있다. 특히 비대칭 그래폰은 시간의 방향성(arrow of time)을 명시적으로 인코딩하여, 인과적 시계열 모델링에 더 적합할 수 있다. 현재의 대칭 그래폰($W(u, v) = W(v, u)$)은 수학적 편의를 위한 것이지만, 비대칭 확장의 이론적 기초도 잘 확립되어 있다.
일곱째, 다변량 시계열에서의 특성 간 상호작용. 현재 프레임워크에서 그래폰은 시간적 차원($u, v$)에서의 상호작용만을 인코딩한다. 다변량 시계열에서 특성 간의 상호작용(예: 로봇의 왼팔과 오른다리 간의 좌표 역학)도 그래폰 구조로 모델링할 수 있다면, 시간적-공간적 상호작용의 이중 그래폰(dual graphon) 프레임워크로 확장될 수 있을 것이다.
9.3 더 넓은 관점: 왜 이 연구가 중요한가
이 논문의 더 넓은 의의는, 기존에 독립적으로 발전해 온 여러 수학적 분야 — 확률적 최적 제어, 평균장 게임 이론, 그래프 극한 이론(그래폰) — 를 기계 학습의 실용적 문제에 유기적으로 통합한다는 점이다. 평균장 게임은 전통적으로 경제학과 금융에서 주로 연구되었으며, 그래폰은 조합론과 확률론의 교차 영역에서 발전해 왔다. 이들을 신경 미분 방정식과 결합하여 시계열 예측이라는 구체적 응용에 적용한 것은, 학제간 융합 연구의 모범적 사례를 제시한다.
또한 "예측기의 집단(coalition)이 개별 예측기보다 우수하다"는 결과는 앙상블 학습의 이론적 기초를 새로운 관점에서 조명한다. 기존 앙상블 방법에서 개별 모델은 독립적으로 학습된 후 사후에 결합되는 반면, MFPs에서 예측기들은 학습 과정 자체에서 평균장 상호작용을 통해 상호 조율(coordinate)된다. 이러한 "게임 이론적 앙상블"의 개념은 향후 다양한 예측 문제에 영향을 미칠 잠재력이 있다.
확률적 최적 제어와 평균장 게임 이론의 깊은 결과들(Pontryagin 최대 원리, FBSDE, 카오스의 전파 등)을 신경망 학습에 접목하는 방법론적 기여도 주목할 만하다. 기존의 MFG 수치 해법들이 선형 이차 동역학에 국한되었던 것과 달리, 본 논문의 경사 기반 FBSDE 시스템은 비선형 신경망으로의 확장을 가능하게 하며, 이는 MFG의 계산적 접근성을 크게 높인다.
Proposition A.5는 신경 에이전트의 최악 추정 오차(worst-case estimation error)에 대한 상계도 제공하며, 이는 실무적으로 유한 샘플에서의 학습 안정성을 보장한다. 경험적 측도 $Q_n := (1/n)\sum_i \delta_{X^\alpha_{u_i}(t)}$와 평균장 극한 $Q := \nu_u(t)$ 사이의 신경 에이전트 추정 오차는 확률 $1 - \delta$ 이상에서 다음과 같이 제어된다:
$$\mathbb{E}\left[\sup_{\alpha_m \in \mathcal{A}} \left|\int \alpha_m\,d(Q_n - Q)\right|^2\right] \le \frac{32T^3(1 + m_2)^2}{n}\ln\!\left(\frac{1}{\delta}\right) + 4\left(\frac{2^{(3d-2)/2}\left(\varepsilon\gamma_{m-1}\text{Lip}_\alpha\|\nabla_\theta Y^{m-1}_u(t)\|_E\right)^{d/2}(d+2)}{4(d-2)}\right)^{(d/2+2)^{-1}}$$
이 결과에서 두 번째 항은 허용 제어 집합 $\mathcal{A}$의 구성에 의해 $\|\nabla_\theta Y^{m-1}_u(t)\|_E$가 감소하므로, $m$이 커질수록 $n$이 작더라도 0에 수렴한다. 이는 학습 초기에는 큰 그래디언트로 인해 추정 오차가 클 수 있지만, 학습이 진행되면서 제어 집합이 축소되어 유한 샘플에서도 안정적인 추정이 가능해짐을 의미한다. 이러한 결과는 McDiarmid 부등식과 대칭화 부등식(symmetrization inequality)을 결합하여 도출되며, 적분 확률 메트릭(integral probability metric) 이론의 결과를 활용한다.
마지막으로, 이 연구는 시계열 예측 분야에서의 패러다임 전환의 가능성을 시사한다. 전통적으로 시계열 예측 모델은 하나의 모델이 전체 시퀀스를 처리하는 "단일 에이전트" 패러다임을 따랐다. RNN, Transformer, 상태 공간 모델 모두 이 범주에 속한다. MFPs는 이를 "다중 에이전트" 패러다임으로 전환하여, 각 과거 관측이 하나의 독립적 에이전트로서 미래 예측에 참여하는 구조를 제안한다. 이러한 관점의 전환은, 시계열 예측 문제를 사회적 의사결정(social decision-making) 문제로 재해석하는 것이며, 게임 이론의 풍부한 도구 상자를 시계열 분석에 활용할 수 있는 새로운 통로를 열어준다. 예를 들어, 비협력 게임(non-cooperative game), 메커니즘 설계(mechanism design), 경매 이론(auction theory) 등의 개념이 시계열 모델링에 적용될 가능성이 열리며, 이는 근본적으로 새로운 연구 프로그램으로 발전할 잠재력이 있다.
9.4 MFPs와 기존 앙상블 방법론의 비교
MFPs의 다중 예측기 프레임워크는 표면적으로 기존의 앙상블 학습(ensemble learning)과 유사해 보이지만, 근본적인 차이점이 존재한다. 전통적인 앙상블 방법인 배깅(bagging), 부스팅(boosting), 랜덤 포레스트(random forest) 등에서는 개별 모델이 독립적으로 학습된 후 사후에 결합된다. 이 때 모델 간의 다양성(diversity)은 데이터 서브샘플링이나 특성 서브셋 선택 등의 외생적 메커니즘에 의해 생성된다. 반면 MFPs에서는 예측기들이 학습 과정 자체에서 평균장 동역학을 통해 상호 조율되며, 다양성은 서로 다른 과거 관측 시점에 조건화됨으로써 내생적으로 발생한다. 이러한 차이는 이론적으로도 중대한 함의를 가진다. 앙상블의 분산 감소(variance reduction) 효과는 주로 중심 극한 정리에 기반하는 반면, MFPs의 성능 향상은 카오스의 전파와 내쉬 균형 수렴이라는 보다 풍부한 수학적 구조에 의해 설명된다.
실무적 관점에서도 중요한 차이가 있다. 앙상블 방법은 $K$개의 독립 모델을 학습해야 하므로 계산 비용이 $O(K)$배 증가하지만, MFPs는 하나의 공유된 신경 에이전트 $\alpha$가 모든 예측기의 동역학을 동시에 파라미터화하므로, 추가적 예측기 수에 비례하는 모델 파라미터 증가가 발생하지 않는다. $N$개의 예측기가 동일한 신경망 가중치를 공유하되 서로 다른 초기 조건과 레이블에 의해 다양한 궤적을 생성하는 이 구조는, 파라미터 효율성과 예측 다양성 사이의 매우 효과적인 균형을 달성한다.
더 나아가, MFPs의 내쉬 균형 기반 학습은 협력적 게임(cooperative game)의 관점에서도 해석될 수 있다. 모든 예측기가 공통의 비용 함수 $\mathcal{J}$를 최소화하므로, 이는 동일 목적 함수를 가진 에이전트들의 대칭적 게임이다. 이 설정에서 내쉬 균형은 사회적 최적(social optimum)과 일치하며, 이는 앙상블 이론에서의 최적 결합 가중치(optimal combination weights)와 대응된다. 그러나 MFPs에서는 이 최적 결합이 정적인 가중치가 아니라 시간에 따라 동적으로 진화하는 측도 흐름(measure flow)으로 표현된다는 점에서, 기존 앙상블 이론의 근본적 확장을 제공한다.
9.5 확장 가능성: 조건부 생성 모델링으로의 연결
MFPs의 프레임워크는 시퀀스 예측을 넘어 조건부 생성 모델링(conditional generative modeling)으로 자연스럽게 확장될 수 있다. 현재의 MFPs에서 미래 예측은 예측기 연합의 가중 평균으로 산출되지만, 개별 예측기의 궤적 분포 자체가 미래의 불확실성을 표현하는 풍부한 확률 모델이 된다. 확산 모델(diffusion models)과의 연결점도 주목할 만하다. Score-based SDE(Song et al., 2021)에서 데이터 분포를 noise로 변환하고 다시 역방향으로 복원하는 과정은, MFPs의 순방향-역방향 FBSDE 구조와 수학적으로 유사한 구조를 가진다. 실제로 평균장 Schrödinger 브릿지(mean-field Schrödinger bridge)와 MFPs의 연결은 Liu et al.(2022)의 연구와 직접적으로 관련되며, 시계열의 확률적 미래를 생성하는 조건부 확산 모델로의 확장이 가능하다. 이러한 확장은 단순한 점 예측(point prediction)을 넘어, 확률적 시나리오 생성(probabilistic scenario generation)이 중요한 금융 위험 관리, 기후 변동성 예측, 전력 수요 예측, 공급망 불확실성 정량화 등의 분야에서 특히 유용할 것이다.
또한 MFPs의 그래폰 구조는 그래프 신경망(GNN)과의 교차점에서도 흥미로운 확장을 제공한다. 시공간 그래프 네트워크(Spatio-Temporal Graph Networks)에서 노드 간의 상호작용을 인접 행렬로 정의하는 것은, MFPs에서 그래폰이 예측기 간 상호작용을 정의하는 것과 구조적으로 동형이다. 차이점은 MFPs의 그래폰이 연속적 인덱스 공간 $\mathcal{O}^2$ 위에서 정의되는 반면, 인접 행렬은 이산 노드 집합 위에서 정의된다는 것이다. 이 관찰은 MFPs를 시공간 그래프 예측(교통 흐름, 센서 네트워크 등)으로 확장할 수 있는 이론적 기반을 제공하며, 그래폰이 인접 행렬의 연속 극한으로서 대규모 그래프 시스템의 효율적 처리를 가능하게 한다.
9.6 실험적 관점에서의 추가 논의
MFPs의 실험적 성과를 더 깊이 분석하면, 몇 가지 흥미로운 패턴이 드러난다. 첫째, MFPs가 가장 큰 성능 우위를 보이는 데이터셋은 EigenWorm과 같은 장기 예측 과제인데, 이는 평균장 게임 구조가 장기 시간 의존성(long-range temporal dependencies)을 포착하는 데 특히 효과적임을 시사한다. 개별 예측기가 서로 다른 시간 스케일의 패턴을 담당하고, 그래폰을 통해 이를 통합함으로써, 단일 모델이 놓칠 수 있는 다중 스케일 동역학을 자연스럽게 포착할 수 있기 때문이다.
둘째, 노이즈 강건성 실험에서 MFPs가 보여주는 우위는 앙상블 효과의 이론적 기대와 일치한다. 무한히 많은 예측기의 평균은 개별 예측기의 분산을 효과적으로 감소시키며, 이는 통계학의 대수의 법칙(law of large numbers)과 직접적으로 연결된다. 카오스의 전파 성질이 보장하는 바와 같이, 예측기 수 $N$이 증가함에 따라 유한 예측기 시스템의 행동이 평균장 극한으로 수렴하므로, 충분히 큰 $N$에서는 노이즈에 대한 강건성이 이론적으로 보장된다. 이는 실용적 관점에서도 중요한데, 실세계 시계열 데이터는 센서 노이즈, 결측치, 이상치 등 다양한 형태의 불확실성을 포함하기 때문이다.
셋째, 절삭 연구(ablation study)의 결과는 MFPs의 각 구성 요소가 최종 성능에 기여하는 방식에 대한 통찰을 제공한다. 그래폰 구조를 제거하면 예측기 간 상호작용이 사라져 단순 앙상블과 동등해지며, 이 경우 성능이 유의미하게 하락한다는 점은 그래폰을 통한 구조화된 상호작용이 단순 평균화 이상의 가치를 제공함을 입증한다. 또한 FBSDE 시스템의 반복 횟수를 줄이면 내쉬 균형으로의 수렴이 불완전해져 성능이 저하되는데, 이는 게임 이론적 학습 프레임워크의 수렴 품질이 최종 예측 성능과 직접적으로 연결됨을 보여준다.
10. 결론
본 논문은 연속 시퀀스 예측 문제를 평균장 게임으로 재구성하여, 무한히 많은 예측기의 집단적 의사결정을 통해 미래를 예측하는 새로운 패러다임을 제시한다. 신경 그래폰을 통한 시계열 귀납적 편향의 원칙적 인코딩, 경사 기반 FBSDE를 통한 내쉬 균형의 효율적 근사, 그리고 카오스의 전파에 기반한 샘플 복잡도 분석은 모두 독자적으로도 의미 있는 기술적 기여이다. 이들이 하나의 일관된 프레임워크 내에서 유기적으로 결합되어, 4개 벤치마크에서 최신 모델들을 상회하는 실험적 성과를 달성한다는 점은 이 연구의 완성도를 보여준다.
향후 그래폰 구조의 자동 선택, 대규모 데이터로의 확장, 더 다양한 시계열 도메인(금융, 기후, 교통 등)에서의 검증이 이루어진다면, MFPs는 연속 시퀀스 예측의 새로운 표준으로 자리잡을 잠재력이 충분하다. 특히 평균장 게임 이론과 심층 학습의 교차점에서 열리는 풍부한 연구 공간은, 이 논문을 출발점으로 하여 활발히 탐구될 것으로 기대된다.
ICLR 2026에 게재된 이 논문은, 수학적 엄밀성과 실험적 우수성을 동시에 갖춘 드문 사례로서, 신경 미분 방정식 모델의 차세대 발전 방향을 제시한다. "예측은 개별 모델이 아닌 게임 이론적 균형을 이루는 집단에 의해 이루어져야 한다"는 이 논문의 철학은, 기계 학습에서의 집단 지성(collective intelligence) 연구에 새로운 이론적 기반을 제공한다. 연속 시간 시계열 예측이라는 구체적 문제를 넘어, 대규모 에이전트 시스템의 최적 제어라는 더 넓은 문제에 대한 방법론적 통찰을 제공하는 점에서, 이 연구의 영향력은 시계열 분석 커뮤니티를 넘어 확장될 것으로 전망된다.
종합적으로, 본 논문은 세 가지 차원에서 학술적 기여를 달성한다. 이론적 차원에서는 평균장 그래폰 SDE의 정식화, 경사 기반 FBSDE 시스템의 수렴 보장, 그리고 샘플 복잡도의 명시적 경계를 확립하였다. 방법론적 차원에서는 가상 플레이와 경사 하강법의 결합을 통해 비선형 평균장 게임을 효율적으로 풀 수 있는 실용적 알고리즘을 제안하였다. 실험적 차원에서는 4개의 이질적 벤치마크에서 10개의 최신 모델을 일관되게 상회하는 성능을 달성하였으며, 특히 노이즈 강건성과 장기 예측 능력에서 두드러진 우위를 보였다. 이 세 차원의 기여가 하나의 일관된 프레임워크 내에서 유기적으로 결합되어 있다는 것이 본 논문의 가장 핵심적인 강점이며, ICLR 2026 게재에 합당한 높은 수준의 완성도와 독창성을 보여준다고 판단된다. 향후 이 연구가 촉발할 후속 연구들 — 그래폰 자동 설계, 비대칭 평균장 게임, 시공간 이중 그래폰 확장 등 — 이 활발히 전개되어 이 분야의 발전을 가속할 것으로 기대한다.
📖 이 리뷰는 OpenReview에 공개된 ICLR 2026 게재 확정 논문을 기반으로 작성되었습니다.
📎 OpenReview: https://openreview.net/forum?id=GqulkP3c1W | ICLR 2026 Virtual: Poster #10010456
11. 요약 정리
- 본 논문은 평균장 게임 이론과 신경 미분 방정식(Neural DE)을 결합하여 다변량 시퀀스 예측 문제를 해결하는 MFPs(Mean-Field Predictors) 프레임워크를 제안한다.
- 개별 시퀀스 예측기들이 그래폰(Graphon)으로 구조화된 상호작용을 통해 집단적으로 예측을 수행하며, 이는 에이전트 수에 대한 확장성을 보장한다.
- 순방향-역방향 확률 미분 방정식(FBSDE) 시스템을 통해 내쉬 균형을 근사하는 수학적으로 엄밀한 프레임워크를 구축한다.
- 지수 그래폰과 코사인 그래폰이라는 두 가지 파라메트릭 그래폰 구조를 제안하여, 다양한 상호작용 패턴을 모델링한다.
- 유한 에이전트에서 무한 에이전트로의 수렴에 대한 이론적 보장(수렴 속도 $O(N^{-1/2})$)을 제공한다.
- 기상, 교통, 로봇 운동, 생물학 등 네 가지 이질적 도메인에서 기존 최고 성능(Mamba, S4, iTransformer 등) 대비 우수한 결과를 달성한다.
- 특히 MIT 휴머노이드 로봇 데이터셋에서 MSE 기준 기존 최고 대비 23% 이상의 개선을 보인다.
- 샘플 복잡도 실험을 통해 적은 수의 에이전트로도 효과적인 예측이 가능함을 실증적으로 검증한다.
- ICLR 2026에 게재 확정되었으며, 평균장 게임 이론의 기계학습 응용이라는 새로운 연구 방향을 개척한 의의가 있다.