[논문 리뷰]/[최신 논문] / [arXiv 2512.19428] Attention Is Not What You Need: 그라스만 흐름 기반 어텐션 프리 시퀀스 모델링.md

[arXiv 2512.19428] Attention Is Not What You Need: 그라스만 흐름 기반 어텐션 프리 시퀀스 모델링

조회

Attention Is Not What You Need: Grassmann Flows as an Attention-Free Alternative for Sequence Modeling

https://arxiv.org/abs/2512.19428

Chong Zhang | arXiv:2512.19428 | 2025년 12월


1. 서론: 자기 주의 메커니즘은 정말 필수적인가

2017년 Vaswani 등이 "Attention Is All You Need"라는 논문을 발표한 이후, 자기 주의(self-attention) 메커니즘은 시퀀스 모델링의 사실상 표준 원시 연산(primitive)으로 자리 잡았다. BERT, GPT 시리즈, Vision Transformer 등 현대 딥러닝의 거의 모든 주요 아키텍처가 이 메커니즘을 핵심 구성 요소로 채택하고 있으며, 자연어 처리뿐만 아니라 컴퓨터 비전, 음성 인식, 생물정보학 등 다양한 분야에서 혁신적인 성과를 이끌어 왔다. 그러나 자기 주의가 정말로 대체 불가능한 유일한 방법인가에 대한 근본적인 질문은 충분히 검토되지 않은 채 남아 있었다.

본 논문은 바로 이 근본적 질문에서 출발한다. 저자는 자기 주의 메커니즘을 "더 저렴하게, 더 희소하게, 더 확장 가능하게" 만드는 방향이 아니라, 명시적 자기 주의가 강력한 시퀀스 모델링과 추론에 정말로 필수적인 요소인지를 묻는다. 논문의 핵심 주장은 "아니오"이다. 자기 주의는 표현(representation)의 기하학적 리프팅(geometric lifting)을 구현하는 하나의 특정 방식일 뿐이며, 유일한 방식은 아니라는 것이다. 이러한 관점에서 저자는 그라스만 흐름(Grassmann flows)이라는 전혀 다른 수학적 프레임워크에 기반한 어텐션 프리(attention-free) 아키텍처를 제안한다.

논문의 제목인 "Attention Is Not What You Need"는 2017년 Vaswani 등의 기념비적 논문 "Attention Is All You Need"에 대한 명시적인 반론으로 구성되어 있어 학술적 담론의 측면에서도 흥미롭다. 이 제목은 어텐션이 불필요하다는 극단적 주장이 아니라, 어텐션이 유일하게 필요한 것은 아니라는 보다 미묘한 주장을 담고 있다. 이 논문이 특히 주목할 만한 이유는 단순히 새로운 아키텍처를 제안하는 것을 넘어서, 트랜스포머의 해석 불가능성(uninterpretability) 문제에 대한 근본적인 원인 분석을 제공하기 때문이다. 저자는 대규모 트랜스포머 모델이 해석하기 어려운 이유가 단순히 모델의 크기나 깊이 때문이 아니라, 핵심 연산인 자기 주의가 수행하는 텐서 리프팅(tensor lifting)의 본질적 특성에 기인한다고 주장한다. 즉, $L \times L$ 크기의 어텐션 텐서로 리프팅하는 순간, 소수의 명시적 불변량(invariants)으로 모델의 전역적 행동을 기술할 가능성을 이미 상실하게 된다는 것이다.

이에 대한 대안으로 제안되는 인과적 그라스만(Causal Grassmann) 아키텍처는 어텐션 행렬을 전혀 사용하지 않으면서도, 유한 차원 다양체(manifold) 위의 흐름을 통해 시퀀스 상호작용을 모델링한다. 이 접근법의 핵심 혁신은 토큰 간의 상호작용을 쌍별 가중치가 아닌 부분공간의 기하학적 특성으로 표현하는 것이며, 이를 통해 수학적으로 추적 가능한(traceable) 형태의 시퀀스 처리를 가능하게 한다. 논문은 Wikitext-2 언어 모델링과 SNLI 자연어 추론 태스크에서 이 아키텍처의 실험적 타당성을 검증하며, 13~18M 파라미터 규모에서 크기 대비 트랜스포머와 경쟁력 있는 성능을 달성함을 보인다. 특히 SNLI에서는 DistilBERT 백본 위의 그라스만-플뤼커 헤드가 트랜스포머 헤드를 소폭 상회하는 결과를 보고한다.

2. 배경 및 관련 연구: 텐서 리프팅에서 기하학적 대안으로

2.1 자기 주의의 기하학적 재해석: 텐서 리프팅

본 논문의 핵심적인 이론적 기여 중 하나는 자기 주의를 텐서 리프팅이라는 기하학적 관점에서 재해석하는 것이다. 표준 다중 헤드 자기 주의(multi-head self-attention)에서는 시퀀스의 은닉 상태 $H \in \mathbb{R}^{L \times d}$로부터 각 헤드 $h$에 대해 쿼리, 키, 값을 계산한다:

$$Q_h = HW_Q^{(h)}, \quad K_h = HW_K^{(h)}, \quad V_h = HW_V^{(h)}$$

여기서 $W_Q^{(h)}, W_K^{(h)}, W_V^{(h)} \in \mathbb{R}^{d \times d_h}$이고, 일반적으로 $d_h = d / H_{\text{heads}}$이다. 이후 각 헤드에서 $L \times L$ 크기의 쌍별 호환성 행렬을 계산하고 소프트맥스 정규화를 적용한다:

$$A_h = \operatorname{softmax}\left(\frac{Q_h K_h^\top}{\sqrt{d_h}}\right) \in \mathbb{R}^{L \times L}$$

저자는 이 과정을 기하학적으로 해석하면, 모델이 단순히 은닉 상태의 다양체(manifold) 위를 이동하는 것이 아니라, 쌍별 상호작용(pairwise interactions)의 훨씬 더 큰 공간으로 리프팅하는 것이라고 설명한다. 이러한 텐서 리프팅은 세 가지 핵심적인 특성을 가진다. 첫째, 극도로 세밀(fine-grained)하여 모든 위치 쌍 $(i, j)$이 각 헤드와 각 레이어에서 별도의 학습된 가중치를 받는다. 둘째, 고차원적이어서 모델의 유효 상태가 토큰 임베딩뿐 아니라 레이어 전반에 걸쳐 진화하는 어텐션 텐서들의 구름(cloud)을 포함한다. 셋째, 압축하기 어려워 모든 레이어와 헤드에 걸친 어텐션 행동을 요약하는 명확한 전역 불변량 집합이 존재하지 않는다.

이러한 분석으로부터 저자는 다음과 같은 핵심 주장을 제시한다: 대규모 모델의 "해석 불가능성"의 주요 원인은 단순히 깊이나 파라미터 수가 아니라, 어텐션이 수행하는 텐서 리프팅이 수학적으로 추적 불가능하다는 사실에 기인한다. 각 레이어와 헤드에서 도입되는 자유도(degrees of freedom)가 너무 커서 모델의 전역적 효과를 기술하는 소수의 명시적 불변량 집합이 존재하지 않는다는 것이다. 개별 어텐션 맵을 시각화하는 것은 가능하지만, 이를 일관된 전체적인 그림으로 종합하는 것은 사실상 불가능하다.

2.2 추론의 의미적 다양체 기하학

저자는 추론(reasoning)을 의미적 다양체(semantic manifold) 위의 기하학으로 바라보는 대안적 관점을 제시한다. 이 관점에서 언어 모델의 은닉 상태는 고차원 의미적 다양체 위의 점으로 볼 수 있으며, 각 순전파(forward pass)는 이 다양체 위의 경로를 추적한다. 자기 주의는 이 구조 내에서 특정한 텐서 리프팅을 구현하는데, 벡터 $h_t$를 다른 위치들과의 내적을 통해 쌍별 상호작용의 공간으로 올려 더 풍부한 국소 기하학을 발견한다.

트랜스포머의 효과는 후속 신경망 레이어들이 이러한 리프팅된 기하학을 정렬하고 제약하는 방식에 달려 있다. 네트워크는 어텐션의 자유도가 유용한 행동을 지원하는 흐름으로 제한되도록 학습한다. 추론은 이 관점에서 의미적 다양체의 내재적 기하학적 구조를 반복적으로 샘플링하고 정제하는 과정이다. 레이어마다 구조화된 방식으로 표현을 변형하는 연산자가 적용된다. 이 시각에서 핵심 문제는 텐서 공간으로 리프팅하느냐 여부가 아니라, 표현의 기하학적 진화 규칙을 어떻게 설계하느냐이다.

저자는 여기서 더 날카로운 철학적 주장을 이끌어낸다: 대규모 트랜스포머의 비해석성은 단순히 깊이나 파라미터 수 때문이 아니라, 핵심 연산으로서 텐서 리프팅을 선택한 것에 뿌리를 두고 있다. $L \times L$ 어텐션 텐서로 리프팅하는 순간, 소수의 불변량으로 간단하고 명시적이며 전역적인 기술이 가능할 여지를 이미 잃어버린다는 것이다. 따라서 추론에 대한 수학적으로 더 구조화된 관점을 원한다면, 이 불투명한 텐서 리프팅을 더 통제된 기하학적 객체로 대체해야 한다.

2.3 그라스만 다양체와 플뤼커 좌표의 수학적 기초

그라스만 다양체(Grassmann manifold) $\mathrm{Gr}(k, r)$는 $\mathbb{R}^r$의 모든 $k$차원 선형 부분공간의 집합으로 정의되며, 차원이 $k(r-k)$인 매끄러운 다양체이다. 본 논문에서는 $k=2$인 경우에 초점을 맞추므로, $\mathrm{Gr}(2, r)$은 $\mathbb{R}^r$ 내의 모든 2차원 부분공간을 매개변수화하며 차원은 $2(r-2)$이다. 이러한 그라스만 다양체의 점을 표현하는 데 사용되는 핵심 도구가 플뤼커 임베딩(Plücker embedding)이다.

플뤼커 임베딩은 각 $k$차원 부분공간을 사영 공간(projective space)의 한 점으로 사상한다. 구체적으로, $k$차원 부분공간 $U \subset \mathbb{R}^r$의 기저 $(u_1, \dots, u_k)$가 주어지면, $k$번째 외적 거듭제곱(exterior power) $\Lambda^k \mathbb{R}^r$ 안에서 외적(exterior product) $u_1 \wedge \cdots \wedge u_k$를 형성한다. 좌표로 표현하면, 이 외적은 행렬 $[u_1 \cdots u_k]$의 $k \times k$ 소행렬식(minor)들을 성분으로 가지는 $\mathbb{R}^{\binom{r}{k}}$ 속의 벡터로 나타난다.

$k=2$인 경우 이 구성은 특히 간결하며, 이것이 저자가 $k=2$를 선택한 실용적 이유이기도 하다. $u, v \in \mathbb{R}^r$이 2차원 부분공간을 생성한다면, $u \wedge v$는 모든 쌍별 행렬식으로 주어진다:

$$p_{ij} = u_i v_j - u_j v_i, \quad 1 \leq i < j \leq r$$

이렇게 생성되는 플뤼커 벡터(Plücker vector) $p \in \mathbb{R}^{\binom{r}{2}}$는 $u$와 $v$가 생성하는 부분공간을 인코딩한다. 동일한 부분공간을 생성하는 다른 기저는 비례하는 플뤼커 벡터를 산출하며, 이는 임베딩의 사영적(projective) 특성을 반영한다. $\mathrm{Gr}(2, r)$의 상(image)은 $\mathbb{R}^{\binom{r}{2}}$의 전부가 아니라 이차 플뤼커 관계(quadratic Plücker relations)로 정의되는 대수적 다양체(algebraic variety)이다. 그러나 실용적 목적에서는 $p$를 부분공간을 인코딩하는 정규화된 특징 벡터로 간주할 수 있다.

2.4 시퀀스 모델링에서 그라스만 다양체를 선택한 이유

저자는 혼합 규칙의 근간으로 그라스만 다양체를 선택한 데 대해 세 가지 근거를 제시한다. 첫째, 국소 선형 구조(local linear structure)의 관점에서 매끄러운 다양체의 국소 기하학은 접선 공간(tangent space)과 그 부분공간으로 포착될 수 있으며, 그라스만 다양체는 선형 부분공간의 족(families)을 자연스럽게 매개변수화하므로 더 복잡한 구조의 국소 선형 근사를 표현하는 데 적합하다. 축소된 은닉 상태의 쌍을 취하고 그 생성(span)을 형성할 때, 의미적 다양체의 국소 방향과 평면을 효과적으로 인코딩하게 된다.

둘째, 유한 차원 대수적 구조(finite-dimensional algebraic structure)의 관점에서 그라스만 다양체는 유한 차원이며 플뤼커 임베딩을 통해 사영 공간에 놓인다. 이는 기하학적 정보를 알려진 대수적 제약 조건을 따르는 고정 차원 특징 벡터로 인코딩할 수 있음을 의미한다. 신경망은 이러한 특징 위에서 연산하면서도, 기저에 있는 객체는 명확한 기하학적 의미를 가진 부분공간으로 남는다.

셋째, 근사 정리(approximation theorems)와의 호환성 측면에서, 의미적 공간을 다양체 $M$으로, 모델을 연산자 $\Phi: M \to M$으로 이상화할 때, 보편 근사 정리(universal approximation theorem)는 신경망이 충분한 용량이 주어지면 이러한 연산자를 근사할 수 있음을 보장한다. 혼합 규칙을 먼저 국소 이웃을 $\mathrm{Gr}(2, r)$로 인코딩한 후 그 다양체 위에서 작용하도록 제약함으로써, 모델의 동역학이 통제된 자유도를 가진 구조화된 다양체를 통해 인수분해(factor through)되도록 요구하는 것이다. 보편 근사 능력은 여전히 적용되지만, 근사가 분석 가능한 구조를 가진 공간에서 전개된다.

2.5 효율적 트랜스포머, 상태 공간 모델, 기하학적 표현 학습

자기 주의의 이차 비용을 줄이기 위한 방대한 선행 연구가 존재한다. 선형화 또는 커널화된 어텐션, 희소 및 국소 어텐션 패턴, 메모리 증강 또는 검색 기반 아키텍처 등이 대표적이다. 이러한 접근법들은 일반적으로 $QK^\top$ 계산을 근사하거나 희소화하거나, 어텐션을 국소 윈도우 또는 구조화된 패턴으로 제한하거나, 컨텍스트의 일부를 외부 메모리나 캐시로 오프로드한다. 그러나 이 모든 방법은 동일한 핵심 연산을 유지한다는 점에서 공통적이다. 모델은 여전히 $L \times L$ 크기의 쌍별 가중치 행렬을 계산하거나 근사한다. 본 논문의 접근법은 이와 직교적(orthogonal)인데, 어텐션을 완전히 제거하고 그라스만 흐름에 기반한 기하학적 혼합 규칙이 그 역할을 대체할 수 있는지를 탐구하기 때문이다.

상태 공간 모델(State-Space Models, SSMs)과 관련 아키텍처는 시퀀스를 선형 동역학 시스템이 지배하는 신호로 해석하며, 종종 비선형 판독(readout)과 결합된다. 이러한 모델들은 시퀀스 길이에 대해 선형 복잡도로 장거리 컨텍스트 모델링에 탁월하며, 제어 이론 및 신호 처리와 강한 유대를 가진다. 그라스만 혼합은 SSM과 시간에 따라 진화하는 구조화된 잠재 상태를 유지한다는 아이디어를 공유하지만 강조점이 다르다. SSM은 잠재 상태의 시간적 진화에 초점을 맞추며, 기하학은 종종 암묵적이다. 반면 그라스만 혼합은 표현 공간에서의 기하학적 진화에 초점을 맞추며, 시간은 인과적 윈도우를 통해 도입된다. 저자는 두 관점이 상호 보완적이며, SSM 스타일의 시간적 동역학과 은닉 표현에 대한 그라스만 제약을 결합하는 하이브리드 아키텍처가 흥미로운 향후 연구 방향이라고 서술한다.

비유클리드 공간에서의 학습에 대한 관심도 점차 커지고 있다. 쌍곡(hyperbolic), 구면(spherical) 및 기타 리만(Riemannian) 다양체에 데이터를 임베딩하여 거리가 계층 구조나 주기성 같은 기저 구조를 더 잘 포착하도록 하는 접근법들이 연구되어 왔다. 그라스만 다양체 역시 부분공간 클러스터링, 저랭크 근사, 메트릭 학습 등 고전적인 기계학습 맥락에서 활용되어 왔으나, 시퀀스 모델의 주요 혼합 메커니즘으로 사용되는 것은 상대적으로 탐구되지 않은 영역이다. 본 논문의 기여는 그라스만-플뤼커 파이프라인을 트랜스포머 유사 블록에 직접 통합하여, 부분공간 기하학을 시퀀스 상호작용 메커니즘의 핵심 부분으로 전환하는 것이다.

3. 방법론: 인과적 그라스만 트랜스포머

3.1 전체 아키텍처 개요

제안된 인과적 그라스만 트랜스포머(Causal Grassmann Transformer)는 표준 트랜스포머 인코더의 전반적인 구조를 따르되, 각 자기 주의 블록을 인과적 그라스만 혼합 블록(Causal Grassmann mixing block)으로 대체한 것이다. 이 혼합 블록은 크게 세 가지 단계로 구성된다. 첫째, 은닉 상태를 저차원 공간으로 축소하고, 둘째, 국소 쌍(local pairs)을 구성하여 $\mathbb{R}^{\binom{r}{2}}$의 플뤼커 벡터로 인코딩하며, 셋째, 이러한 기하학적 특징을 게이팅과 피드포워드 네트워크를 통해 원래의 은닉 상태로 다시 혼합한다. 전체 과정에서 어텐션 행렬이나 소프트맥스 정규화된 텐서 가중치는 단 한 번도 계산되지 않는다.

언어 모델링을 위해 크기 $V$의 어휘에 대한 표준 다음 토큰 예측(next-token prediction) 설정을 고려한다. 토큰 시퀀스 $(x_1, \dots, x_L)$이 주어지면, 학습된 임베딩 행렬 $E \in \mathbb{R}^{V \times d}$를 사용하여 $\mathbb{R}^d$로 임베딩하고 위치 임베딩 $P \in \mathbb{R}^{L_{\max} \times d}$를 더한다:

$$h_t^{(0)} = E(x_t) + P_t, \quad t = 1, \dots, L$$

논문의 실험에서는 $d = 256$을 사용한다. 결과 시퀀스 $H^{(0)} = (h_1^{(0)}, \dots, h_L^{(0)})$는 $N$개의 적층된 인과적 그라스만 트랜스포머 레이어를 통과한다. 각 레이어의 구조를 이하에서 상세히 기술한다.

3.2 인과적 그라스만 혼합 레이어의 상세 구조

각 레이어는 입력 $H \in \mathbb{R}^{L \times d}$를 받아 갱신된 시퀀스 $\tilde{H} \in \mathbb{R}^{L \times d}$를 출력한다. 레이어 내부의 핵심 연산은 여섯 가지 단계로 구성된다.

1단계: 선형 축소(Linear Reduction). 먼저 각 은닉 상태를 저차원 벡터로 축소한다:

$$z_t = W_{\text{red}} h_t + b_{\text{red}}, \quad W_{\text{red}} \in \mathbb{R}^{r \times d}, \; b_{\text{red}} \in \mathbb{R}^r$$

일반적으로 $r \ll d$이며, 논문의 실험에서는 $r = 32$를 사용한다. 이로써 $Z = (z_1, \dots, z_L) \in \mathbb{R}^{L \times r}$를 얻는다. 이 축소 단계의 핵심 역할은 모델의 후속 기하학적 계산이 전체 $d$차원이 아닌 훨씬 더 작은 $r$차원 공간에서 이루어지도록 하여 계산 효율성을 보장하는 것이다. $d = 256$에서 $r = 32$로의 축소는 8배의 차원 감소를 의미하며, 이는 플뤼커 좌표 계산의 비용을 크게 절감한다.

2단계: 다중 스케일 국소 쌍 형성(Multi-Scale Local Pairing). 윈도우 크기(오프셋)의 집합 $\mathcal{W} = \{\Delta_1, \dots, \Delta_m\}$을 정의한다. 예를 들어:

$$\mathcal{W} = \{1, 2, 4, 8, 12, 16\}$$

또는 더 깊은 모델의 경우 $(1, 1, 2, 2, 4, 4, 8, 8, 12, 12, 16, 16)$과 같은 다중 레이어 스케줄을 사용한다. 각 위치 $t$와 오프셋 $\Delta \in \mathcal{W}$에 대해 ($t + \Delta \leq L$인 경우) 쌍 $(z_t, z_{t+\Delta})$를 형성한다. 주어진 $t$에 대해 최대 $m$개의 쌍이 생성된다:

$$(z_t, z_{t+\Delta_1}), \; (z_t, z_{t+\Delta_2}), \; \dots$$

이를 다중 스케일에서의 국소 이웃(local neighborhoods)으로 취급한다. 이 쌍 형성이 인과적(causal)이라는 점이 중요하다. 즉, $t$는 엄격히 오른쪽(미래) 위치만과 쌍을 이루며, 이는 왼쪽에서 오른쪽으로의 언어 모델링과 일관된다. 이 다중 스케일 설계는 가까운 토큰 간의 미세한 국소 상호작용(오프셋 1, 2)과 더 먼 토큰 간의 중거리 상호작용(오프셋 8, 12, 16)을 동시에 포착할 수 있게 한다. 자기 주의가 모든 위치 쌍을 직접적으로 고려하는 것과 달리, 그라스만 혼합은 고정된 윈도우 패턴 내에서만 상호작용을 모델링하며, 장거리 의존성은 다중 레이어의 적층을 통해 암묵적으로 포착된다.

3단계: 그라스만/플뤼커 인코딩(Grassmann/Plücker Encoding). 각 쌍 $(z_t, z_{t+\Delta})$에 대해 $\mathbb{R}^r$에서 이 벡터들이 생성하는 2차원 부분공간을 고려한다. 성분이 다음과 같은 플뤼커 벡터 $p_t^{(\Delta)} \in \mathbb{R}^{\binom{r}{2}}$를 형성한다:

$$p_{ij}^{(\Delta)}(t) = z_{t,i} \cdot z_{t+\Delta,j} - z_{t,j} \cdot z_{t+\Delta,i}, \quad 1 \leq i < j \leq r$$

이후 수치 안정성을 위한 선택적 정규화를 적용한다:

$$\hat{p}_t^{(\Delta)} = \frac{p_t^{(\Delta)}}{\max(\|p_t^{(\Delta)}\|_2, \varepsilon)}$$

이 단계가 전체 아키텍처에서 가장 핵심적이고 참신한 수학적 장치이며, 자기 주의와의 근본적 차이가 발생하는 지점이다. $r = 32$일 때, 플뤼커 벡터의 차원은 $\binom{32}{2} = 496$이 된다. 이 496차원 벡터는 두 축소된 토큰 상태가 생성하는 2차원 부분공간을 $\mathrm{Gr}(2, 32)$ 위의 한 점으로 인코딩한다. 기하학적으로 보면, 두 토큰의 의미적 관계가 고차원 내적 한 개가 아니라 모든 가능한 2차원 소행렬식의 집합으로 표현되는 것이다. 이는 자기 주의에서 $q_t^\top k_s$라는 단일 스칼라 호환성 점수를 계산하는 것과 근본적으로 다른 접근법이다.

4단계: 모델 공간으로의 역투영(Projection Back to Model Space). 그라스만 특징을 학습된 선형 맵을 통해 모델 차원으로 다시 투영한다:

$$g_t^{(\Delta)} = W_{\text{plü}} \hat{p}_t^{(\Delta)} + b_{\text{plü}}, \quad W_{\text{plü}} \in \mathbb{R}^{d \times \binom{r}{2}}$$

이후 오프셋에 걸쳐 합산 또는 평균으로 집계한다:

$$g_t = \frac{1}{|\mathcal{W}_t|} \sum_{\Delta \in \mathcal{W}_t} g_t^{(\Delta)}$$

여기서 $\mathcal{W}_t = \{\Delta \in \mathcal{W} : t + \Delta \leq L\}$는 위치 $t$에서의 유효 오프셋 집합이다. 벡터 $g_t \in \mathbb{R}^d$는 위치 $t$ 주변의 다중 스케일 국소 그라스만 기하학을 포착한다. 이 투영 단계에서 $W_{\text{plü}} \in \mathbb{R}^{256 \times 496}$은 496차원의 그라스만 특징을 다시 256차원의 모델 공간으로 사상하는데, 이는 기하학적 정보를 원래의 표현 공간으로 되돌리는 역할을 한다.

5단계: 게이트 융합(Gated Fusion). 원래의 은닉 상태와 그라스만 특징을 연결(concatenate)하고 게이트를 계산한다:

$$u_t = [h_t; g_t] \in \mathbb{R}^{2d}$$ $$\alpha_t = \sigma(W_{\text{gate}} u_t + b_{\text{gate}}), \quad W_{\text{gate}} \in \mathbb{R}^{d \times 2d}$$

혼합된 표현은 다음과 같다:

$$\tilde{h}_t^{\text{mix}} = \alpha_t \odot h_t + (1 - \alpha_t) \odot g_t$$

이후 레이어 정규화와 드롭아웃이 적용된다. 이 게이트 메커니즘은 모델이 원래의 은닉 상태와 그라스만 기하학적 특징 사이의 상대적 기여를 차원별로(element-wise) 학습적으로 조절할 수 있게 한다. 시그모이드 게이트 $\alpha_t \in (0, 1)^d$는 각 차원에서 원래 정보를 유지할지 기하학적 특징으로 대체할지를 결정하며, 이는 잔차 연결(residual connection)의 일반화로 볼 수 있다.

6단계: 피드포워드 블록(Feed-Forward Block). 표준 트랜스포머와 동일하게 위치별 피드포워드 네트워크를 적용한다:

$$\phi_t = W_2 \sigma(W_1 \hat{h}_t + b_1) + b_2$$

여기서 $W_1 \in \mathbb{R}^{d_{\text{ff}} \times d}$, $W_2 \in \mathbb{R}^{d \times d_{\text{ff}}}$, $d_{\text{ff}} = 4d$이며, 비선형 활성화 함수 $\sigma$로 GELU를 사용한다. 또 다른 잔차 연결과 레이어 정규화가 레이어를 완성한다:

$$h_t' = \text{LayerNorm}(\hat{h}_t + \phi_t)$$

이러한 레이어를 $N$개 적층하면 완전한 인과적 그라스만 트랜스포머가 구성된다. 전체 파이프라인에서 어텐션 행렬 구축이나 소프트맥스 정규화 단계가 전혀 없다는 점이 핵심이다.

3.3 자기 주의와의 계산 복잡도 비교

시퀀스 길이 $L$과 은닉 차원 $d$에 대해, 표준 다중 헤드 자기 주의 레이어의 시간 복잡도는 다음과 같다:

$$\mathcal{O}(Ld^2 + L^2 d_{\text{head}})$$

여기서 $d_{\text{head}}$는 헤드당 차원이다. 첫 번째 항은 $Q, K, V$ 계산에서 발생하고, 두 번째 항은 $QK^\top$ 행렬 곱셈(크기 $L^2$)과 이후 $L \times L$ 어텐션 행렬과 $V$의 곱에서 발생한다. 특히 이 $L^2$ 항이 장문 시퀀스에서 자기 주의의 주요 병목이 된다.

그라스만 혼합 레이어에서의 주요 비용은 다음과 같다:

  • 선형 축소: $HW_{\text{red}}^\top$의 비용은 $\mathcal{O}(Ldr)$
  • 플뤼커 계산: 각 위치와 오프셋에 대해 $p_t^{(\Delta)}$ 형성 비용은 $\mathcal{O}(r^2)$이며, $m = |\mathcal{W}|$개 오프셋으로 $\mathcal{O}(Lmr^2)$
  • 모델 공간으로의 투영: $W_{\text{plü}} \hat{p}_t^{(\Delta)}$의 쌍당 비용은 $\mathcal{O}(d\binom{r}{2})$이며, 전체 $\mathcal{O}(Lmdr^2)$
  • 게이팅 및 피드포워드: 표준 트랜스포머와 동일하게 $\mathcal{O}(Ld^2)$

$r$과 $m$을 고정 하이퍼파라미터로 취급하면(실험에서 실제로 그러함), $r \ll d$이고 $r^2$가 적당한 크기이므로 플뤼커 및 투영 비용은 $\mathcal{O}(Ld^2)$ 항에 흡수될 수 있다. 결정적으로, $L^2$ 항이 없다. 고정된 $r$과 $m$에 대해 복잡도가 $L$에 대해 선형이다:

$$\text{Causal Grassmann:} \quad \mathcal{O}(Ld^2) \quad \text{vs.} \quad \text{Self-attention:} \quad \mathcal{O}(L^2 d_{\text{head}} + Ld^2)$$

다만 논문은 현재 구현에서 경험적 단계별 실행 시간이 중간 정도의 $L$에 대해 고도로 최적화된 GPU 어텐션 커널보다 느리다는 점을 솔직하게 인정한다. 이는 플뤼커 좌표 계산과 텐서 재형성(reshape) 처리에서의 오버헤드 때문이며, 저수준 커널 퓨전이나 커스텀 CUDA 구현을 아직 활용하지 않기 때문이다. 따라서 보고된 실험은 아키텍처와 그 복잡도 프로파일에 대한 개념 증명(proof of concept)으로 해석되어야 하며, 최적화된 엔지니어링 솔루션이 아니다.

3.4 정보 흐름의 차이: 전역 쌍별 가중치 대 국소 부분공간 변형

자기 주의와 그라스만 혼합 사이의 정보 흐름 방식 차이는 근본적이다. 자기 주의에서는 각 토큰이 학습된 $L \times L$ 가중치 행렬을 통해 다른 모든 토큰을 직접적으로 볼 수 있다. 이는 단일 레이어 내에서 임의의 장거리 의존성을 포착할 수 있는 강력한 메커니즘이지만, 동시에 텐서 공간에서 자유도가 폭발적으로 증가하는 원인이기도 하다.

반면 그라스만 혼합에서는 정보가 저랭크 부분공간의 통제된 변형을 통해 전파된다. 각 토큰은 고정된 윈도우 패턴 내의 이웃 토큰들과만 직접적으로 상호작용하며, 이 상호작용은 쌍별 가중치가 아닌 2차원 부분공간의 기하학적 특성으로 인코딩된다. 더 먼 위치 간의 의존성은 다중 레이어의 적층과 다중 스케일 윈도우를 통해 점진적으로 구축된다. 이 설계 선택은 표현력과 해석 가능성 사이의 의도적인 절충(trade-off)을 반영한다.

이러한 차이를 요약하면 다음과 같다. 자기 주의는 텐서 리프팅과 전역 쌍별 상호작용을 사용하며, 그라스만 혼합은 저랭크 부분공간과 국소 윈도우를 다양체 위의 통제된 흐름으로 사용한다. 두 메커니즘 모두 레이어를 거치면서 고차 기하학적 구조를 축적하지만, 사용하는 원시 연산(primitive)이 근본적으로 다르다.

이 설계 차이의 실질적 함의를 생각해 보면, 자기 주의에서 $L$이 증가하면 어텐션 행렬의 크기가 $L^2$으로 증가하여 메모리와 계산 비용이 급격히 늘어난다. 이것이 FlashAttention, 희소 어텐션, 커널화된 어텐션 등 수많은 효율적 어텐션 연구를 촉발한 이유이다. 반면 그라스만 혼합에서는 $L$이 증가해도 각 토큰의 계산량은 고정된 윈도우 수 $m$에 의해 제한되므로, 메모리 사용량도 선형적으로만 증가한다. 이는 매우 긴 시퀀스를 다루어야 하는 응용 시나리오(예: 수백 페이지의 법률 문서를 한 번에 처리하거나, 수만 토큰의 코드베이스를 분석하거나, 긴 학술 논문의 전문을 이해하는 경우)에서 잠재적으로 큰 이점이 될 수 있다. 물론 이러한 이론적 이점이 실제 성능으로 이어지려면 국소 윈도우만으로도 장거리 의존성을 충분히 포착할 수 있어야 하며, 이는 현재 논문에서 검증되지 않은 열린 질문이다.

4. 실험 설정: 데이터셋, 모델, 학습 구성

4.1 데이터셋 및 벤치마크

제안된 인과적 그라스만 아키텍처는 두 가지 표준 NLP 벤치마크에서 평가된다. 첫째, Wikitext-2는 위키피디아에서 추출된 텍스트로 구성된 언어 모델링 데이터셋으로, 연속적인 텍스트 청크를 고정 길이 $L$(블록 크기)의 시퀀스로 형성한다. 논문의 주요 실험에서는 $L = 128$과 $L = 256$을 고려하며, 약 30,522 크기의 WordPiece 유사 어휘를 사용한다. 이는 BERT 스타일 토크나이저와 일치한다.

둘째, SNLI(Stanford Natural Language Inference)는 함의(entailment), 모순(contradiction), 중립(neutral)의 세 가지 범주로 레이블된 약 57만 개의 영어 문장 쌍으로 구성된 자연어 추론 데이터셋이다. 전제(premise) 문장과 가설(hypothesis) 문장이 주어졌을 때 둘 사이의 논리적 관계를 판별하는 태스크로, 표준 train/validation/test 분할을 따른다. SNLI는 언어 이해의 핵심적인 측면인 두 문장 간의 의미적 관계를 추론하는 능력을 평가하는 벤치마크로, 단순한 언어 모델링을 넘어선 추론 능력을 테스트할 수 있다.

4.2 구현 세부사항

Wikitext-2 실험에서는 다음 두 가지 모델을 비교한다. TransformerLM은 $N$개의 레이어, 모델 차원 $d = 256$, 피드포워드 차원 $d_{\text{ff}} = 1024$, 4개의 헤드를 가진 다중 헤드 자기 주의를 사용하는 표준 디코더 전용 트랜스포머이다. GrassmannLM은 동일한 백본(임베딩, 레이어 수, $d$, $d_{\text{ff}}$)을 가지되, 각 자기 주의 블록이 인과적 그라스만 혼합 블록으로 대체된 모델이다.

두 가지 깊이 설정을 탐구한다. 얕은(Shallow) 설정은 $N = 6$ 레이어로, GrassmannLM은 약 13.0M 파라미터, TransformerLM은 약 12.6M 파라미터를 가진다. 깊은(Deeper) 설정은 $N = 12$ 레이어로, GrassmannLM은 약 18.2M 파라미터, TransformerLM은 약 17.3M 파라미터를 가진다. GrassmannLM의 파라미터가 약간 더 많은 이유는 플뤼커 투영($W_{\text{plü}}$)과 게이팅 레이어($W_{\text{gate}}$)에 의한 추가 파라미터 때문이며, 그 차이는 약 3~5% 수준이다.

GrassmannLM에서 축소된 차원은 $r = 32$이고, 다중 스케일 윈도우로는 6레이어 모델의 경우 $\mathcal{W} = \{1, 2, 4, 8, 12, 16\}$을 사용한다. 12레이어 모델의 경우 깊이에 걸쳐 반복되는 패턴 $(1, 1, 2, 2, 4, 4, 8, 8, 12, 12, 16, 16)$을 사용한다. 이 반복 패턴은 각 스케일의 윈도우가 여러 레이어에 걸쳐 적용되도록 하여, 특정 거리 범위의 상호작용이 더 깊게 처리될 수 있게 한다.

학습은 두 모델 모두 동일한 옵티마이저와 학습률 스케줄을 사용하는 공유 스크립트에서 진행되며, 혼합 블록의 선택만이 다르다. 모든 모델은 30 에포크 동안 학습되며, 학습 과정에서의 최저 검증 퍼플렉시티를 보고한다. 배치 크기는 $L = 128$일 때 32, $L = 256$일 때 16이다.

SNLI 실험에서는 특히 흥미로운 실험 설계가 채택된다. DistilBERT-base-uncased 백본을 특징 추출기로 고정함으로써, 두 분류 헤드(트랜스포머 vs. 그라스만)의 효과만을 분리하여 비교할 수 있도록 한 것이다. 이 설계는 백본의 학습 불안정성이나 초기화 민감도 등의 교란 변수를 제거하여 아키텍처적 선택의 순수한 효과를 관찰할 수 있게 한다. DistilBERT는 BERT의 지식 증류(knowledge distillation) 버전으로 6레이어, 768 은닉 차원, 66M 파라미터를 가지며, 원본 BERT 대비 97%의 성능을 유지하면서 40% 작고 60% 빠른 효율적 모델이다. 백본은 토큰화 및 절단 후 문장당 최대 48개 토큰까지 맥락화된 토큰 임베딩을 생산한다. 이후 평균 풀링(mean pooling)을 적용하여 문장 수준의 고정 길이 표현을 얻는다. 이 백본 위에 두 가지 분류 헤드를 비교한다.

트랜스포머 헤드는 풀링된 특징에 대해 자기 주의를 적용하는 2레이어 트랜스포머 스타일 분류기와 3방향 분류를 위한 최종 선형 레이어로 구성된다. 그라스만-플뤼커 헤드(GrassmannPluckerNLIModel)는 투영된 특징에 대해 다중 스케일 윈도우를 통한 그라스만 혼합 모듈을 적용한 후 피드포워드 분류기를 사용한다. 그라스만 헤드의 하이퍼파라미터는 다음과 같다: 투영 차원 $d_{\text{proj}} = 64$, 토큰 시퀀스에 대한 윈도우 크기 8 및 스트라이드 8, $d_{\text{model}} = 256$, 2개의 혼합 레이어, 4개의 혼합 헤드(쌍 그룹화용), $d_{\text{ff}} = 512$, 드롭아웃 0.1이다. 두 헤드 모두 비슷한 파라미터 수를 가지며, 동일한 백본 초기화로부터 20 에포크 동안 학습된다.

4.3 베이스라인 및 평가 지표

Wikitext-2에서의 주요 평가 지표는 검증 퍼플렉시티(validation perplexity)이다. 퍼플렉시티는 언어 모델의 표준적인 성능 지표로, 모델이 다음 토큰을 예측할 때의 평균적인 "혼란도"를 나타내며, 수학적으로는 테스트 데이터에 대한 교차 엔트로피 손실의 지수 함수로 정의된다. 값이 낮을수록 모델이 텍스트를 더 잘 예측함을 의미하고, 퍼플렉시티 1은 완벽한 예측을 의미한다. SNLI에서는 분류 정확도(classification accuracy)를 검증 및 테스트 세트에서 보고하며, 학습 손실 곡선도 함께 제시한다.

베이스라인으로 사용되는 TransformerLM과 트랜스포머 헤드는 특별히 최적화된 최첨단 모델이 아니라, 크기가 매칭된(size-matched) 공정한 비교 대상으로 설계되었다. 즉, 이 실험의 목적은 최첨단 언어 모델과의 경쟁이 아니라, 동일한 조건에서 어텐션 기반 혼합과 그라스만 기반 혼합의 상대적 성능을 평가하는 것이다. 이러한 실험 설계는 하이퍼파라미터 튜닝이나 학습 전략의 차이와 같은 교란 변수를 배제하고, 아키텍처적 선택 자체의 효과를 깨끗하게 분리하여 관찰할 수 있게 한다는 점에서 적절하고 과학적으로 건전한 설계이다.

다음 표는 Wikitext-2와 SNLI 실험에 사용된 모델 구성의 핵심 하이퍼파라미터를 비교 정리한 것이다.

하이퍼파라미터 Wikitext-2 (Shallow) Wikitext-2 (Deep) SNLI
레이어 수 ($N$) 6 12 2 (헤드)
모델 차원 ($d$) 256 256 256
FF 차원 ($d_{\text{ff}}$) 1024 1024 512
축소 차원 ($r$) 32 32 64 ($d_{\text{proj}}$)
블록 크기 ($L$) 128 256 48 (문장당)
윈도우 스케줄 {1,2,4,8,12,16} (1,1,2,2,4,4,8,8,12,12,16,16) 윈도우 8, 스트라이드 8
학습 에포크 30 30 20
배치 크기 32 16 -

5. 주요 실험 결과: 그라스만 흐름의 경쟁력 검증

5.1 Wikitext-2 언어 모델링 결과

Wikitext-2에서의 언어 모델링 결과는 그라스만 기반 모델이 어텐션 없이도 합리적인 수준의 언어 모델링 성능을 달성할 수 있음을 보여준다. 다음 표는 6레이어 모델의 결과를 정리한 것이다.

모델 레이어 파라미터 (M) 윈도우 스케줄 Val PPL
TransformerLM (블록 128) 6 12.59 - 248.4
GrassmannLM (블록 128) 6 13.00 {1,2,4,8,12,16} 275.7
TransformerLM (블록 128) 6 12.59 - 253.6
GrassmannLM (블록 128) 6 13.00 {1,2,4,8,8,8} 282.3

6레이어 모델에서 블록 크기 128과 다중 스케일 윈도우 $\mathcal{W} = \{1, 2, 4, 8, 12, 16\}$을 사용할 때, GrassmannLM은 최저 검증 퍼플렉시티 약 275.7을 달성하며, 동일한 학습 조건에서 TransformerLM의 248.4에 비해 약 11%의 격차를 보인다. 약간 다른 윈도우 스케줄($\{1, 2, 4, 8, 8, 8\}$)에서는 유사한 격차가 관찰되는데, GrassmannLM이 282.3, TransformerLM이 253.6을 기록한다. 이 결과에서 주목할 점은 윈도우 스케줄의 선택이 성능에 미치는 영향이다. 더 넓은 윈도우($\{1, 2, 4, 8, 12, 16\}$)를 사용하는 구성이 더 좁은 윈도우($\{1, 2, 4, 8, 8, 8\}$)보다 약간 더 나은 성능을 보이는데, 이는 다양한 거리의 국소 상호작용을 균형 있게 포착하는 것이 중요함을 시사한다.

다음 표는 더 깊은 12레이어 모델의 결과이다.

모델 레이어 파라미터 (M) Val PPL
TransformerLM (블록 256) 12 17.32 235.2
GrassmannLM (블록 256) 12 18.16 261.1

12레이어 모델에서 블록 크기 256과 반복 다중 스케일 윈도우 패턴 $(1, 1, 2, 2, 4, 4, 8, 8, 12, 12, 16, 16)$을 사용할 때, GrassmannLM은 최저 검증 퍼플렉시티 261.1을, TransformerLM은 235.2를 달성한다. 상대적 격차는 약 11%로, 6레이어 설정에서의 격차보다 작아졌다. 이는 추가적인 깊이가 그라스만 모델이 더 국소화된 혼합을 보상하는 데 도움이 된다는 것을 시사하며, 반복된 국소 그라스만 혼합이 더 풍부한 상호작용을 근사할 수 있다는 관점과 일치한다.

6레이어와 12레이어 결과를 비교하면, 깊이 증가의 효과가 두 아키텍처에서 다르게 나타나는 것이 흥미롭다. TransformerLM은 6레이어의 248.4에서 12레이어의 235.2로 약 5.3%의 퍼플렉시티 개선을 보이는 반면, GrassmannLM은 6레이어의 275.7에서 12레이어의 261.1로 약 5.3%의 개선을 보인다. 절대적인 개선 폭은 유사하지만, 두 모델 간의 상대적 격차가 11%에서 11%로 대체로 유지된다는 점은 주목할 만하다. 다만 블록 크기가 128에서 256으로 증가한 점도 12레이어 모델의 성능에 영향을 미쳤을 수 있으므로, 순수한 깊이 효과를 분리하기 위해서는 동일 블록 크기에서의 비교가 필요했을 것이다.

전체적으로 이 구성들에 걸쳐 다음과 같은 패턴이 관찰된다. GrassmannLM은 어텐션을 사용하지 않음에도 불구하고 크기 매칭된 TransformerLM과 검증 퍼플렉시티에서 일관되게 10~15% 이내의 격차를 보인다. 깊이가 증가할수록 격차가 좁아지는 경향이 있으며, 파라미터 수는 비슷하게 유지된다(GrassmannLM이 플뤼커 투영과 게이팅 레이어로 인해 약간 더 많으나 3~5% 수준). 논문은 이 결과가 최첨단 언어 모델과의 경쟁을 의도한 것이 아니라, "어텐션 프리" 시퀀스 모델링이 그라스만 흐름을 통해 중간 규모에서 실행 가능함을 입증하기 위한 것이라고 명시한다.

5.2 SNLI 자연어 추론 결과

SNLI 실험 결과는 언어 모델링보다 더 흥미롭다. 두 모델이 동일한 DistilBERT 백본을 공유하며 분류 헤드만 다른 공정한 비교에서, 그라스만 기반 헤드가 트랜스포머 헤드를 소폭 상회하는 결과를 보인다.

헤드 유형 Val Accuracy Test Accuracy
Transformer head 0.8545 0.8511
Grassmann-Plücker head 0.8550 0.8538

그라스만 헤드는 최저 검증 정확도 0.8550과 테스트 정확도 0.8538을 달성하며, 검증 정확도 0.8545와 테스트 정확도 0.8511을 기록한 트랜스포머 헤드를 소폭 상회한다. 학습 곡선은 유사한 수렴 속도를 보이며, 그라스만 헤드가 학습 후반부에 약간 더 낮은 검증 손실을 나타낸다. 검증 정확도에서의 차이는 0.0005, 테스트 정확도에서의 차이는 0.0027로, 그 마진은 작지만 일관된 방향을 보인다.

이 결과를 더 자세히 분석하면, 검증 정확도와 테스트 정확도 사이의 격차에서도 흥미로운 패턴이 발견된다. 트랜스포머 헤드는 검증에서 0.8545를 달성하지만 테스트에서 0.8511로 0.0034 포인트 하락하는 반면, 그라스만 헤드는 검증 0.8550에서 테스트 0.8538로 0.0012 포인트만 하락한다. 이는 그라스만 헤드가 약간 더 나은 일반화 능력을 보일 가능성을 시사하는데, 기하학적 구조가 과적합(overfitting)에 대한 일종의 암묵적 정규화 역할을 할 수 있기 때문이다. 부분공간 기하학에 의한 제약은 모델이 학습 데이터의 잡음에 과도하게 적합하는 것을 방지하는 효과를 가질 수 있다.

비록 마진은 작지만 이 결과는 개념적으로 중요한 함의를 가진다. 첫째, 백본이 고정되고 헤드에 초점을 맞춘 하류 추론 태스크에서 명시적 기하학적 구조를 분류 헤드에 주입하는 것이 트랜스포머 헤드를 대등하거나 약간 능가할 수 있음을 보여준다. 둘째, 그라스만 메커니즘이 단순한 이론적 호기심을 넘어 실질적인 설정에서 성능에 긍정적으로 기여할 수 있음을 시사한다. 자연어 추론은 두 문장 간의 의미적 관계에 대한 추론을 요구하는 태스크이므로, 그라스만 혼합이 포착하는 부분공간 기하학이 이러한 관계적 추론에 적합한 귀납적 편향(inductive bias)을 제공할 수 있다는 해석이 가능하다.

5.3 복잡도 및 경험적 실행 시간 분석

앞서 논의한 바와 같이, 인과적 그라스만 레이어의 점근적 복잡도는 고정된 축소 차원 $r$과 윈도우 수 $m$에 대해 시퀀스 길이 $L$에 대해 선형이며, 자기 주의는 $L \times L$ 어텐션 행렬로 인해 이차적으로 증가한다. 다음 표는 두 아키텍처의 복잡도를 구성 요소별로 비교한 것이다.

연산 Self-Attention Grassmann Mixing
선형 투영 ($Q,K,V$ / $W_{\text{red}}$) $\mathcal{O}(Ld^2)$ $\mathcal{O}(Ldr)$
핵심 상호작용 계산 $\mathcal{O}(L^2 d_{\text{head}})$ $\mathcal{O}(Lmr^2)$
역투영 / 혼합 $\mathcal{O}(L^2 d_{\text{head}})$ $\mathcal{O}(Lmdr^2)$
피드포워드 $\mathcal{O}(Ld^2)$ $\mathcal{O}(Ld^2)$
전체 (고정 $r$, $m$) $\mathcal{O}(L^2 d_{\text{head}} + Ld^2)$ $\mathcal{O}(Ld^2)$

그러나 논문은 이론적 복잡도와 실제 성능 사이의 격차를 솔직하게 인정한다. 현재 구현에서의 경험적 단계별 실행 시간이 시퀀스 길이 256까지에 대해 트랜스포머 베이스라인보다 느리다는 것이다. 이는 두 가지 이유에서 기인한다. GPU 라이브러리는 밀집 행렬 곱셈과 어텐션 메커니즘을 위한 고도로 최적화된 커널을 제공하며, 현재의 플뤼커 계산은 저수준 커널 퓨전이나 커스텀 CUDA 구현을 아직 활용하지 않는 명시적 원소별 연산과 텐서 재형성을 포함하기 때문이다. 따라서 점근적 선형 확장성의 이점은 현재 규모에서는 상수 계수의 오버헤드에 의해 가려져 있으며, $\mathrm{Gr}(2, r)$의 구조를 활용하는 전용 퓨전 구현이 실질적인 선형 확장성 이점을 실현하는 데 필요할 것이다.

6. 심층 분석: 아키텍처 구성 요소의 역할과 설계 선택

6.1 축소 차원 $r$의 선택과 플뤼커 좌표 차원의 관계

인과적 그라스만 아키텍처에서 축소 차원 $r$은 핵심 하이퍼파라미터로, 모델의 표현력과 계산 비용 사이의 균형을 결정한다. 논문에서 사용하는 $r = 32$는 원래의 모델 차원 $d = 256$의 1/8에 해당한다. 이 값의 선택이 아키텍처 전반에 미치는 영향을 살펴보면, 플뤼커 벡터의 차원은 $\binom{r}{2}$이므로, $r = 32$일 때 $\binom{32}{2} = 496$차원의 특징 벡터가 생성된다. 이 496차원은 모델 차원 256보다 크다는 점이 흥미로운데, 이는 축소 공간에서의 쌍별 기하학이 원래의 표현 공간보다 더 풍부한 정보를 인코딩할 수 있음을 의미한다.

만약 $r$을 더 작게, 예컨대 $r = 16$으로 설정하면 플뤼커 차원은 $\binom{16}{2} = 120$으로 줄어들어 계산 비용이 크게 감소하지만, 인코딩되는 기하학적 정보의 풍부함도 감소한다. 반대로 $r = 64$로 증가시키면 플뤼커 차원은 $\binom{64}{2} = 2016$으로 급격히 증가하여 투영 행렬 $W_{\text{plü}} \in \mathbb{R}^{d \times 2016}$의 파라미터 수와 계산량이 크게 늘어난다. 논문에서는 $r = 32$가 이러한 트레이드오프에서 합리적인 지점임을 암묵적으로 보여주지만, $r$에 대한 체계적인 ablation 연구는 보고되지 않았다. 이는 향후 연구에서 반드시 다루어야 할 중요한 설계 선택이다.

$r$의 선택은 $\mathrm{Gr}(2, r)$의 차원에도 영향을 미친다. 그라스만 다양체 $\mathrm{Gr}(2, r)$의 차원은 $2(r - 2)$이므로, $r = 32$일 때 다양체의 차원은 60이다. 이 60차원의 다양체가 496차원의 앰비언트 사영 공간에 임베딩되어 있으며, 이차 플뤼커 관계에 의해 제약되는 구조이다. 모델은 이 다양체 위의 점들을 직접적으로 다루는 것이 아니라 앰비언트 공간의 좌표로 작업하므로, 플뤼커 관계를 명시적으로 강제하는 정규화는 적용되지 않는다. 이는 모델이 엄밀한 그라스만 다양체 위에서만 작동하는 것이 아니라 그 주변의 앰비언트 공간에서 작동하며, 학습을 통해 유용한 기하학적 구조를 발견한다는 것을 의미한다.

6.2 다중 스케일 윈도우 설계의 의미

다중 스케일 윈도우의 설계는 그라스만 혼합이 포착할 수 있는 상호작용의 범위와 특성을 결정하는 또 다른 핵심 설계 선택이다. 논문에서 6레이어 모델에 사용하는 $\mathcal{W} = \{1, 2, 4, 8, 12, 16\}$은 기하급수적으로 증가하는 오프셋 패턴을 기반으로 하되, 중간 및 장거리에서 약간의 조밀화를 추가한 것이다. 오프셋 1은 바로 인접한 토큰과의 상호작용을, 오프셋 16은 16개 토큰 떨어진 위치와의 상호작용을 포착한다.

이 설계의 핵심 통찰은 다중 해상도(multi-resolution) 접근에 있다. 자연어에서는 인접 토큰 간의 구문적 관계(주어-동사, 관사-명사 등)와 더 먼 토큰 간의 의미적 관계(대용어 해소, 장거리 의존성 등)가 모두 중요하다. 가까운 오프셋은 전자를, 먼 오프셋은 후자를 포착하는 역할을 한다. 12레이어 모델에서 사용하는 반복 패턴 $(1, 1, 2, 2, 4, 4, 8, 8, 12, 12, 16, 16)$은 각 스케일에 두 개의 레이어를 할당하여, 특정 거리 범위의 상호작용이 더 깊게 처리될 수 있도록 한다. 이는 합성곱 신경망에서 얕은 레이어가 국소 패턴을, 깊은 레이어가 전역 패턴을 학습하는 것과 유사한 계층적 구조를 반영한다.

실험 결과에서 $\mathcal{W} = \{1, 2, 4, 8, 12, 16\}$ 구성이 $\{1, 2, 4, 8, 8, 8\}$ 구성보다 약간 더 나은 성능을 보인 것은, 다양한 스케일을 균형 있게 포함하는 것이 중복된 중간 스케일보다 더 유용한 정보를 제공함을 시사한다. 그러나 최적의 윈도우 스케줄을 찾기 위한 체계적인 탐색은 수행되지 않았으며, 이는 데이터셋과 태스크에 따라 달라질 수 있는 중요한 설계 결정이다. 특히 다양한 윈도우 크기의 기여도를 학습적으로 조절하는 메커니즘(예: 오프셋별 학습 가능한 가중치)은 흥미로운 확장 방향이 될 수 있다.

6.3 파라미터 효율성 분석

두 아키텍처의 파라미터 분배를 비교하는 것은 그라스만 혼합의 설계 특성을 이해하는 데 유용하다. 다음 표는 6레이어 모델에서의 추정 파라미터 분배를 보여준다.

구성 요소 TransformerLM GrassmannLM
임베딩 ($E + P$) ~7.8M ~7.8M
Q/K/V 투영 또는 선형 축소 ($W_{\text{red}}$) ~1.2M ($3 \times d \times d$) ~0.05M ($r \times d$)
핵심 상호작용 (어텐션 출력 투영 / 플뤼커 투영 $W_{\text{plü}}$) ~0.4M ~0.76M ($d \times \binom{r}{2}$)
게이팅 ($W_{\text{gate}}$) - ~0.8M ($d \times 2d$)
피드포워드 ($W_1, W_2$) ~3.1M ~3.1M
합계 ~12.6M ~13.0M

주목할 점은 파라미터 분배의 차이이다. TransformerLM에서는 Q/K/V 투영이 상당한 파라미터를 소비하며, 이 투영들이 $L \times L$ 어텐션 행렬 계산의 기반이 된다. 반면 GrassmannLM에서는 선형 축소 $W_{\text{red}}$의 파라미터가 매우 적지만($r \ll d$이므로), 플뤼커 투영 $W_{\text{plü}}$와 게이팅 $W_{\text{gate}}$에서 추가 파라미터가 발생한다. 특히 $W_{\text{plü}} \in \mathbb{R}^{d \times 496}$은 496차원의 기하학적 특징을 256차원의 모델 공간으로 사상하는 병목이 되며, 이 투영 행렬의 학습이 그라스만 혼합의 효과에 직접적으로 영향을 미친다. 전체적으로 GrassmannLM이 약 3% 더 많은 파라미터를 가지지만, 이 차이는 실질적으로 무시할 수 있는 수준이다.

6.4 게이트 융합 메커니즘의 역할 분석

게이트 융합 단계에서 시그모이드 게이트 $\alpha_t = \sigma(W_{\text{gate}} [h_t; g_t] + b_{\text{gate}})$는 원래의 은닉 상태 $h_t$와 그라스만 기하학적 특징 $g_t$ 사이의 상대적 기여를 차원별로 조절한다. 이 메커니즘은 여러 중요한 역할을 수행한다. 첫째, 적응적 정보 통합(adaptive information integration)으로 기능하여, 기하학적 특징이 유용한 차원에서는 이를 적극적으로 활용하고 그렇지 않은 차원에서는 원래 표현을 유지할 수 있게 한다. 둘째, 학습 안정성을 제공하여, 학습 초기에 아직 의미 있는 기하학적 특징이 형성되지 않았을 때 게이트가 $\alpha_t \approx 1$로 설정되면 원래 표현이 거의 그대로 전달되어 그래디언트 흐름이 유지된다.

이 게이트 메커니즘은 LSTM의 망각 게이트(forget gate) 및 입력 게이트(input gate), Highway Networks의 변환 게이트(transform gate), GRU의 업데이트 게이트(update gate) 등과 개념적으로 유사하며, 잔차 연결(residual connection)의 연속적(soft) 일반화로 볼 수 있다. 이러한 게이트 메커니즘의 효과는 딥러닝의 역사에서 반복적으로 검증되어 온 것으로, 두 가지 정보 원천을 동적으로 결합하는 보편적 패턴이다. 표준 잔차 연결은 $h_t' = h_t + f(h_t)$ 형태로 원래 신호와 변환된 신호를 항상 동일한 비율로 더하지만, 게이트 융합은 이 비율을 입력에 따라 동적으로 조절한다. 게이트의 입력이 $[h_t; g_t] \in \mathbb{R}^{2d}$의 연결이므로, 원래 상태와 기하학적 특징 양쪽의 정보를 활용하여 혼합 비율을 결정한다는 점에서 컨텍스트 인식적(context-aware)인 융합이 이루어진다.

7. 해석 가능성 논의와 이론적 함의: 다양체 위의 추론

7.1 그라스만 혼합이 실질적으로 제공하는 것

논문의 실험 결과는 순수하게 기하학적이고 국소성에 기반한 혼합 규칙이 명시적 자기 주의에 의존하지 않으면서도 비자명한(non-trivial) 언어 모델링과 자연어 추론을 지원할 수 있음을 보여준다. 비교적 작은 모델과 적당한 컨텍스트 길이에서 제안된 인과적 그라스만 아키텍처는 Wikitext-2에서 크기 매칭 트랜스포머와 경쟁력을 유지하고, DistilBERT 기반 NLI 모델로 사용될 때 SNLI에서 트랜스포머 분류 헤드를 소폭 상회한다.

엔지니어링 관점에서 이는 어텐션이 이 규모에서 유능한 시퀀스 모델링에 엄격하게 필요하지 않음을 보여주는 중요한 실증적 증거이다. 개념적 관점에서는 더 미묘한 주장을 지지한다: 모델이 기하학적으로 충분히 풍부한 국소 진화 규칙을 갖추면, 명시적 어텐션 가중치 없이도 의미적 추론이 출현할 수 있다. 자기 주의는 각 토큰이 학습된 $L \times L$ 가중치 행렬을 통해 다른 모든 토큰을 볼 수 있게 하고, 그라스만 혼합은 일련의 국소 부분공간 업데이트를 구축한다. 두 메커니즘 모두 레이어에 걸쳐 고차 기하학적 구조를 축적하지만, 자기 주의는 텐서 리프팅과 전역 쌍별 상호작용을 사용하고 그라스만 혼합은 저랭크 부분공간과 국소 윈도우를 다양체 위의 통제된 흐름으로 사용한다는 점에서 원시 연산이 근본적으로 다르다.

현재 규모에서 그라스만 모델은 언어 모델링에서 트랜스포머를 능가하지는 않으며 약간 뒤처진다. 이는 단순한 설계와 광범위한 하이퍼파라미터 튜닝의 부재를 고려하면 놀랍지 않다. 그러나 SNLI 결과는 백본이 고정되고 헤드에 초점을 맞출 때 명시적 기하학을 추가하면 측정 가능한 이득을 얻을 수 있음을 보여준다. 이는 기하학적 관점이 철학적으로만 매력적인 것이 아니라 실질적으로도 유용함을 시사한다.

7.2 자기 주의 대비 그라스만 혼합의 정보 이론적 비교

자기 주의와 그라스만 혼합을 정보 이론적 관점에서 비교하는 것은 두 메커니즘의 근본적 차이를 더 깊이 이해하는 데 도움이 된다. 자기 주의에서 각 토큰 $t$는 어텐션 가중치 $A_h[t, :] \in \mathbb{R}^L$을 통해 시퀀스의 모든 다른 토큰으로부터 정보를 수집한다. 이 가중치 분포는 소프트맥스에 의해 정규화되므로, 정보 이론적으로 보면 각 토큰이 다른 모든 토큰에 대해 확률적 정보 선택(probabilistic information selection)을 수행하는 것이다. 어텐션 엔트로피가 높으면 정보가 많은 토큰에서 균등하게 수집되고, 엔트로피가 낮으면 소수의 특정 토큰에 집중된다.

반면 그라스만 혼합에서 각 토큰은 고정된 윈도우 패턴에 의해 결정되는 소수의 이웃 토큰과만 상호작용하며, 이 상호작용은 확률적 선택이 아닌 결정론적 기하학적 인코딩(deterministic geometric encoding)을 통해 이루어진다. 즉, 어떤 토큰과 상호작용할지는 윈도우 패턴에 의해 사전에 결정되고, 상호작용의 내용은 플뤼커 좌표라는 기하학적 특성으로 표현된다. 이러한 차이는 모델이 "무엇에 주의를 기울일지"를 학습하는 자기 주의와, "고정된 국소 기하학에서 어떤 구조적 정보를 추출할지"를 학습하는 그라스만 혼합의 근본적 철학적 차이를 반영한다.

자기 주의에서 각 헤드는 쿼리-키 내적이라는 단일 스칼라 호환성 점수 $q_t^\top k_s$를 계산하여 두 토큰 간의 관련성을 측정한다. 이 스칼라 값은 매우 압축된 정보이며, 두 토큰 간의 관계를 단 하나의 숫자로 요약한다. 그라스만 혼합에서는 두 토큰의 관계가 $\binom{r}{2} = 496$차원의 플뤼커 벡터로 표현되어 훨씬 더 풍부한 관계적 정보를 인코딩한다. 다만 이 풍부한 정보는 고정된 국소 이웃에 대해서만 계산되므로, 전역적 정보 접근 능력과 국소적 정보 풍부함 사이의 트레이드오프가 존재한다. 자기 주의는 "어디서든 얕게(shallow from everywhere)", 그라스만 혼합은 "가까운 곳에서 깊게(deep from nearby)"라고 비유적으로 표현할 수 있다.

7.3 해석 가능성: 텐서 리프팅에서 유한 차원 흐름으로의 전환

논문은 서론에서 트랜스포머 비해석성의 핵심 원인이 텐서 리프팅으로서의 어텐션의 본질에 있다고 주장했다. 각 레이어는 표현을 고차원의 쌍별 상호작용 공간으로 리프팅하며, 전체 모델은 이러한 리프팅의 합성(composition)이다. 개별 어텐션 맵은 관찰 가능하지만 전역적 행동은 소수의 불변량으로 요약하기 어렵다.

이에 대비하여 그라스만 아키텍처는 관련 자유도를 유한 차원의 수학적으로 경직된(rigid) 다양체로 의도적으로 압축한다. 축소된 상태 $z_t \in \mathbb{R}^r$은 저차원 공간의 국소 방향을 포착하고, 쌍 $(z_t, z_{t+\Delta})$는 $\mathrm{Gr}(2, r)$ 위의 점을 정의하며, 이 점들은 고정 차원 $\binom{r}{2}$의 플뤼커 벡터로 인코딩된다. 혼합 과정은 $L \times L$ 텐서의 임의적 조작이 아니라 이러한 저랭크 부분공간의 국소 변형으로 제약된다.

이는 더 희망적인 해석 가능성 이야기를 시사한다. 학습 후 플뤼커 벡터나 다른 그라스만 기술자(descriptors)를 후보 설명적 불변량으로 취급할 수 있다. 이들은 수가 유한하고 명시적 대수적 관계를 따르며, 레이어 간에 비교 가능하고, 미분기하학 및 대수기하학의 도구로 연구할 수 있다. 이것이 해석 가능성을 자명하게 만들지는 않지만, 모델의 핵심을 전역 불변량을 정의하고 계산하는 것이 최소한 현실적 전망을 가지는 영역으로 이동시킨다. 진화하는 어텐션 텐서 컬렉션을 요약하려 시도하는 대신, $\mathrm{Gr}(2, r)$ 위의 진화하는 궤적을 요약하려 시도할 수 있다.

이를 어텐션 해석 가능성의 기존 문제와 대비해보면, 어텐션 맵은 종종 해석의 대리 지표(proxy)로 사용되지만, 어텐션 가중치가 인과적 중요도(causal importance)와 정렬되지 않는다는 것이 여러 연구에서 지적되어 왔다. 어텐션 가중치를 무작위로 섞어도 모델 출력이 크게 변하지 않는 경우가 있으며, 그래디언트 기반 중요도와 어텐션 가중치 사이의 상관관계도 일관되지 않는다. 그라스만 모델에서의 플뤼커 좌표는 이러한 문제에서 자유로울 가능성이 있는데, 이는 플뤼커 좌표가 학습된 가중치가 아니라 토큰 표현의 기하학적 관계를 직접적으로 인코딩하기 때문이다. 물론 이러한 잠재적 이점이 실제로 실현되는지는 실증적 검증이 필요하다.

구체적으로, 학습된 그라스만 모델에 대해 다음과 같은 분석이 원칙적으로 가능하다. 각 레이어에서 플뤼커 좌표의 분포가 어떻게 변화하는지 추적할 수 있으며, 특정 부분공간이 레이어를 관통하며 안정적으로 유지되는지 여부를 측정할 수 있다. 또한 의미적으로 관련된 토큰 쌍이 유사한 플뤼커 좌표를 공유하는지 등의 분석이 가능하다. 이러한 분석은 어텐션 맵의 시각화와 개념적으로 유사하지만, 기저에 있는 수학적 객체가 훨씬 더 구조화되어 있다는 점에서 질적으로 다른 수준의 해석을 가능하게 할 잠재력이 있다.

7.4 근사 정리와의 연결: 기하학 인식 편향

근사 이론의 관점에서 시퀀스 모델을 의미적 다양체 $M \subset \mathbb{R}^d$ 위의 연산자 $\Phi$를 근사하는 것으로 이상화할 수 있다. 보편 근사 정리는 온건한 조건하에서 신경망이 이러한 연산자를 임의로 잘 근사할 수 있음을 보장한다. 그러나 이 정리들은 아키텍처의 기하학적 구조에 대해 불가지적(agnostic)이다. 비구조적 텐서 위에서 작동하는 모델과 구조화된 다양체 위에서 작동하는 모델을 구별하지 않는다.

그라스만 다양체의 선택은 추가적인 기하학 인식 편향(geometry-aware bias)을 부과하는 것으로 볼 수 있다. 먼저 $M$의 국소 이웃을 선형 축소와 쐐기곱(wedge products)을 통해 $\mathrm{Gr}(2, r)$ 내의 부분공간으로 인코딩한다. 다음으로 그라스만 다양체 위의 유도된 변환을 MLP와 게이팅으로 근사한다. 마지막으로 원래의 표현 공간으로 역사상(map back)한다. 이러한 관점에서 근본적인 근사 용량을 변경하는 것이 아니라(네트워크는 원칙적으로 여전히 보편적임), 그 용량을 실현하는 방식을 제약하는 것이다. 모든 비국소적 상호작용은 명시적 구조를 가진 유한 차원 다양체를 통해 인수분해되어야 한다. 이는 어텐션이 강제하지 않는 것이다. 어텐션은 고차원 텐서 공간의 매우 자유로운 탐색을 허용한다.

이러한 제약이 실질적으로 유용한 귀납적 편향을 제공하는지, 아니면 표현력을 불필요하게 제한하는지는 현재 논문의 규모로는 완전히 답하기 어려운 질문이다. 그러나 SNLI에서 그라스만 헤드가 트랜스포머 헤드를 소폭 상회한다는 결과는, 적어도 특정 태스크에서 이러한 기하학적 편향이 유해하지 않으며 잠재적으로 유익할 수 있음을 시사한다.

7.5 전역 및 장거리 불변량: 다음 단계의 방향

현재의 인과적 그라스만 설계는 국소 윈도우만 사용한다. 장거리 의존성은 깊이와 다중 스케일 윈도우를 통해 암묵적으로 모델링된다. 이는 현재 연구된 태스크에는 충분하지만, 이 연구를 동기 부여한 직관에 부합하는 자연스러운 다음 단계를 시사한다: 시퀀스 수준의 그라스만 흐름에 대한 명시적 전역 또는 장거리 불변량을 구축하고 이를 특징으로 피드백하는 것이다.

예를 들어, 시퀀스 전체에 걸친 부분공간의 전반적 궤적을 요약하는 "평균 그라스만 방향(mean Grassmann direction)"을 계산할 수 있다. 또한 플뤼커 좌표의 시퀀스 수준 통계량, 예컨대 주방향(principal directions)이나 곡률 유사 양(curvature-like quantities)을 추출할 수 있다. 그리고 특정 부분공간이 깊이에 걸쳐 얼마나 안정적인지를 측정하는 교차 레이어 불변량도 고려할 수 있다. 이러한 불변량을 각 레이어에 보조 입력이나 게이트로 주입하면, 국소 흐름이 전역 제약에 의해 안내되는 시스템으로 아키텍처를 전환할 수 있다. 이는 정보 기하학에서 국소 메트릭(예: 피셔 정보)과 전역 곡률이 공동으로 추론을 형성하는 국소-전역 구조 간의 상호작용을 반영할 것이다.

논문은 의도적으로 $k=2$, 명시적 전역 불변량 없이 최소한의 설계에 자신을 제한했다. 그러나 "전역 불변량 + 국소 그라스만 흐름"을 기하학 인식 추론에 대한 향후 연구의 유망한 방향으로 제시한다. 이러한 방향은 현재 설계의 가장 명확한 한계인 장거리 의존성 모델링의 약점을 직접적으로 해결할 수 있을 것이다.

8. 한계점 및 향후 연구 방향: 확장성과 검증의 과제

본 논문은 어텐션 프리 시퀀스 모델링의 가능성을 제시하는 흥미로운 개념 증명을 보여주지만, 동시에 여러 명확한 한계점을 가지고 있다. 이 한계점들은 단순히 논문의 약점을 지적하는 것이 아니라, 향후 연구가 나아가야 할 방향을 구체적으로 지시하는 역할을 한다. 저자들 역시 이러한 한계를 솔직하게 인정하고 있으며, 그라스만 흐름이 어텐션을 완전히 대체하겠다는 주장이 아니라 설계 공간의 다른 영역을 여는 것이 목표임을 명시한다. 이하에서는 논문이 직면한 주요 한계와 이를 극복하기 위한 향후 연구 방향을 체계적으로 분석한다.

8.1 실험 규모의 제한

본 논문의 가장 명확하고 중요한 한계는 실험 규모의 제한이다. 모든 실험이 13~18M 파라미터, 최대 시퀀스 길이 256이라는 상당히 소규모의 설정에서 수행되었다. 현대 대규모 언어 모델(LLM)이 수십억에서 수천억 파라미터, 수천~수만 토큰의 컨텍스트 길이를 사용하는 것을 고려하면, 현재 규모에서의 결과가 더 큰 규모로 일반화될 수 있는지는 열린 질문으로 남아 있다. 특히 10~15%의 퍼플렉시티 격차가 모델 규모가 수억, 수십억 파라미터로 확장될 때 줄어들지, 유지되거나 오히려 벌어질지는 반드시 실증적으로 확인되어야 할 핵심 질문이다.

또한 사용된 벤치마크도 제한적이다. Wikitext-2는 상대적으로 작은 언어 모델링 데이터셋이며, SNLI는 자연어 추론의 한 가지 형태만을 테스트한다. 더 도전적인 벤치마크, 예컨대 긴 문서 이해, 복잡한 다단계 추론, 코드 생성, 수학적 추론 등에서의 성능은 검증되지 않았다. 특히 장거리 의존성이 중요한 태스크에서 국소 윈도우 기반의 그라스만 혼합이 어떻게 작동하는지는 핵심적인 후속 질문이다. 예를 들어, 최근 주목받는 "needle-in-a-haystack" 벤치마크처럼 긴 컨텍스트 내에서 특정 정보를 검색해야 하는 태스크에서 그라스만 모델의 성능은 현재로서는 미지수이다. 또한 다중 단계 추론(multi-hop reasoning)이나 수학적 증명 같이 먼 거리의 정보를 조합해야 하는 태스크에서도 검증이 필요하다.

8.2 실행 시간 최적화의 부재

논문이 솔직하게 인정하는 바와 같이, 현재 구현은 실행 시간 측면에서 최적화되지 않았다. 이는 연구의 초기 단계에서 흔히 나타나는 현상이기는 하지만, 실용적 관점에서는 무시할 수 없는 한계이다. 점근적으로 선형 복잡도를 가지지만, 경험적 실행 시간은 고도로 최적화된 어텐션 커널(FlashAttention 등)을 사용하는 트랜스포머보다 느리다. 이는 플뤼커 좌표 계산에서의 명시적 원소별 연산과 텐서 재형성의 오버헤드 때문이다. 그라스만 연산을 퓨즈(fuse)하고 $\mathrm{Gr}(2, r)$의 구조를 활용하는 전용 GPU 커널의 개발이 이론적 선형 확장성의 실질적 이점을 실현하는 데 필수적이다. 이러한 엔지니어링 투자 없이는 이 아키텍처의 실용적 가치를 완전히 평가하기 어렵다.

8.3 국소 윈도우의 한계와 전역 정보 통합

현재 설계에서 각 토큰은 고정된 윈도우 패턴(최대 오프셋 16) 내의 이웃 토큰들과만 직접 상호작용한다. 장거리 의존성은 오직 다중 레이어의 적층을 통해 간접적으로만 포착된다. 이는 계산 효율성을 보장하지만, 서로 멀리 떨어진 토큰 간의 관계가 중요한 태스크에서는 한계가 될 수 있다. 예를 들어, 긴 문서에서 도입부에 언급된 개념과 결론부의 주장 사이의 관계를 포착하려면 매우 많은 레이어가 필요할 수 있다.

저자는 이 한계를 인식하고, 시퀀스 수준의 전역 그라스만 불변량을 구축하여 국소 혼합에 주입하는 방향을 향후 연구로 제안한다. 또한 SSM 스타일의 시간적 동역학과의 결합, 커널화된 어텐션이나 합성곱 모듈과의 하이브리드 아키텍처 등도 국소, 전역, 시간적 정보의 균형을 더 잘 맞추는 방법으로 제시된다. 이 문제는 합성곱 신경망(CNN)에서도 유사하게 나타났던 것으로, 국소 수용장(receptive field)만으로는 전역 패턴을 포착하기 어렵다는 한계가 어텐션 메커니즘의 도입을 촉발했던 역사적 배경을 고려하면, 그라스만 혼합이 국소 윈도우의 한계를 어떻게 극복할지는 이 연구의 성패를 좌우하는 핵심 과제라고 할 수 있다.

8.4 $k=2$ 부분공간의 표현력 한계

현재 설계는 $k = 2$, 즉 2차원 부분공간만 고려한다. 이는 쌍(pair) 수준의 기하학만 포착하며, 세 개 이상의 토큰 간의 고차 상호작용은 직접적으로 모델링하지 않는다. 더 높은 차원의 부분공간($k > 2$)을 탐구하면 더 풍부한 국소 기하학을 포착할 수 있지만, 플뤼커 좌표의 차원이 $\binom{r}{k}$로 증가하므로 계산 비용과의 균형이 필요하다. 예를 들어 $k = 3$, $r = 32$이면 플뤼커 차원은 $\binom{32}{3} = 4960$으로 크게 증가한다.

또한 $\mathrm{Gr}(k, r)$ 위의 매끄러운 궤적을 장려하는 정규화기(regularizers)의 연구도 향후 방향으로 제시된다. 이는 레이어에 걸쳐 부분공간이 갑작스럽게 변하지 않고 점진적으로 진화하도록 유도하여, 모델의 해석 가능성을 더욱 향상시킬 수 있을 것이다. 구체적으로, 인접 레이어 간의 플뤼커 좌표 변화량에 대한 페널티를 부과하는 정규화항이나, 그라스만 다양체 위의 측지선(geodesic) 거리를 최소화하는 제약 조건 등이 고려될 수 있다. 이러한 매끄러움(smoothness) 제약은 물리학에서 경로 적분(path integral)의 작용(action)을 최소화하는 원리와 유사한 발상으로, 모델의 동역학에 물리적으로 동기 부여된 구조를 부여하는 것이다.

8.5 해석 가능성 주장의 실증적 검증 부재

논문의 핵심 동기 중 하나가 해석 가능성(interpretability)의 향상이지만, 이것은 현재로서 이론적 논증의 수준에 머물러 있다. 실제로 그라스만 모델이 트랜스포머보다 더 해석 가능한지에 대한 실증적 검증은 제공되지 않는다. 플뤼커 좌표와 모델 행동 사이의 상관관계 분석, 인간이 이해 가능한 패턴의 발견, 어텐션 맵 대비 그라스만 특징의 설명력 비교 등의 실험이 이루어지지 않았다. 해석 가능성에 대한 주장은 현재로서는 이론적 논증 수준에 머물러 있으며, 이를 실증적으로 뒷받침하는 것이 중요한 향후 과제이다. 예를 들어, 특정 언어 현상(대용어 해소, 구문 분석, 의미적 역할 부여 등)에 대해 플뤼커 좌표가 어떤 패턴을 보이는지, 이 패턴이 인간 언어학자에게 직관적으로 해석 가능한지, 그리고 어텐션 기반 해석 방법(예: BertViz, attention rollout) 대비 어떤 장단점을 가지는지에 대한 체계적 비교 연구가 필요하다.

8.6 향후 연구 방향 종합

논문은 다섯 가지 주요 향후 연구 방향을 제시한다. 각 방향은 현재 아키텍처의 특정 한계를 해결하면서도 그라스만 흐름의 핵심 아이디어를 유지하는 방향으로 설계되어 있다. 이를 구체적으로 살펴보면 다음과 같다.

  • 전역 및 장거리 불변량: 그라스만 흐름의 시퀀스 수준 불변량을 개발하고, 평균 부분공간, 곡률 유사 측정치, 교차 레이어 안정성 통계량 등을 국소 혼합의 특징이나 제약으로 주입하는 연구
  • 더 풍부한 그라스만 구조: $k = 2$ 부분공간을 넘어 더 고차원의 부분공간을 탐구하고, 레이어에 걸쳐 $\mathrm{Gr}(k, r)$ 위에서의 매끄러운 궤적을 장려하는 정규화기 연구
  • 하이브리드 아키텍처: 그라스만 혼합과 상태 공간 모델, 커널화된 어텐션, 합성곱 모듈을 결합하여 국소, 전역, 시간적 정보의 균형을 향상시키는 연구
  • 해석 가능성 연구: 플뤼커 좌표와 모델 행동, 인간이 이해 가능한 패턴 사이의 상관관계를 체계적으로 조사하여 어텐션 맵보다 안정적인 불변량을 정의하는 연구
  • 확장 및 엔지니어링: 퓨즈된 그라스만 커널과 최적화된 GPU 연산자를 구현하여 이론적 선형 확장성을 실현하고, 더 큰 규모와 더 도전적인 추론 벤치마크에서 아키텍처를 테스트하는 연구

9. 결론: 어텐션 너머의 기하학적 시퀀스 모델링

본 논문은 간단하지만 근본적인 질문을 재검토한다. 이 질문은 현대 딥러닝의 기반 위에 놓인 가정에 도전하는 것이다: 트랜스포머에서 일반적으로 구현되는 명시적 자기 주의가 강력한 시퀀스 모델링과 추론에 정말로 필요한가? 어텐션을 텐서 리프팅의 한 형태로 재해석함으로써, 그 능력이 수학적 추적 가능성의 비용으로 제공됨을 논증한다. 모델의 핵심이 전역적 행동을 명시적 불변량으로 요약하기 어려운 고차원 텐서 공간에 놓이게 되기 때문이다.

대안으로 제안된 인과적 그라스만 아키텍처는 시퀀스 상호작용이 $L \times L$ 어텐션 행렬이 아닌 그라스만 다양체 위의 흐름에 의해 지배된다. 이 아키텍처는 완전히 어텐션 프리이면서도 13~18M 파라미터에서 Wikitext-2에서의 트랜스포머 베이스라인과 경쟁력을 유지하고, 고정된 DistilBERT 백본 위에 배치될 때 SNLI에서 트랜스포머 기반 분류 헤드를 소폭 상회하며, 고정된 축소 차원과 윈도우 크기에 대해 시퀀스 길이에 선형인 점근적 복잡도를 가진다.

이러한 경험적 결과를 넘어, 주요 기여는 개념적이다. 그라스만 흐름은 핵심 연산이 비구조적 텐서 공간이 아닌 명시적 구조를 가진 유한 차원 다양체 위에서 이루어지는 시퀀스 모델을 설계하는 방법의 구체적 사례를 제공한다. 이는 신경망에서의 추론에 대한 더 기하학적인 이해를 향한 문을 열어준다. 논문의 결과는 강력한 시퀀스 모델링에 근본적으로 필요한 것이 어텐션 자체가 아니라, 표현이 거주하는 다양체 위에서 이동하는 원리적인 방법이라고 시사한다.

이 논문을 더 넓은 맥락에서 바라보면, Mamba 같은 상태 공간 모델(SSM), RWKV 같은 선형 어텐션 변형, RetNet 같은 잔류 학습 기반 접근법 등 "어텐션을 넘어서(beyond attention)"라는 연구 방향이 최근 활발히 진행되고 있다. 이러한 연구들은 대부분 어텐션의 이차 복잡도를 해결하는 것에 초점을 맞추지만, 본 논문은 그 이상의 질문을 던진다. 즉, 시퀀스 모델링의 핵심이 되어야 할 수학적 원시 연산(primitive)이 무엇이어야 하는가에 대한 기하학적 관점을 제시한다. 텐서 리프팅(어텐션)도, 선형 재귀(SSM)도, 그리고 다양체 위의 흐름(그라스만)도 모두 시퀀스의 표현을 구조화된 방식으로 진화시키는 방법이며, 각각 다른 귀납적 편향과 계산적 특성을 가진다. 이러한 다양한 원시 연산의 비교와 결합은 차세대 시퀀스 모델링 아키텍처의 설계에 중요한 영감을 제공할 수 있을 것이다. 향후 연구에서는 이러한 이질적 원시 연산들을 통합하는 메타 프레임워크의 개발이나, 태스크의 특성에 따라 최적의 원시 연산을 자동으로 선택하는 신경 아키텍처 탐색(Neural Architecture Search) 방법론의 확장 등도 고려해 볼 수 있을 것이다.

결론적으로, 본 논문의 가치는 최첨단 성능의 달성에 있다기보다는 시퀀스 모델링의 설계 공간(design space)을 확장하고, 기존에 당연시되었던 자기 주의의 필수성에 대해 수학적으로 뒷받침된 대안적 관점을 제시하는 데 있다. 그라스만 흐름이라는 구체적 구현이 궁극적으로 산업에서 실용적으로 채택되든 학술적 참고로만 남든, 이 연구가 열어놓은 "다양체 위의 기하학적 추론"이라는 새로운 연구 방향은 해석 가능하고 수학적으로 추적 가능한 신경망 아키텍처 설계를 향한 의미 있는 첫 걸음으로 평가할 수 있다.

10. 요약 정리

  • 자기 주의의 재해석: 본 논문은 자기 주의 메커니즘을 텐서 리프팅(tensor lifting)의 한 형태로 재해석하며, 이것이 트랜스포머의 해석 불가능성(uninterpretability)의 근본 원인이라고 주장한다. $L \times L$ 어텐션 텐서로의 리프팅은 소수의 명시적 불변량으로 전역적 행동을 기술할 가능성을 본질적으로 제거한다.
  • 그라스만 흐름 기반 어텐션 프리 아키텍처: 인과적 그라스만 혼합 레이어(Causal Grassmann mixing layer)를 제안하여, 은닉 상태의 선형 축소, 그라스만 다양체 $\mathrm{Gr}(2, r)$ 위의 플뤼커 좌표 인코딩, 게이트 융합을 통해 어텐션 행렬 없이 시퀀스 상호작용을 모델링한다.
  • 6단계 파이프라인: 선형 축소 → 다중 스케일 국소 쌍 형성 → 플뤼커 인코딩 → 모델 공간 역투영 → 게이트 융합 → 피드포워드의 6단계로 구성되며, 전 과정에서 어텐션 행렬이나 소프트맥스 정규화가 사용되지 않는다.
  • 선형 복잡도: 고정된 축소 차원 $r$과 윈도우 수 $m$에 대해 시퀀스 길이 $L$에 선형인 $\mathcal{O}(Ld^2)$ 복잡도를 달성하며, 자기 주의의 $\mathcal{O}(L^2 d_{\text{head}} + Ld^2)$와 대비된다.
  • Wikitext-2 결과: 13~18M 파라미터에서 GrassmannLM이 크기 매칭 TransformerLM 대비 검증 퍼플렉시티 10~15% 이내의 격차를 보이며, 깊이 증가 시 격차가 좁아지는 경향을 관찰한다.
  • SNLI 결과: DistilBERT 백본 위의 그라스만-플뤼커 헤드가 트랜스포머 헤드를 소폭 상회하여(테스트 정확도 0.8538 vs. 0.8511), 하류 추론 태스크에서 기하학적 구조의 주입이 성능에 긍정적으로 기여할 수 있음을 입증한다.
  • 해석 가능성 전망: 모델의 핵심 연산을 유한 차원의 수학적으로 경직된 다양체 위로 옮김으로써, 어텐션 맵보다 더 구조화된 불변량 기반 해석이 원칙적으로 가능해지는 경로를 제시한다.
  • 주요 한계: 소규모 모델(13~18M)과 제한된 벤치마크(Wikitext-2, SNLI)에서만 검증되었으며, 현재 구현은 최적화된 어텐션 커널보다 느리고, 해석 가능성 향상에 대한 실증적 검증이 부재하다.
  • 핵심 메시지: 강력한 시퀀스 모델링에 필요한 것은 어텐션 자체가 아니라 표현이 거주하는 다양체 위에서의 충분히 표현적인 기하학적 진화 메커니즘이며, 그라스만 흐름은 이 아이디어의 하나의 구체적 구현으로 제시된다.

댓글

홈으로 돌아가기

검색 결과

"" 검색 결과입니다.