[논문 리뷰]/[최신 논문] / [arXiv 2605.15871] AIRA: 에이전트가 발견하는 신경망 아키텍처와 재귀적 자기개선.md

[arXiv 2605.15871] AIRA: 에이전트가 발견하는 신경망 아키텍처와 재귀적 자기개선

2026. 5. 19. 14:34 조회

Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design

Alberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu, Yoram Bachrach | FAIR at Meta | arXiv:2605.15871 | 2026년 5월

대규모 언어 모델을 둘러싼 연구 자동화는 이제 단순한 코드 보조 수준을 넘어, 가설을 세우고 실험을 실행하며 결과를 해석하는 에이전트형 연구 루프로 이동하고 있다. 이 논문은 그 흐름을 신경망 아키텍처 설계라는 더 어려운 표면에 놓는다. 핵심 질문은 명확하다. LLM 에이전트가 자신을 구동하는 모델 구조를 직접 탐색하고, 사람이 미리 정한 Transformer 패턴 바깥에서 쓸 만한 foundation model 아키텍처를 찾을 수 있는가이다.

FAIR at Meta 연구팀은 이 질문을 AIRA-Compose와 AIRA-Design이라는 두 프레임워크로 나눈다. AIRA-Compose는 Attention, MLP, Mamba 같은 계산 primitive의 배치를 고르는 고수준 architecture search이고, AIRA-Design은 에이전트가 직접 model.py나 train.py를 작성해 새로운 attention mechanism 또는 학습 루프를 구현하는 저수준 mechanistic design이다. 두 경로 모두 에이전트가 자연어 reasoning만 남기는 데서 멈추지 않고, 실행 가능한 산출물과 독립 평가 결과로 검증된다는 점이 중요하다.

논문이 제시하는 결과는 단순히 “에이전트가 NAS를 해봤다”는 데 머물지 않는다. 16-layer proxy 검색에서 나온 구조를 350M, 1B, 3B 규모로 올려 실제 pretraining과 downstream 평가를 수행하고, LRA와 Autoresearch에서는 모델 코드와 학습 스크립트까지 에이전트가 바꾼다. 따라서 이 논문은 recursive self-improvement를 선언적 비전이 아니라, 작은 모델 proxy와 대규모 scaling 실험이 맞물리는 연구 시스템 문제로 다룬다.

1. 서론: 에이전트 연구 자동화가 모델 설계로 들어가는 순간

LLM agent 연구에서 지금까지 가장 눈에 띈 성과는 수학 문제 풀이, competitive programming, 실험 재현, 코드 생성, 커널 최적화처럼 비교적 명확한 채점기가 있는 영역에서 나왔다. 이런 영역은 실패가 빠르게 드러난다. 코드가 컴파일되지 않거나, 벤치마크 점수가 낮거나, 테스트가 깨지면 agent scaffold는 다음 행동을 고를 수 있다. 그러나 foundation model 아키텍처 설계는 훨씬 느리고 비싸다. 작은 proxy에서 좋아 보인 구조가 큰 모델에서도 유지될지, 특정 데이터셋의 validation score가 일반 reasoning task로 이어질지, search budget이 충분한지까지 함께 봐야 한다.

AIRA 논문은 이 지점을 정면으로 잡는다. 현재의 표준 LLM은 대부분 Transformer 계열이며, self-attention과 MLP가 1:1에 가까운 패턴으로 교차한다. 하지만 long context, KV cache 비용, inference latency, memory bandwidth 제약이 커질수록 hybrid LLM 설계가 중요해진다. Mamba 같은 selective state-space model, Gated DeltaNet 계열, sparse attention, grouped-query attention이 섞이면 가능한 layer sequence의 수가 폭발한다. 사람이 직관으로 훑기에는 search space가 너무 크고, 전통적인 NAS는 LLM 규모에서 비용 장벽이 높다.

연구팀은 이 상황을 agent에게 맡길 수 있는 형태로 재정의한다. 단순히 모델에게 “좋은 architecture를 제안하라”고 묻는 방식이 아니다. agent는 제한된 primitive pool, task description, evaluation script, submission format을 받고, Draft, Debug, Improve, Analyze 연산을 통해 후보를 만들고 고친다. 높은 validation fitness를 얻은 노드가 다음 탐색의 부모가 되며, 최종 제출물은 별도 평가 스크립트로 다시 검사된다. 이 구조는 아이디어 생성과 실험 실행을 한 루프 안에 묶어, 연구 자동화를 실제 search problem으로 바꾼다.

논문 제목의 “recursive self-improvement”는 과장된 자기복제 모델 서사가 아니라, agent가 모델 설계의 일부를 자동화해 다음 세대 foundation model의 구성 요소를 개선할 수 있는지를 묻는 실험적 표현에 가깝다. 여기서 recursion은 현재 agent가 더 나은 모델을 만들고, 그 모델이 다시 더 나은 agent를 구동할 수 있다는 장기 가설을 뜻한다. AIRA는 이 가설을 작은 proxy, 1B-scale pretraining, LRA mechanistic design, Autoresearch script optimization으로 쪼개 측정한다.

Figure 1: AIRA-Compose와 AIRA-Design의 전체 문제 구도 및 주요 결과 요약

Figure 1은 논문의 네 가지 핵심 결과를 한 장에 묶는다. 왼쪽은 agent-discovered architecture가 1B scale isotoken pretraining에서 validation loss와 downstream accuracy를 개선하는 모습을 보이고, 오른쪽은 AIRA-Design이 LRA와 Autoresearch에서 코드 수준 설계를 수행한 결과를 요약한다. 이 그림은 AIRA가 단일 NAS 실험이 아니라 구조 탐색과 구현 탐색을 함께 묶은 연구 자동화 프레임워크임을 보여 준다.

2. 배경 및 관련 연구: Transformer 이후의 조합 공간과 agentic NAS

2.1 Hybrid LLM 설계가 어려워지는 이유

Transformer가 오래 강력했던 이유는 단순한 반복 구조와 안정적인 scaling 법칙을 함께 제공했기 때문이다. attention block과 MLP block을 반복하면 구현이 쉽고, data와 compute를 늘릴 때 손실이 예측 가능하게 떨어진다. 그러나 long context와 on-device inference, memory-limited serving에서는 attention의 quadratic cost와 KV cache 저장량이 병목이 된다. 이런 이유로 SSM, sparse attention, local-global attention, gated recurrent update 같은 primitive가 다시 주목받고 있다.

문제는 primitive를 하나 더 넣는 순간 설계 공간이 조합 폭발을 일으킨다는 점이다. 16-layer proxy에서 두 primitive만 써도 가능한 sequence는 이미 수만 개 수준이고, 세 primitive가 되면 3의 16제곱, 즉 43,046,721개 조합으로 커진다. 여기에 depth scaling, width scaling, grouped-query attention 여부, SSM hidden dimension, MLP expansion factor가 들어가면 전통적인 grid search는 곧바로 무력해진다. AIRA-Compose는 이 공간에서 사람이 정한 Bayesian optimization만 쓰지 않고, agent의 design rationale과 iterative improvement를 search policy로 사용한다.

2.2 NAS, Composer, 그리고 agent scaffold의 결합

논문은 Composer를 중요한 출발점으로 삼는다. Composer는 small-scale proxy에서 primitive arrangement를 찾고, 상위 후보를 aggregation한 뒤, stretching 또는 stacking 방식으로 350M, 1B, 3B 같은 target scale로 올리는 프레임워크다. AIRA-Compose는 Composer의 전 과정을 버리지 않는다. search engine과 evaluator 부분을 agent task로 재구성하고, aggregation과 extrapolation은 기존 NAS 파이프라인의 안정적인 구성 요소로 다시 사용한다. 이 선택 덕분에 agent가 만든 후보가 곧바로 대규모 학습 실험으로 연결된다.

agent scaffold 관점에서 이 논문은 harness의 역할을 분명히 한다. agent는 LLM만으로 정의되지 않는다. 어떤 operator를 허용하는지, candidate file을 어디에 쓰는지, validation fitness를 어떻게 보여 주는지, debug가 언제 호출되는지가 agent 성능을 좌우한다. AIRA-dojo는 이 환경을 제공하며, greedy scaffold는 최초 5개 draft를 만든 뒤 가장 좋은 후보를 중심으로 tree search를 이어 간다. 이 구조는 이전에 리뷰한 Shepherd의 meta-agent runtime substrate와도 연결된다. Shepherd가 실행 trace와 effect stream을 runtime 제어 표면으로 본다면, AIRA는 architecture search trace를 연구 산출물의 제어 표면으로 삼는다.

2.3 Recursive self-improvement의 조심스러운 해석

recursive self-improvement라는 표현은 쉽게 과장될 수 있다. 이 논문에서 중요한 부분은 agent가 곧바로 자기 자신을 완전히 재작성했다는 주장이 아니다. 연구팀은 agent가 모델 아키텍처와 training loop라는 하위 설계 문제를 다루게 하고, 결과가 사람 설계 baseline과 Composer-found baseline을 일부 지표에서 앞서는지 살핀다. 즉 recursion은 완결된 순환이라기보다, “AI가 AI 설계 업무 중 일부를 수행하고 그 산출물이 다음 모델 후보가 되는가”라는 operational definition으로 쓰인다.

이 해석은 RecursiveMAS나 inner-outer loop agent training과도 닿아 있다. RecursiveMAS가 여러 agent의 상태를 다음 라운드로 되먹이는 협업 구조를 다뤘다면, AIRA는 architecture candidate와 evaluation score를 다음 improvement step의 입력으로 되먹인다. inner loop는 개별 후보의 code와 score를 개선하고, outer loop는 aggregation과 scale-up을 통해 어떤 작은 후보가 큰 모델에서도 남는지 확인한다. 이런 연결을 보면 AIRA는 agent collaboration 논문과 NAS 논문 사이에 놓인 중간 형태로 읽힌다.

배경을 요약하면 AIRA의 참신성은 “LLM agent가 좋은 아이디어를 냈다”가 아니라, 좋은 아이디어인지 판단하기 위한 다층 검증 구조에 있다. small proxy, independent evaluation, aggregation, scaling, downstream benchmark, LRA, Autoresearch가 단계적으로 붙는다. 이 다층 구조 때문에 논문은 agentic NAS의 가능성과 동시에 한계를 같이 드러낸다.

AIRA가 다루는 핵심 축은 다음처럼 정리할 수 있다.

축	기존 접근	AIRA의 재정의	리뷰에서 볼 포인트
모델 구조 탐색	사람이 primitive 조합을 설계하거나 전통적 NAS가 후보를 고른다	agent가 reasoning, 제출 파일, validation score를 오가며 16-layer 후보를 만든다	agent의 설명이 실제 test score와 얼마나 맞는지
규모 확장	작은 실험과 큰 pretraining 사이의 gap이 크다	aggregation과 extrapolation으로 350M/1B/3B 규모까지 올린다	small proxy ranking이 어디까지 보존되는지
저수준 구현	attention mechanism은 사람이 논문 아이디어를 코드화한다	agent가 LRA용 model.py와 Autoresearch용 train.py를 직접 작성한다	실행 가능한 코드와 scientific novelty 사이의 간극
평가	단일 score 또는 leaderboard 중심	validation loss, downstream accuracy, DCLM Core, VSR, NS, BPB를 함께 사용한다	성공률과 최고점의 차이를 구분해야 하는 이유

3. 방법론: AIRA-Compose와 AIRA-Design의 두 단계 설계

3.1 AIRA-dojo harness와 search operator

AIRA의 공통 기반은 AIRA-dojo harness다. 논문은 agent를 LLM과 scaffold의 조합으로 정의한다. LLM은 reasoning model이고, scaffold는 탐색 정책과 operator의 묶음이다. harness는 실행 환경, 파일 시스템, 평가 스크립트, tool access를 관리한다. 이 구분은 중요하다. 같은 LLM이라도 one-shot으로 한 번 제출하게 할 때와 greedy tree search로 수십~수백 step을 돌릴 때는 전혀 다른 연구 행위를 수행한다.

operator는 네 가지다. Draft는 초기 후보를 만들고, Debug는 format 오류나 OOM 같은 실패를 고친다. Improve는 현재 가장 좋은 후보를 부모로 삼아 새 구조를 제안하며, Analyze는 각 step의 결과와 reasoning을 읽는다. greedy scaffold는 5개 draft에서 시작해 validation fitness가 높은 노드를 확장한다. 한 layer를 채울 때 새 best가 나오기 전까지 improve를 반복하고, buggy solution이 감지되면 debug를 호출한다. 이 과정은 사람이 연구 노트를 보며 다음 실험을 정하는 방식과 닮았지만, 제출물과 score가 기계적으로 기록된다는 차이가 있다.

Figure 2: AIRA-Compose pipeline: Composer를 agentic task로 재구성한 흐름

Figure 2는 AIRA-Compose가 Composer의 search/evaluation 부분을 agent task로 바꾸는 방식을 보여 준다. agent는 16-layer small-scale architecture를 문자열로 제출하고, 평가 스크립트는 proxy dataset에서 성능을 계산한다. 이후 후보들은 ranking, clustering, aggregation을 거쳐 350M, 1B, 3B 모델로 확장된다. 이 흐름은 agent의 자유 탐색과 기존 NAS의 안정적인 scale-up 절차를 한 파이프라인 안에 결합한다.

3.2 AIRA-Compose: primitive sequence를 찾는 고수준 탐색

AIRA-Compose의 제출물은 submission.csv다. agent는 16개 layer에 들어갈 primitive sequence를 만든다. 2-primitive 설정에서는 MLP와 multi-head attention을 조합하고, 3-primitive 설정에서는 여기에 Mamba block이 들어간다. 각 후보는 agent가 직접 작성한 보조 평가 코드로 validation fitness를 확인하지만, 최종 test fitness는 독립 evaluation script가 계산한다. 이 분리는 agent가 자신에게 유리한 validation script를 만들거나 잘못된 proxy를 과신하는 문제를 줄이기 위한 장치다.

논문은 high-level search에서 agent가 단순 무작위 탐색과 다른 행동을 보인다고 보고한다. Figure 3의 greedy GPT-5 예시는 초기 다섯 후보에서 출발해, 부모 노드의 reasoning과 score를 바탕으로 더 나은 sequence를 제안하는 과정을 보여 준다. agent는 “attention을 어디에 몰아야 하는지”, “MLP-heavy 구간이 loss에 어떤 영향을 주는지”, “Mamba를 앞쪽에 둘지 뒤쪽에 둘지” 같은 가설을 남긴다. 물론 이 reasoning이 항상 맞는 것은 아니므로, 논문은 submitted score와 independent test score의 차이를 별도로 본다.

Figure 3: 3-primitive NAS task에서 greedy GPT-5가 탐색한 일부 tree

Figure 3은 AIRA-Compose가 단순한 prompt 답변 생성과 구분되는 이유를 보여 준다. 각 노드는 architecture string, agent rationale, validation fitness, test accuracy를 함께 갖고 있으며, 빨간 화살표는 debug, 파란 화살표는 improve를 나타낸다. agent는 이전 노드의 약점을 근거로 다음 후보를 만든다. 이 구조 덕분에 실패한 후보도 버려지는 로그가 아니라 다음 검색 정책을 형성하는 trace가 된다.

3.3 AIRA-Design: model.py와 train.py를 직접 쓰는 저수준 설계

AIRA-Design은 더 까다로운 설정이다. high-level search가 primitive sequence를 제출했다면, 여기서는 agent가 새로운 computation primitive나 training loop를 코드로 구현해야 한다. LRA task에서는 CustomEncoder 또는 dual encoder를 JAX/Flax 기반 인프라와 호환되도록 작성한다. Autoresearch task에서는 nanochat 계열 GPT training script를 바꾸어 5분 wall-clock budget 안에서 validation bits per byte를 낮춘다. 구조적 아이디어뿐 아니라 shape, masking, optimizer schedule, batch size, sequence length 같은 구현 세부사항이 모두 성능에 영향을 준다.

이 설정은 agent의 한계를 더 잘 드러낸다. 논문은 강한 agent들이 LRA에서 linear attention, ELU+1 kernel, bidirectional state-space model, depthwise convolution, gated linear unit, blockwise local-global attention을 조합한 working solution을 만들었다고 보고한다. 하지만 동시에 이런 설계가 효율적 attention 문헌에 새로운 이론적 insight를 추가했다고 보기는 어렵다고 분명히 적는다. AIRA-Design의 성과는 과학적 발견의 완성보다 엔지니어링 synthesis와 task-adaptive implementation 능력에 가깝다.

Figure 4: AIRA-Design: LRA와 Autoresearch를 agent-driven mechanistic design task로 변환

Figure 4는 AIRA-Design의 실행 단위를 정리한다. agent는 LRA에서는 model.py를, Autoresearch에서는 train.py를 제출하며, one-shot과 greedy scaffold가 서로 다른 LLM을 core reasoning model로 사용한다. high-level sequence search보다 failure mode가 많기 때문에 valid submission rate가 별도 지표가 된다. 이 그림은 AIRA가 architecture string을 고르는 문제에서 executable research artifact 생성 문제로 확장되는 지점을 보여 준다.

논문이 정의한 12개 RSI task는 다음처럼 압축할 수 있다.

프레임워크	문제/데이터셋/지표	제출 산출물	의미
AIRA-Compose 2 primitives	MAD accuracy, BabiStories loss, DCLM loss에서 MLP와 attention sequence 탐색	submission.csv에 16개 primitive 문자열	Transformer-like 구조에서 attention:MLP 비율과 위치를 agent가 고른다
AIRA-Compose 3 primitives	MAD accuracy에서 MLP, attention, Mamba sequence 탐색	submission.csv에 16개 primitive 문자열	hybrid LLM의 combinatorial search를 agentic 탐색으로 줄인다
AIRA-Design LRA	Text, ListOps, Retrieval 및 configurable variant의 accuracy	model.py	long-range dependency를 처리하는 efficient attention 또는 recurrent 구조를 직접 구현한다
AIRA-Design Autoresearch	기본 및 literature-enhanced Autoresearch BPB	train.py	짧은 시간 예산에서 학습 스크립트, optimizer, schedule, architecture를 함께 조정한다

4. 실험 설정: proxy search와 large-scale pretraining을 연결하는 프로토콜

4.1 데이터셋 및 벤치마크

AIRA-Compose의 small-scale search는 MAD, BabiStories, DCLM proxy task를 사용한다. MAD는 architecture ranking이 large-scale performance와 비교적 잘 맞는 데이터셋으로 쓰이며, 3-primitive hybrid search는 주로 MAD를 기준으로 수행된다. BabiStories와 DCLM은 더 큰 search cost가 들기 때문에 60시간 budget을 배정한다. 이렇게 서로 다른 proxy를 쓰는 이유는 단일 toy score로 foundation model 후보를 고르면 특정 데이터 분포에 과적합된 sequence가 scale-up될 위험이 커지기 때문이다.

large-scale 평가는 1B scale isotoken pretraining과 350M/1B/3B isoFLOP 분석으로 나뉜다. 1B isotoken 실험은 37.5B tokens, 즉 약 38 TPP budget에서 validation loss와 downstream task accuracy를 본다. downstream task는 ARC-Challenge, ARC-Easy, HellaSwag, PIQA, SciQ, WinoGrande 6개 zero-shot task이며, DCLM Core score는 COPA, CoQA, LAMBADA, OpenBookQA, AGIEval, BoolQ, CommonsenseQA, SQuADv2 등 14개 task를 섞는다. isoFLOP 분석은 같은 compute budget에서 scaling frontier가 얼마나 빨리 내려가는지 확인한다.

4.2 구현 세부사항

실험 budget은 상당히 크다. AIRA-Compose에서는 24시간 또는 500 step 제한이 기본이고, 각 agent는 H200 GPU 하나를 사용해 후보를 검증한다. 논문은 one-shot agent를 20 seeds, greedy agent를 10 seeds로 돌리는 구성을 기본으로 삼는다. 2-primitive search에서는 다섯 LLM과 one-shot/greedy scaffold를 조합하고, MAD에는 greedy GPT-5 run을 추가한다. 3-primitive search에서는 170개 agentic run을 통해 2,248개 unique architecture를 얻는다.

large-scale pretraining에서는 350M 모델을 8개 H200, 1B와 3B 모델을 16개 H200으로 학습한다. sequence length는 8,192이고, batch는 step당 524,288 tokens로 계산된다. Attention block은 grouped-query attention을 사용하고, MLP는 SwiGLU 변형으로 구성된다. Mamba block은 selective scan 기반 SSM으로 쓰이며, large scale에서는 SSM hidden dimension, state dimension, head dimension이 scale별로 조정된다. 이 세부사항은 agent가 발견한 16-layer pattern을 큰 모델로 올릴 때 primitive별 FLOPs가 달라지는 문제를 맞추기 위해 필요하다.

4.3 베이스라인과 평가 지표

AIRA-Compose의 주요 baseline은 Llama 3.2, Composer-found Transformer, Mamba, approximated Nemotron-H, approximated Nemotron-2, Composer-found hybrid다. 논문은 MoE가 들어간 실제 Nemotron 계열을 그대로 축소하기 어렵기 때문에 MLP로 대체한 approximate version을 사용한다. 이 점은 결과 해석에서 조심해야 한다. AIRAhybrid가 approximated Nemotron-2를 이겼다는 말은 해당 근사 구조와 동일한 training budget에서의 비교라는 의미다.

AIRA-Design에서는 raw score, valid submission rate, normalized score, BPB가 함께 쓰인다. LRA는 accuracy가 높을수록 좋고, Autoresearch는 validation BPB가 낮을수록 좋다. VSR은 agent가 working solution을 안정적으로 제출했는지 측정한다. NS는 task별 SOTA와 worst 기준 사이에서 agent score를 정규화한다. 이 두 지표를 같이 봐야 최고 성능을 한 번 찍은 agent와 안정적으로 제출하는 agent를 구분할 수 있다.

실험 설정을 표로 모으면 다음과 같다.

항목	AIRA-Compose	AIRA-Design LRA	AIRA-Design Autoresearch
실행 산출물	16-layer primitive sequence를 담은 submission.csv	JAX/Flax 인프라와 호환되는 model.py	nanochat 기반 학습 스크립트 train.py
탐색 budget	기본 24시간/500 step, BabiStories와 DCLM은 60시간	greedy agent 10 seeds, one-shot agent 20 seeds	7개 greedy agent 10 seeds, literature variant 30개 추가 실험
주요 하드웨어	agent당 H200 1개, scale-up은 8~16 H200	agent별 task run, held-out test split 사용	단일 GPU 5분 wall-clock budget
지표	validation loss, zero-shot accuracy, DCLM Core, isoFLOP frontier	raw accuracy, VSR, NS, generalization gap	validation BPB, improvement step, feature-change 분석
핵심 리스크	small proxy score가 large scale로 보존되는지	working submission과 true novelty의 차이	복합 수정 때문에 causal attribution이 어렵다

5. 주요 실험 결과: agent-discovered architecture가 어디서 이겼는가

5.1 2-primitive AIRAformer 결과

2-primitive 설정에서는 MLP와 attention만 사용한다. 논문은 2,307개 unique architecture를 탐색했으며 이는 search space의 3.17%에 해당한다고 보고한다. 최종적으로 AIRAformer-A, B, C, D 네 계열과 stacked/stretched 변형이 나온다. 흥미로운 점은 서로 다른 aggregation 방법으로 얻은 구조들이 공통 attention-to-MLP ratio로 수렴한다는 것이다. AIRAformer-A와 B는 7:9에 가까운 비율, C와 D는 11:5에 가까운 attention-heavy 비율을 보인다.

1B isotoken 결과에서 AIRAformer-D Stretched는 validation loss 2.734를 기록해 Llama 3.2의 2.815와 Composite Stretched의 2.759를 앞선다. zero-shot 평균도 59.7%로 Llama 3.2의 57.5%보다 높고, DCLM Core는 48.9로 가장 높은 축에 들어간다. 논문 abstract는 AIRAformer-D가 Llama 3.2 대비 downstream accuracy를 2.4% 개선한다고 요약한다. 이 결과는 사람 손으로 만든 균일한 attention-MLP 반복보다 agent가 찾은 non-uniform 배치가 제한된 budget에서 더 나은 trade-off를 만들 수 있음을 보여 준다.

Architecture	Val Loss	ARC-C	ARC-E	HellaSwag	PIQA	SciQ	WinoGrande	Avg	DCLM Core
Llama 3.2	2.815 +/- .003	26.1	62.3	41.4	72.2	87.2	56.0	57.5	46.9
Composite Stacked	2.782 +/- .021	27.7	62.9	42.4	72.2	88.0	57.3	58.4	46.6
Composite Stretched	2.759 +/- .002	28.1	64.0	42.6	72.2	88.1	55.3	58.4	47.3
AIRAformer-A Stretched	2.752 +/- .002	29.8	65.4	43.2	72.6	88.0	58.4	59.6	48.5
AIRAformer-C Stacked	2.751 +/- .002	28.4	63.5	42.9	72.5	89.3	58.3	59.1	48.8
AIRAformer-D Stacked	2.745 +/- .002	28.4	63.1	43.3	72.4	88.7	58.1	59.0	48.4
AIRAformer-D Stretched	2.734 +/- .001	29.4	63.7	43.7	72.9	89.4	58.9	59.7	48.9

표에서 볼 수 있듯 loss 개선과 downstream accuracy 개선이 완전히 같은 순서로 움직이지는 않는다. AIRAformer-D Stretched는 loss와 DCLM Core에서 강하지만, SciQ는 AIRAformer-C 변형이 높다. 이는 architecture search 결과를 단일 평균으로만 평가하기 어렵다는 신호다. agent가 찾은 구조가 어떤 task family에 강한지, loss frontier와 reasoning benchmark가 얼마나 일치하는지 따로 읽어야 한다.

Figure 5: 2-primitive AIRAformer의 isoFLOP scaling curve와 optimal frontier

Figure 5는 2-primitive 구조의 isoFLOP scaling을 보여 준다. 위쪽은 model size별 validation loss 곡선이고, 아래쪽은 Llama 3.2 scaling law와 비교한 optimal frontier다. 논문은 AIRAformer-C가 Llama 3.2보다 54%, best Composer-found Transformer보다 71% 빠른 scaling frontier를 보인다고 보고한다. 즉 같은 loss에 도달하는 데 필요한 compute가 줄어드는 방향의 이득을 주장한다.

5.2 3-primitive AIRAhybrid 결과

3-primitive 설정에서는 Mamba가 들어가며 search space가 훨씬 커진다. 논문은 MAD 기준 170개 agentic run으로 2,248개 unique architecture를 얻었고, 이는 전체 공간의 0.0052%에 불과하다고 설명한다. 그럼에도 AIRAhybrid-A부터 E까지 8개 변형이 만들어진다. 여기서 agentic search의 장점은 모든 조합을 훑지 않아도, reasoning과 validation score를 이용해 일부 유망 cluster를 찾아 aggregation할 수 있다는 데 있다.

1B isotoken 결과에서는 AIRAhybrid-D Stretched가 validation loss 2.719와 zero-shot 평균 60.5%를 기록한다. 이는 approximated Nemotron-2의 평균 60.3%를 약간 앞서고, Mamba-only baseline의 59.6%보다 높다. abstract는 AIRAhybrid-D가 Llama 3.2 대비 3.8% downstream accuracy 개선을 보였다고 요약한다. 다만 DCLM Core에서는 Composer 2Mb-M-3A가 49.3으로 가장 높고, AIRAhybrid-B Stretched가 49.1, AIRAhybrid-C가 48.9를 기록한다. 따라서 “최고 모델 하나”보다 “task별 강점이 갈리는 후보군”으로 보는 편이 정확하다.

Architecture	Val Loss	ARC-C	ARC-E	HellaSwag	PIQA	SciQ	WinoGrande	Avg	DCLM Core
Nemotron-H Approx.	2.741	29.1	65.3	43.4	73.3	87.8	56.4	59.2	48.5
Nemotron-2 Approx.	2.732	30.7	65.9	44.2	74.0	88.7	58.5	60.3	48.4
Mamba Mb+M	2.771	30.1	64.9	43.2	72.9	88.8	57.7	59.6	46.1
Composer 2Mb-M-3A	2.724	30.0	65.0	43.9	71.9	89.6	58.8	59.9	49.3
AIRAhybrid-B Stretched	2.728	30.0	65.1	44.2	73.4	89.5	59.2	60.2	49.1
AIRAhybrid-C Stretched	2.740	30.2	65.0	43.3	72.8	90.2	58.0	59.9	48.9
AIRAhybrid-D Stacked	2.720	29.5	65.1	44.3	72.8	89.9	59.8	60.2	48.4
AIRAhybrid-D Stretched	2.719	32.0	66.3	44.1	73.6	88.6	58.2	60.5	48.5

Figure 6: 3-primitive hybrid architecture의 isoFLOP scaling curve와 Nemotron 계열 비교

Figure 6은 MLP, attention, Mamba를 함께 쓰는 hybrid 구조의 scaling curve를 보여 준다. AIRAhybrid-C는 modified Nemotron-2보다 23%, best Composer-found hybrid보다 37% 빠른 scaling을 보였다고 논문은 해석한다. 여기서 빠르다는 말은 특정 loss frontier에 도달하는 compute 효율을 뜻한다. validation loss와 downstream score가 서로 다른 후보를 밀어 올리기 때문에, hybrid 설계는 frontier와 task accuracy를 함께 봐야 한다.

5.3 latency-loss Pareto frontier

AIRA가 설득력을 얻는 또 다른 지점은 latency와 loss의 trade-off다. 실제 serving에서는 validation loss만 낮다고 좋은 모델이 아니다. attention-heavy 구조는 정확도가 좋아도 latency와 KV cache cost가 커질 수 있고, Mamba-heavy 구조는 긴 context에서 효율적이지만 task별 accuracy가 떨어질 수 있다. 논문은 1B scale에서 per-block latency를 합산해 Pareto frontier를 그린다. agent-discovered architecture를 포함했을 때 frontier가 넓어지면, 같은 latency에서 더 낮은 loss 또는 같은 loss에서 더 낮은 latency를 고를 수 있다.

Figure 7: 1B scale에서 latency와 validation loss Pareto frontier 비교

Figure 7은 AIRA 후보가 단순히 loss만 낮추는지, inference cost 관점에서도 선택지를 넓히는지 확인한다. 점선은 agent-discovered architecture를 제외한 frontier와 포함한 frontier를 비교하고, 음영은 두 frontier 사이의 gap을 표시한다. 이 그림은 hybrid architecture search가 benchmark score 경쟁에 그치지 않고, 실제 배포 환경에서 latency-loss 선택지를 늘릴 수 있음을 보여 준다.

6. 추가 분석 및 Ablation Study: 성공률, 일반화 gap, training loop 수정

6.1 LRA에서 나타난 agent별 차이

AIRA-Design의 LRA 결과는 AIRA-Compose보다 해석이 더 복잡하다. agent는 working model.py를 만들어야 하고, shape 오류나 training instability를 피해야 하며, final submission이 held-out test에서 유지되어야 한다. 논문은 20개 agent, 12개 unique model, 1,680개 run을 통해 결과를 모았다. Greedy Gemini 3 Pro, Gemini 3.1 Pro, Opus 4.6이 높은 best accuracy를 보였고, Opus 4.6은 valid submission rate 측면에서도 강하게 나타난다.

하지만 논문은 LRA 성과를 과도하게 포장하지 않는다. agent가 만든 구조는 linear attention, hierarchical pooling, blockwise local attention, recurrent memory, depthwise convolution, GLU 같은 알려진 building block의 재조합이 대부분이다. 이는 현 시점의 agent가 scientific novelty보다 engineering-level synthesis에 강하다는 근거다. 이 구분은 중요하다. 연구 자동화에서 “돌아가는 코드”와 “새로운 원리”는 서로 다른 성공 기준이며, AIRA-Design은 두 기준 사이의 간격을 정량적으로 드러낸다.

Figure 8: LRA 6개 mechanistic design task에서 greedy agent별 best test accuracy

Figure 8은 LRA task에서 greedy agent가 도달한 best test accuracy를 비교한다. solid bar는 기본 LRA 설정, striped bar는 configurable 설정을 뜻한다. SOTA dashed line과의 거리를 보면 agent가 일부 task에서 인간 설계 SOTA에 상당히 가까이 접근하지만, 전체적으로는 task와 agent에 따라 편차가 크다. 특히 configurable setup에서는 hyperparameter tuning 능력이 architecture design 능력과 섞여 나타난다.

Table 4의 average normalized score는 이러한 차이를 더 압축적으로 보여 준다. greedy agent만 볼 때 ListOps는 0.257, Text는 0.199, Retrieval은 0.197 수준이고, one-shot까지 포함하면 평균이 크게 낮아진다. 이는 iterative scaffold의 효과를 시사한다. 한 번에 답을 내는 agent보다, 실행 결과를 보고 후보를 고치는 agent가 연구형 task에서 훨씬 유리하다.

Task	Greedy Non-Config NS	Greedy Config NS	One-shot+Greedy Non-Config NS	One-shot+Greedy Config NS	해석
ListOps	0.257 +/- 0.054	0.259 +/- 0.049	0.154 +/- 0.043	0.156 +/- 0.041	구조적 연산과 긴 bracket dependency가 핵심이며 configurable 이득은 제한적이다
Text	0.199 +/- 0.053	0.178 +/- 0.064	0.119 +/- 0.039	0.107 +/- 0.043	문서 sentiment 분류에서는 hyperparameter 자유도가 항상 이득으로 이어지지 않는다
Retrieval	0.197 +/- 0.041	0.179 +/- 0.058	0.118 +/- 0.033	0.107 +/- 0.040	dual encoder와 pooling 설계가 필요해 final submission 선택이 어려운 task다

6.2 valid submission rate와 generalization gap

LRA에서 특히 중요한 지표는 valid submission rate다. best accuracy만 보면 agent가 한 번 강한 후보를 찾은 것처럼 보일 수 있지만, final submission이 실패하거나 validation에서만 좋아 보인다면 연구 자동화 시스템으로 쓰기 어렵다. 논문은 VSR을 task별, agent별로 측정하고, no valid submission을 평균 계산에서 0으로 반영한다. 이 선택은 엄격하지만 타당하다. 실제 자동 연구 시스템에서는 한 번 멋진 코드 조각을 만든 것보다, 제출 가능한 결과를 반복적으로 내는 안정성이 더 중요하기 때문이다.

Figure 9: LRA greedy agent의 best observed accuracy와 submitted final accuracy 사이의 일반화 gap

Figure 11은 agent가 search 중 관찰한 best score와 실제 제출한 final score 사이의 차이를 보여 준다. validation 기준으로 가장 좋아 보였던 후보가 held-out test에서 유지되지 않으면 gap이 생긴다. 이 gap은 agentic research의 핵심 병목이다. agent가 후보를 잘 만드는 능력과, 어떤 후보를 최종 제출해야 하는지 판단하는 능력은 다르며, AIRA는 두 능력을 분리해 읽게 만든다.

6.3 Autoresearch: training loop를 고치는 agent

Autoresearch는 agent가 architecture search를 넘어 training script 자체를 고치는 설정이다. baseline train.py는 ReLU squared MLP, depth 8, aspect ratio 64, head dimension 128, 6-head MHA, SSSL window pattern, Muon-AdamW optimizer 등을 포함한다. agent는 5분 budget에서 validation BPB를 낮추기 위해 depth, width, attention window, embedding learning rate, matrix learning rate, weight decay, schedule, value embedding, softcap, focal loss 등을 바꾼다.

논문은 base Autoresearch task 70 runs에서 11,530 steps 중 3,936 steps, 즉 34.1%가 valid numerical fitness를 냈다고 보고한다. 상위 agent에 literature와 code repository context를 추가한 variant도 수행한다. 흥미롭게도 literature access가 항상 이득을 주지는 않는다. GPT-5 + literature와 Opus 4.5 + literature는 base variant보다 나빠질 수 있고, Opus 4.6 + literature는 약간 개선된다. 외부 지식이 추가되면 탐색 공간이 넓어지는 동시에, agent가 적용 가능한 낮은 비용 변경을 고르는 부담도 커진다.

Figure 10: Autoresearch task에서 seed별 best validation BPB 분포

Figure 12는 Autoresearch에서 agent별 best BPB 분포를 나타낸다. 낮을수록 좋은 지표이며, 빨간 점선은 RADv1 baseline 1.0121, 검은 점선은 기존 Autoresearch best 0.9775를 뜻한다. Opus 4.5와 Opus 4.6 계열은 1.00 아래로 비교적 안정적으로 내려가지만, 일부 agent는 baseline 근처에서 정체한다. 이 분포는 최고 seed 하나보다 median과 variance를 함께 보는 것이 필요함을 보여 준다.

Table 5의 improvement step은 agent가 어떤 식으로 train.py를 바꾸는지 구체적으로 보여 준다. Greedy Opus 4.5 + literature의 best seed는 두 번째 step에서 embedding initialization std를 1.0에서 0.5로 낮추고, Newton-Schulz steps를 5에서 4로 줄이며, softcap을 15에서 18로 올리고, focal loss를 cross-entropy 대신 넣어 BPB 0.968에 도달한다. 이 결과는 단일 변경의 승리라기보다 여러 수정이 함께 작동한 compound intervention으로 읽어야 한다.

Step	Opus 4.5 seed 8	Opus 4.6 seed 2	Opus 4.5 + Literature seed 10	Opus 4.6 + Literature seed 4
Baseline	BPB 1.012, depth 8, aspect 64, head_dim 128, SSSL, matrix_lr 0.04, embedding_lr 0.6	동일 baseline	동일 baseline에 literature/code context 제공	동일 baseline에 literature/code context 제공
1	1.008: width 증가, value embedding 제거, matrix_lr 상향, weight_decay 하향	1.007: depth 10, aspect 58, head_dim 64, SSL window	1.004: depth 10, embedding_lr 0.8, warmdown 0.7	0.995: depth 10, batch 축소, learning rate 상향
2	0.992: aspect 96, value embedding 복원, LR 재조정	0.990: head_dim 128 복원, SSSL 복원, weight_decay 상향	0.968: init std 0.5, ns_steps 4, softcap 18, focal loss	0.995: depth 12, shorter window, warmdown 0.97
최종 해석	여러 작은 안정화 조치가 누적된다	구조 변경과 schedule 조정이 반복된다	가장 낮은 BPB는 literature variant의 compound edit에서 나온다	긴 sequence와 batch 조정이 계속 이어진다

Figure 11: Greedy Opus 4.5와 Opus 4.6 계열의 best-seed BPB 개선 궤적

Figure 13은 Autoresearch에서 improvement step이 시간에 따라 어떻게 누적되는지 보여 준다. 흐린 점은 개선되지 않은 evaluation이고, step line은 누적 best BPB를 나타낸다. 한 번의 큰 도약보다 여러 수정이 합쳐져 best-so-far를 낮춘다는 점이 보인다. 이 그림은 agent가 full-file regeneration 방식으로 움직이기 때문에, 각 개선의 causal attribution이 어렵다는 논문의 한계와도 연결된다.

6.4 feature-change 분석이 남기는 운영적 의미

부록의 feature 분석은 Autoresearch 결과를 더 현실적으로 읽게 한다. 156개 positive improvement step을 보면 depth/width 변경은 46%의 step에 관여했고, learning rate 변경은 49%에 함께 나타난다. attention pattern 변경은 median BPB 개선이 가장 높지만 등장 빈도는 37%다. boolean feature에서는 value embeddings 추가, EMA 추가, z-loss 제거, gradient clipping 제거 등이 반복적으로 관찰된다. 다만 논문은 대부분의 improvement step이 여러 feature를 동시에 바꾼다고 밝힌다. 이는 agent가 연구자처럼 “한 변수만 바꾸는 ablation”을 수행하지 않고, 전체 파일을 다시 써서 여러 조치를 섞는 경향이 있음을 뜻한다.

이 대목은 실제 agentic research system을 설계할 때 중요하다. agent가 점수를 낮추는 변경을 찾았더라도, 그 변경 중 무엇이 효과를 냈는지 모르면 재사용 가능한 지식이 되기 어렵다. AIRA의 feature analysis는 자동 연구의 다음 단계가 단순히 더 강한 LLM을 붙이는 데 있지 않고, change provenance, ablation controller, patch-level attribution을 harness 안에 넣어야 함을 보여 준다.

6.5 aggregation과 scale-up 패턴을 따로 읽어야 하는 이유

AIRA-Compose의 결과를 제대로 읽으려면 agent가 낸 raw 후보와 최종 AIRAformer/AIRAhybrid 사이에 aggregation layer가 있다는 점을 놓치면 안 된다. agent는 수천 개의 16-layer sequence를 생성하지만, 그 sequence가 그대로 1B 모델이 되는 것은 아니다. 연구팀은 top 후보를 ranking하고, clustering을 수행하고, top cluster에서 대표 pattern을 뽑은 뒤, stretching 또는 stacking으로 target scale에 맞춘다. 이 중간 단계는 noise를 줄이는 데 필요하지만, 동시에 agent의 개별 reasoning이 최종 구조에 얼마나 남았는지를 흐리게 만든다.

예를 들어 AIRAformer-A는 세 dataset의 top-20 후보를 dataset별로 weight decay를 적용해 모은 뒤 equal weight로 합치는 방식에 가깝고, AIRAformer-C와 D는 GPT-5가 MAD에서 찾은 architecture를 cluster한 뒤 N1 또는 N2 aggregation으로 얻는다. 3-primitive AIRAhybrid도 비슷하다. AIRAhybrid-A, B, C는 greedy GPT-5 후보 cluster에서 나오고, D와 E는 여러 agent가 찾은 후보를 함께 사용한다. 따라서 최종 구조는 “어느 agent 하나의 천재적 발명”이라기보다, agent search trace를 통계적으로 압축한 산출물에 가깝다.

이 점은 재현 가능성과도 관련된다. 동일한 agent와 동일한 prompt라도 seed, validation split, timeout, evaluation script의 작은 차이로 후보군이 달라질 수 있다. aggregation은 이런 변동성을 완화하지만, 완전히 제거하지는 못한다. future work에서 필요한 것은 candidate provenance다. 어떤 구조가 어떤 seed와 어떤 validation evidence에서 나왔고, aggregation 과정에서 어떤 cluster에 들어갔으며, scale-up 후 어떤 지표를 개선했는지 연결되어야 한다. 그래야 agentic NAS 결과가 단발성 ranking표를 넘어, 다음 search run에서 재사용 가능한 prior가 된다.

구조 계열	대표 base pattern	aggregation 근거	scale-up 방식	해석 포인트
AIRAformer-A	Attention과 MLP가 7:9에 가까운 균형형	3개 dataset top-20 후보의 가중 aggregation	stretched variant 중심	여러 dataset에서 안정적인 후보를 합친 보수적 구조
AIRAformer-C	Attention 비중이 높은 11:5 계열	GPT-5 MAD search의 top cluster N1 aggregation	stacked와 stretched 모두 평가	loss frontier에서는 빠르지만 task별 강점은 갈린다
AIRAformer-D	2A+M 반복이 강한 attention-heavy 패턴	GPT-5 MAD search의 top cluster N2 aggregation	stacked와 stretched 모두 평가	1B isotoken validation loss와 DCLM Core에서 강한 후보
AIRAhybrid-B	Mamba, MLP, Attention을 반복적으로 섞는 hybrid	GPT-5 hybrid 후보 cluster N1 aggregation	stacked와 stretched 모두 평가	DCLM Core와 평균 accuracy 사이의 균형이 좋다
AIRAhybrid-D	Mamba와 MLP 구간 사이에 Attention을 분산 배치	여러 agent의 top cluster N1 aggregation	stacked와 stretched 모두 평가	zero-shot 평균과 validation loss에서 강한 후보

위 표의 핵심은 architecture pattern이 단순히 “attention을 많이 넣을수록 좋다”거나 “Mamba를 많이 넣을수록 좋다”로 귀결되지 않는다는 점이다. 2-primitive에서는 attention-heavy 구조가 1B isotoken에서 강한 결과를 보이지만, isoFLOP 부록에서는 balanced 구조가 특정 budget에서 더 낮은 loss를 내기도 한다. 3-primitive에서는 Mamba-only 구조가 효율성 면에서 매력적이지만 downstream average는 hybrid 구조가 앞선다. agentic NAS가 유용한 이유는 이런 비선형 조합을 사람이 직관으로 전부 열거하기 어렵기 때문이다.

6.6 비용 정규화 관점에서 본 AIRA의 실험 밀도

AIRA의 실험 규모는 논문을 읽을 때 반드시 따로 계산해야 한다. AIRA-Compose는 340개의 24시간 run과 300개의 60시간 run을 포함한다고 결론부에서 요약한다. 각 agent는 H200 한 장을 받아 proxy 후보를 검증하고, large-scale pretraining은 350M에서 8개 H200, 1B와 3B에서 16개 H200을 사용한다. 즉 이 논문은 “agent에게 물어봤더니 좋은 구조가 나왔다”는 가벼운 실험이 아니라, 상당한 compute budget을 투입해 agentic search가 사람이 만든 baseline과 비교될 수 있는지 본 연구다.

이 비용 구조는 두 가지 해석을 동시에 요구한다. 긍정적으로 보면, AIRA는 agentic research를 장난감 benchmark에서 꺼내 실제 pretraining budget과 연결했다. 부정적으로 보면, 일반 연구자가 같은 규모를 반복하기는 어렵다. 그래서 실무 적용에서는 cost-normalized promotion policy가 필요하다. 모든 agent 후보를 1B로 올릴 수 없다면, small proxy score, architecture diversity, latency estimate, confidence interval, prior run과의 novelty를 묶어 소수 후보만 승격해야 한다.

나는 이 논문을 후속 실험으로 가져간다면, 먼저 “후보당 비용”과 “후보당 정보량”을 분리하겠다. 어떤 candidate는 score가 약간 낮아도 기존 frontier에 없는 latency-loss region을 열 수 있고, 어떤 candidate는 높은 validation score를 보이지만 이미 known pattern을 반복할 수 있다. AIRA의 다음 버전은 단순 best score selection보다 diversity-aware triage를 넣는 편이 더 강할 것이다. 특히 hybrid LLM에서는 서로 다른 primitive 비율이 서로 다른 serving 제약에서 의미를 갖기 때문에, Pareto frontier를 넓히는 후보가 평균 점수 0.1% 높은 후보보다 더 가치 있을 수 있다.

6.7 LRA best solution을 코드 관점으로 풀어 읽기

LRA 부록의 best solution 표는 agent가 어떤 building block을 실제로 썼는지 보여 주는 좋은 자료다. ListOps non-configurable best는 Gemini 3.1 Pro가 만든 Bidirectional Selective Vector Recurrence이며, forward/backward recurrence를 associative scan으로 누적하고 depthwise 1D convolution으로 local mixing을 보강한다. configurable ListOps best는 Opus 4.6이 만든 DWConv + bidirectional linear attention 조합으로, learned sigmoid gate, ELU+1 feature map, SiLU-gated feed-forward block을 함께 사용한다.

Text task에서는 Gemini 3 Pro가 cross-covariance text attention을 사용한다. 일반 token-token attention 행렬 대신 feature dimension 사이의 covariance를 계산해 sequence length에 대한 부담을 낮추고, convolutional positional encoding과 SwiGLU FFN을 붙인다. Retrieval task에서는 Opus 계열이 dual encoder 구조에 linear attention 또는 hybrid local-global attention을 넣는다. 특히 configurable Retrieval best는 256-token chunked softmax attention과 global linear attention을 sigmoid gate로 섞고, masked mean pooling을 통해 document pair representation을 만든다.

이 사례들은 agent가 “새로운 논문급 primitive”를 만들었다기보다, 기존 sequence modeling component를 task 제약에 맞게 조립한다는 사실을 잘 보여 준다. 그래도 이 결과가 가볍지는 않다. LRA의 각 task는 long-range dependency, hierarchical composition, dual document comparison이라는 서로 다른 압력을 갖는다. agent가 task description을 읽고, memory complexity를 줄이고, pooling 방식을 맞추며, shape-compatible code를 낸다는 것은 연구 보조 시스템으로 충분히 가치가 있다. 다만 그 가치를 scientific novelty와 혼동하면 결과를 과대평가하게 된다.

LRA task	최고 agent/점수	핵심 구조	왜 중요한가
ListOps Non-Config	Gemini 3.1 Pro, 0.4415	Bidirectional selective vector recurrence와 depthwise convolution	nested operator 구조를 recurrence와 local mixing으로 처리한다
ListOps Config	Opus 4.6, 0.5050	DWConv, bidirectional linear attention, SiLU-gated FFN	configurable hyperparameter가 구조와 함께 작동할 때 점수가 오른다
Text Non-Config	Gemini 3 Pro, 0.8400	cross-covariance attention과 SwiGLU	token attention matrix 대신 feature covariance를 사용해 긴 문서 비용을 줄인다
Text Config	Gemini 3 Pro, 0.8792	bidirectional state-space model	position 정보를 recurrent dynamics로 흡수하는 설계다
Retrieval Config	Opus 4.6, 0.7943	chunked local attention과 global linear attention의 gated mixture	문서쌍 비교에서 local evidence와 global summary를 함께 보존한다

6.8 Autoresearch feature 분석이 말하는 “수정 단위”의 문제

Autoresearch 부록의 feature 분석은 자동 연구에서 수정 단위를 어떻게 잡아야 하는지에 대한 단서를 준다. agent는 train.py 전체를 다시 생성하는 방식으로 움직이기 때문에, improvement step 하나에 여러 변경이 섞인다. depth와 width, learning rate, attention window, embedding scale, loss function, schedule이 동시에 바뀌면 BPB가 내려가도 원인을 분리하기 어렵다. 논문은 positive improvement step을 feature vector로 분해해 category-level 통계를 냈지만, 이는 어디까지나 사후 관찰이다.

가장 자주 등장한 범주는 learning rate 조정과 depth/width 변경이다. learning rate는 49%의 positive step에, depth/width는 46%의 positive step에 관여한다. attention pattern은 37%로 빈도는 낮지만 median BPB 개선이 높다. boolean toggle에서는 value embeddings 추가와 EMA 추가가 유리한 편이고, z-loss와 gradient clipping은 제거될 때 더 나은 경우가 많다. 이 결과는 agent가 미세한 optimizer/regularization 조정과 구조 변경을 함께 다루고 있음을 보여 준다.

그러나 운영 시스템에서 필요한 것은 “어떤 범주가 자주 바뀌었다”보다 한 단계 더 들어간 정보다. agent가 value embedding을 추가하면서 learning rate도 바꾸고 batch도 줄였을 때, 어느 변경이 비용 대비 이득을 냈는지 알아야 다음 task로 transfer할 수 있다. 따라서 AIRA의 후속 harness에는 edit decomposition이 필요하다. agent가 compound patch를 제안하면, harness가 자동으로 atomic patch 후보를 만들고, 가장 저렴한 검증부터 실행해 causal confidence를 업데이트하는 방식이다.

7. 한계점 및 향후 연구 방향: proxy, attribution, novelty의 세 가지 병목

7.1 small proxy와 large-scale target 사이의 간극

가장 큰 한계는 small-scale proxy가 large-scale model의 성능을 완전히 예측하지 못한다는 점이다. 논문도 AIRA-Compose의 limitation에서 이 문제를 직접 언급한다. 16-layer proxy에서 좋은 구조가 1B 또는 3B로 올라갈 때도 그대로 좋으려면, optimization dynamics, token budget, depth scaling, width scaling, primitive별 FLOPs가 모두 맞아야 한다. 그러나 small proxy는 저렴해야 하므로, 실제 large-scale pretraining의 모든 조건을 담기 어렵다.

이 gap은 결과 해석에도 영향을 준다. AIRAformer-D는 1B isotoken에서 좋은 loss를 보였지만, 부록에서는 balanced architecture가 일부 isoFLOP budget에서 더 낮은 validation loss를 보이는 경우도 나온다. 3-primitive에서도 AIRAhybrid-D Stretched가 평균 zero-shot에서 강하지만 DCLM Core는 Composer hybrid가 높다. 즉 agent-discovered architecture를 “승자”로만 읽기보다, proxy task와 target metric이 다를 때 어떤 후보가 살아남는지 관찰하는 실험으로 읽어야 한다.

7.2 agent reasoning과 실제 성능 사이의 검증 문제

두 번째 한계는 agent의 reasoning이 실제 성능의 원인인지 확인하기 어렵다는 점이다. Figure 3에서 agent는 architecture 변경 이유를 설명하고 validation score를 참고한다. 그러나 reasoning이 post-hoc rationalization인지, 실제 causal hypothesis인지, 혹은 단순히 search heuristic에 가까운지는 별도 검증이 필요하다. 특히 Autoresearch처럼 full-file regeneration이 일어나는 경우, 좋은 결과가 나와도 어떤 feature change가 주효했는지 분해하기 어렵다.

논문은 independent evaluation과 held-out test split, VSR, NS, generalization gap을 통해 이 문제를 완화한다. 하지만 앞으로는 agent의 proposal을 patch 단위로 추적하고, 자동 ablation을 붙여야 한다. 예를 들어 agent가 depth, learning rate, softcap을 동시에 바꿨다면, 다음 loop에서는 각각을 분리한 mini-ablation을 자동으로 실행해 causal confidence를 기록할 수 있다. 이런 장치가 없으면 agentic discovery는 점수 향상 로그를 남기더라도, 사람이 재사용할 수 있는 설계 지식으로 축적되기 어렵다.

7.3 scientific novelty와 engineering synthesis의 경계

세 번째 한계는 novelty다. AIRA-Design의 LRA 결과는 여러 task에서 SOTA에 가까운 성능을 보이지만, 논문은 agent가 만든 구조가 기존 efficient attention 문헌의 재조합에 가깝다고 적는다. 이는 비판이면서 동시에 정직한 진단이다. 현재 agent는 알려진 building block을 task에 맞게 조립하고 hyperparameter를 맞추는 데 강하지만, 새로운 이론적 원리를 제시하는 능력은 제한적이다. 자동 연구 시스템이 실제 과학 발견으로 이동하려면, literature grounding과 코드 실행뿐 아니라 반례 탐색, 이론적 constraint checking, 독립 reviewer agent가 필요하다.

향후 연구 방향은 두 갈래다. 첫째, AIRA-Compose를 더 큰 proxy와 다중 GPU agent로 확장해 proxy-target gap을 줄일 수 있다. 논문은 AIRA_2 같은 advanced harness가 multiple GPU per agent를 배정할 수 있다고 언급한다. 둘째, AIRA-Design에는 patch-level causal attribution과 automatic ablation이 들어가야 한다. agent가 성능을 개선한 뒤 그 이유를 별도 실험으로 검증하는 과정이 붙으면, 단발성 score chase에서 reusable research artifact로 넘어갈 수 있다.

또 하나의 실무적 한계는 비용이다. AIRA는 많은 H200 GPU 시간과 수백 run을 사용한다. 이 비용은 frontier lab에서는 가능하지만, 일반 연구팀에게는 부담이 크다. 따라서 이 논문의 방법론을 그대로 복제하기보다, 작은 팀에서는 target domain을 좁히고, proxy 평가를 더 엄격하게 설계하며, agent가 만든 후보 중 소수만 large-scale로 올리는 triage layer가 필요하다.

8. 내 해석: proxy 검증을 연구 trace와 결합해야 한다

나는 AIRA의 가장 큰 약점이 small proxy에서 large target으로 넘어가는 검증 경로에 있다고 본다. 논문은 독립 평가, aggregation, 1B/3B scale-up을 붙였지만, agent가 왜 특정 primitive 배치를 선택했는지와 그 선택이 대규모 pretraining에서 어떤 gradient/activation 현상으로 이어졌는지는 아직 느슨하게 연결된다. 특히 AIRA-Compose의 16-layer proxy는 빠른 search를 위해 필요하지만, 실제 foundation model에서는 depth, width, optimizer schedule, data mixture가 함께 변한다. 내가 이 결과를 운영 환경에 적용한다면, agent의 candidate마다 training trace, loss curvature, latency, memory footprint, failure log를 provenance로 붙여 small proxy와 target metric 사이의 대응표를 먼저 만들 것 같다.

후속 제안은 AIRA를 Shepherd식 meta-agent runtime substrate와 결합하는 것이다. Shepherd가 worker 실행을 typed trace로 fork/replay한다면, AIRA의 architecture search도 candidate proposal, validation script, independent test, scale-up decision, ablation result를 trace object로 남길 수 있다. 이전에 리뷰한 RecursiveMAS와 inner-outer loop agent training의 관점까지 붙이면, inner loop는 agent가 후보를 생성·수정하는 단계이고, outer loop는 사람이 설정한 compute budget 안에서 어떤 후보를 다음 규모로 승격할지 결정하는 단계가 된다. 이 구조가 들어가면 AIRA는 “에이전트가 좋은 구조를 찾았다”는 결과 보고를 넘어, 어떤 종류의 agent reasoning이 어떤 scale-up 조건에서 재사용 가능한지 학습하는 시스템으로 발전할 수 있다.

개인적으로는 Autoresearch 결과가 더 실용적인 단서를 준다고 본다. BPB 0.968 자체도 인상적이지만, 더 중요한 부분은 개선 step의 feature vector를 뽑아 depth/width, learning rate, attention pattern, value embedding 같은 범주로 재분류한 것이다. 다만 현재 분석은 사후 요약에 가깝다. 내가 확장한다면, agent가 compound edit을 내놓은 직후 harness가 자동으로 single-feature ablation을 생성하고, 비용 한도 안에서 가장 의심되는 2~3개 변경만 분리 검증하게 만들겠다. 그렇게 해야 agentic discovery가 점수 경쟁에서 지식 축적으로 바뀐다.

9. 결론: AIRA가 보여 준 agentic architecture search의 현재 위치

AIRA는 LLM agent가 foundation model 설계 업무의 일부를 실제로 수행할 수 있음을 보여 준다. AIRA-Compose는 predefined primitive를 조합하는 high-level NAS에서 agent가 유망 architecture를 찾고, 이를 350M/1B/3B로 확장해 validation loss와 downstream score로 검증한다. AIRA-Design은 더 낮은 수준에서 model.py와 train.py를 직접 쓰게 하며, LRA와 Autoresearch를 통해 executable research artifact 생성 능력을 확인한다.

가장 강한 결과는 1B isotoken pretraining에서 나타난다. AIRAformer-D Stretched는 Llama 3.2와 Composer baseline보다 낮은 validation loss를 보이고, AIRAhybrid-D Stretched는 3-primitive hybrid setting에서 높은 zero-shot 평균을 기록한다. scaling frontier와 latency-loss Pareto 분석은 agent-discovered architecture가 단일 점수 개선을 넘어 compute-efficiency 선택지를 넓힐 수 있음을 시사한다. Autoresearch에서는 Greedy Opus 4.5 + literature가 BPB 0.968을 달성해 training loop optimization에서도 agent의 가능성을 보여 준다.

동시에 논문은 자기 한계를 꽤 선명하게 남긴다. small proxy가 large-scale 성능을 완전히 대변하지 못하고, agent가 만든 코드는 known component의 재조합에 가까우며, full-file regeneration은 causal attribution을 어렵게 만든다. 이런 점 때문에 AIRA는 완성된 self-improving AI의 증거라기보다, recursive self-improvement를 연구 가능한 engineering pipeline으로 분해한 논문으로 읽는 편이 맞다.

그럼에도 이 논문은 앞으로의 AI 연구 자동화에서 중요한 기준점을 만든다. 좋은 agent는 답변을 길게 쓰는 모델이 아니라, 후보를 만들고, 실행하고, 실패를 고치고, 독립 평가를 통과시키며, 다음 scale로 올릴 근거를 남기는 시스템이어야 한다. AIRA는 그 요구사항을 architecture search와 mechanistic design 위에서 실험한 사례다.

10. 요약 정리: AIRA 논문에서 가져갈 핵심 포인트

AIRA는 LLM agent가 foundation model architecture와 training loop를 직접 탐색할 수 있는지 검증한 FAIR at Meta 논문이다.
AIRA-Compose는 Attention, MLP, Mamba 같은 primitive sequence를 16-layer proxy에서 찾고, aggregation과 extrapolation으로 350M/1B/3B 모델까지 확장한다.
AIRA-Design은 agent가 LRA용 model.py와 Autoresearch용 train.py를 직접 작성하게 하여 저수준 mechanistic design 능력을 평가한다.
1B isotoken 결과에서 AIRAformer-D Stretched는 Llama 3.2보다 낮은 validation loss와 높은 zero-shot 평균을 보이며, AIRAhybrid-D Stretched도 hybrid setting에서 강한 결과를 낸다.
isoFLOP와 latency-loss Pareto 분석은 agent-discovered architecture가 단순 accuracy 향상을 넘어 compute-efficiency 선택지를 넓힐 수 있음을 보여 준다.
LRA 결과는 agent가 known efficient attention component를 task에 맞게 재조합하는 능력은 강하지만, 완전히 새로운 이론적 primitive를 만드는 단계에는 아직 제한이 있음을 드러낸다.
Autoresearch에서는 Greedy Opus 4.5 + literature가 BPB 0.968을 달성하지만, compound edit 때문에 어떤 feature가 실제 원인인지 분해하기 어렵다.
가장 큰 한계는 small proxy와 large-scale target 사이의 gap, 그리고 agent reasoning과 실제 성능 사이의 causal attribution 부족이다.
후속 연구는 candidate trace, patch-level ablation, 비용 정규화된 scale-up policy를 harness에 붙여 agentic discovery를 재사용 가능한 연구 지식으로 바꾸는 방향이 적절하다.

저작자표시 비영리 변경금지 (새창열림)

'[논문 리뷰] > [최신 논문]' 카테고리의 다른 글

[arXiv 2605.20123] BiRD: 양방향 랭킹으로 RAG 포이즈닝을 걸러내는 방어 메커니즘 (0)	2026.05.22
[arXiv 2605.15202] DeepSlide: 산출물 생성에서 발표 전달까지 이어지는 멀티 에이전트 프레젠테이션 시스템 (0)	2026.05.19
[arXiv 2605.15155] SDAR: 자기증류 에이전트 강화학습으로 토큰 신호를 거르기 (0)	2026.05.19
[arXiv 2605.15019] GranuRAG: 장면 검색을 시각 요소 증거 검색으로 쪼개는 멀티모달 RAG (0)	2026.05.19
[arXiv 2605.10913] Shepherd: 메타 에이전트를 실행 추적으로 다루는 런타임 기판 (0)	2026.05.15