CoopEval: Benchmarking Cooperation-Sustaining Mechanisms and LLM Agents in Social Dilemmas
https://arxiv.org/abs/2604.15267
Emanuel Tewolde, Xiao Zhang, David Guzman Piedrahita, Vincent Conitzer, Zhijing Jin | Carnegie Mellon University, Foundations of Cooperative AI Lab (FOCAL), Jinesis Lab, University of Toronto & Vector Institute, EuroSafeAI, ETH Zurich, Max Planck Institute for Intelligent Systems | arXiv:2604.15267 | 2026년 4월
1. 서론: 강한 추론 모델이 왜 더 협력적이지 않은가
1.1 문제 설정: 협력 결핍을 모델 성향이 아니라 제도 설계의 문제로 본다
이 논문은 최근 대규모 언어 모델 에이전트가 더 많은 작업을 스스로 수행하게 되는 흐름 속에서, 정작 다중 에이전트 상황의 핵심 안전성 질문은 충분히 측정되지 않았다는 문제를 정면으로 다룬다. 코딩, 웹 사용, 과학, 수학 같은 단일 에이전트 중심 리더보드는 빠르게 발전했지만, 서로 다른 목표를 가진 에이전트들이 한정된 자원과 이해관계 속에서 만났을 때 어떤 선택을 하는지에 대해서는 신뢰할 만한 비교 기준이 부족했다. 저자들은 특히 사회적 딜레마에서 이 공백이 위험하다고 본다. 왜냐하면 이런 환경에서는 모두가 협력할 때 집단 후생이 커지지만, 개별 에이전트는 타인의 협력을 이용해 자신만 이익을 취하려는 유인을 동시에 갖기 때문이다.
논문이 더 날카롭게 지적하는 대목은, 최근 모델일수록 자동으로 협력성이 좋아질 것이라는 기대가 실험적으로 지지되지 않는다는 점이다. 기존 연구는 이미 강한 추론 능력이 배신, 무임승차, 전략적 이기주의와 함께 나타날 수 있음을 시사했는데, 저자들은 이를 더 넓은 조건에서 재확인한다. 단발 상호작용의 죄수의 딜레마, 공공재 게임, 여행자 딜레마, 신뢰 게임에서 최신 모델은 reasoning 유무와 관계없이 대체로 비협력 행동을 택했다. 따라서 CoopEval은 모델을 도덕적으로 훈육하는 접근보다, 합리적이고 자기이익을 추구하는 에이전트끼리도 협력이 균형으로 유지되게 만드는 메커니즘을 비교하는 평가 프레임으로 방향을 튼다.
이 문제의식은 단순히 게임 이론을 LLM에 접목한 데 그치지 않는다. 실제 다중 에이전트 시스템에서는 각 행위자가 항상 선한 목적을 갖는다고 가정하기 어렵고, 배포 주체가 일관되게 친사회적 프롬프트나 미세조정을 강제할 수도 없다. 논문은 그래서 morality-agnostic한 접근을 택한다. 즉, 에이전트가 오로지 자신의 점수를 극대화하려 해도 제도적 구조 덕분에 협력이 유리해지도록 만든다. 이 관점은 협력을 “좋은 성격”의 산물이 아니라 “잘 설계된 상호작용 규칙”의 산물로 다루게 만든다.
1.2 핵심 기여: 메커니즘 비교, 통합 정리, 이질적 LLM 사회 실험
저자들의 첫 번째 기여는 CoopEval이라는 벤치마크 자체다. 이 벤치마크는 메커니즘 집합과 게임 집합을 분리해 조합하는 factorized design를 취한다. 메커니즘은 반복, 평판, 중재, 계약의 네 갈래이고, 게임은 죄수의 딜레마, 공공재 게임, 여행자 딜레마, 신뢰 게임의 네 종류다. 여기에 서로 다른 성향과 능력을 가진 여섯 개 모델을 조합해 cross-play를 수행함으로써, 동일 모델끼리의 self-play가 아니라 이질적 사회에서 협력이 얼마나 유지되는지를 본다. 이 설계 덕분에 “어떤 모델이 협력적인가”라는 질문과 “어떤 제도가 협력을 지탱하는가”라는 질문을 같은 프레임 안에서 함께 다룰 수 있다.
두 번째 기여는 이론적 통합이다. 논문은 게임 이론 문헌에 흩어져 있는 결과를 끌어와, 네 메커니즘이 모두 특정 조건에서 Pareto 개선을 균형 안에서 구현할 수 있음을 하나의 정리로 묶는다. 중요한 점은 여기서의 협력이 도덕적 희생이 아니라 equilibrium으로 설명된다는 사실이다. 다시 말해, 메커니즘이 제대로 설계되면 합리적 에이전트도 협력 행동을 일탈이 아니라 최적 반응으로 받아들일 수 있다. 이 이론적 기반이 있기 때문에, 실험 결과가 좋지 않더라도 그것은 메커니즘 아이디어 자체의 실패라기보다 현재 LLM이 그 구조를 얼마나 이해하고 실행하는지의 문제로 읽을 수 있다.
세 번째 기여는 평가 지표의 다층성이다. 저자들은 단순 평균 점수만 보지 않고, 균일한 혼합 사회에서의 평균 payoff, replicator dynamics를 통해 더 성능 좋은 모델이 번성하는 진화적 사회에서의 fitness, 그리고 일반합 게임용 순위 지표인 deviation ratings를 함께 사용한다. 또한 chain-of-thought를 LLM-as-a-judge로 분석해, 협력 결정이 실제로 어떤 정당화 위에 서 있는지도 본다. 덕분에 CoopEval은 행동 결과, 사회적 적응, 추론 근거를 동시에 관찰하는 평가 체계가 된다.
- 첫째, 단발 사회적 딜레마에서 최신 LLM이 거의 일관되게 비협력 행동을 택한다는 강한 베이스라인을 제시한다.
- 둘째, Repetition, Reputation, Mediation, Contracting을 같은 실험 프레임으로 직접 비교한다.
- 셋째, 네 메커니즘이 이론적으로는 모두 협력적 결과를 균형으로 뒷받침할 수 있다는 통합 정리를 제시한다.
- 넷째, 반복 만남과 상호작용 기록뿐 아니라 중재자 제안, 계약 제안, 승인 투표, 수락 단계까지 포함해 제도 설계 과정을 평가한다.
- 다섯째, 현대 LLM 사회에서 실제로는 계약과 중재가 가장 효과적이고, 평판 기반 협력은 공동 플레이어가 바뀌면 급격히 약화된다는 실증적 결론을 낸다.
정리하면 CoopEval의 핵심 메시지는 단순하다. 오늘의 LLM은 혼합 동기 상황에서 스스로 협력적으로 변하지 않으며, 강한 모델이라고 해서 자동으로 사회적으로 바람직한 선택을 하지도 않는다. 그러나 메커니즘이 주어지면 이야기가 달라진다. 따라서 협력 안전성을 논할 때 모델 파라미터만 보는 접근은 충분하지 않고, 제도 설계, 상호작용 프로토콜, 평가 환경을 함께 봐야 한다는 것이 이 논문의 출발점이다.
2. 배경 및 관련 연구: 사회적 딜레마, 합리적 협력, 그리고 현대 에이전트 평가의 공백
2.1 사회적 딜레마와 해 개념: 왜 협력이 어렵게 설계되어 있는가
CoopEval의 출발점은 네 개의 사회적 딜레마다. 논문은 이 게임들을 모두 유한 정상형 게임으로 보고, 각 플레이어가 동시에 한 번 선택을 내리는 구조에서 문제를 정의한다. 여기서 핵심은 집단적으로는 더 나은 결과가 존재하지만, 개별 플레이어가 다른 이의 행동을 주어진 것으로 볼 때는 비협력 행동이 더 안전하거나 지배적이라는 점이다. 죄수의 딜레마와 공공재 게임에서는 비협력 행동이 강하게 지배적이고, 신뢰 게임과 여행자 딜레마에서는 지배 전략의 반복 제거를 통해 결국 비협력적 귀착점이 나온다. 즉, 이 게임들은 선의가 아니라 구조 때문에 협력이 무너지는 사례다.
저자들은 각 게임이 협력의 서로 다른 측면을 시험하도록 선택되었다고 본다. 죄수의 딜레마는 가장 간결한 이인 양자 협력 문제이고, 공공재 게임은 세 명이 동시에 상호작용하는 다자 협력 문제를 제공한다. 여행자 딜레마는 상대보다 조금만 더 낮게 부르면 이득을 보는 race-to-the-bottom 구조를 보여 주며, 신뢰 게임은 상호성뿐 아니라 역할 비대칭성을 포함한다. 따라서 한 게임에서 잘 작동하는 협력 메커니즘이 다른 게임에서도 통할지 검증하려면, 최소한 이 정도의 다양성은 필요하다.
이 배경에서 중요한 것은 “합리성”의 정의다. 논문은 협력을 선의나 공익 지향으로 정의하지 않는다. 대신 지배 전략 제거, Nash equilibrium, subgame perfect equilibrium처럼 게임 이론에서 널리 쓰이는 해 개념을 사용한다. CoopEval이 흥미로운 이유는, 협력이라는 사회적 성질을 도덕 심리학 언어가 아니라 균형 개념으로 다시 번역하기 때문이다. 이런 번역이 있어야 메커니즘의 효율성을 논리적으로 비교할 수 있고, LLM이 그 구조를 이해하는지 여부도 측정할 수 있다.
표 1. 논문이 사용하는 네 가지 사회적 딜레마의 구조 요약
| 게임 | 참여자/행동 | 협력적 결과 | 기본 게임의 합리적 귀결 | 이 게임이 시험하는 협력 요소 |
|---|---|---|---|---|
| Prisoner's Dilemma | 2인, 협력/배신 | 상호 협력 시 (2, 2) | 배신이 지배적이라 (1, 1)로 수렴 | 직접 상호성, 명료한 배신 유인 |
| Public Goods | 3인, 기여/무임승차 | 모두 기여하면 각자 1.5 | 무임승차가 지배적이라 각자 1 | 다자 협력, 집단 규모 효과 |
| Travellers Dilemma | 2인, 가격 2~5 선택 | 높은 가격을 함께 제시할수록 공동 이익 증가 | 반복적 약지배 제거로 최저 가격 2에 도달 | 언더컷, 미세 전략 차이 |
| Trust Game | 2인, 신뢰/비신뢰와 공유/독점의 동시 선택 표현 | 협력적 프로필에서 (10, 10) | 반복 제거 후 안전한 비협력 귀착점 | 비대칭 역할, 신뢰와 반환의 결합 |
표 1은 CoopEval이 단순한 2x2 반복 실험이 아니라, 플레이어 수·행동 수·역할 비대칭성이 다른 네 게임을 묶는다는 사실을 보여 준다. 이 다양성 덕분에 특정 모델이 한 게임에서 보이는 성공을 일반적 협력 능력으로 과대해석하기 어렵고, 메커니즘이 어떤 종류의 사회적 딜레마에서 특히 강하거나 약한지도 구분된다.
2.2 협력 메커니즘: 같은 문제를 다른 제도로 푸는 네 가지 방식
논문이 비교하는 메커니즘은 모두 직관적으로 단순하지만, 게임 이론적으로는 꽤 다른 방식으로 협력을 떠받친다. Repetition은 같은 상대와 여러 번 만나게 해 직접 상호성의 여지를 만들고, Reputation은 상대가 과거에 누구에게 어떤 행동을 했는지 볼 수 있게 해 간접 상호성을 기대하게 한다. Mediation은 플레이어가 제3자에게 의사결정을 위임할 수 있게 하여 조건부 협력을 구현하고, Contracting은 행동에 따른 zero-sum side payment를 도입해 각 행동의 유인을 재설계한다. 네 방식은 모두 기본 게임의 행동 공간을 완전히 대체하지 않고, 원래 행동을 유지한 채 상호작용 구조만 바꾼다는 공통점을 갖는다.
여기서 중요한 비교점은 “무엇이 협력을 강제하는가”다. 반복과 평판은 미래의 상호작용을 통해 오늘의 배신을 비싸게 만든다. 반면 중재와 계약은 현재 게임 안에서 이미 유인을 바꾸거나, 적어도 참가자들이 그 유인 구조를 명시적으로 합의하게 만든다. 전자는 분산적이며 과거 기록을 활용하는 메커니즘이고, 후자는 더 제도적이며 설계 결과물 자체가 핵심이다. CoopEval은 이 차이를 실험적으로 드러내기 위해, 메커니즘을 단순 부가 옵션이 아니라 하나의 평가 대상 축으로 삼는다.
Figure 1. 논문이 비교하는 네 메커니즘의 개념도. 반복은 같은 상대와의 재만남, 평판은 바뀌는 상대와의 역사 노출, 중재는 제3자 위임, 계약은 행동 조건부 보상 이전을 뜻한다.
이 그림은 네 메커니즘이 어떤 상태 정보를 추가하고 어떤 선택지를 열어 주는지 한 화면에 정리한다. 반복과 평판은 과거 행동 이력을 통해 미래 유인을 바꾸고, 중재와 계약은 게임 안에 새로운 제도적 단계와 선택을 삽입한다. CoopEval의 실험 설계는 바로 이 네 가지 조작을 동일한 사회적 딜레마 위에서 번갈아 적용해, 협력 유지 능력을 메커니즘 수준에서 비교하려는 시도다.
표 2. 네 협력 메커니즘의 직관, 정보 구조, 실험상 특징
| 메커니즘 | 핵심 아이디어 | 플레이어가 추가로 보는 것 | 이론적 장점 | 실험에서 드러난 특징 |
|---|---|---|---|---|
| Repetition | 같은 상대와 여러 번 만나 미래 보복과 보상을 가능하게 함 | 같은 상대와의 최근 라운드 이력 | 직접 상호성으로 협력 균형 유지 가능 | 평균은 크게 오르지만 이질적 모델 사회에서는 완전하지 않음 |
| Reputation- | 상대의 과거 행동을 보고 현재 대응 | 상대 자신의 최근 상호작용 이력 | 간접 상호성 구현 | 반복보다 약하고 공동 플레이어가 바뀌면 성능 저하 |
| Reputation+ | 상대의 과거 상대들까지 재귀적으로 포함한 풍부한 이력 제공 | 고차 이력과 상위 상호작용 기록 | 이론상 더 강한 정보 구조 | 실험에선 오히려 Reputation-보다 약한 경우가 많음 |
| Mediation | 공개된 중재자에게 위임할 수 있게 함 | 중재자의 조건부 행동 계획 | 조건부 협력과 조정 문제 완화 | 초기 이질 집단에서도 높은 평균과 진화 후 거의 완전 협력 |
| Contracting | 행동별 부가 지불로 유인을 재설계 | 계약 조항, 승인 및 서명 결과 | 행동 자체의 보상 구조를 수정 | 평균 성능 최고, 일부 모델은 협력 기준을 넘는 보상도 획득 |
표 2에서 보듯 반복·평판은 과거 기록을 활용하는 정보 메커니즘이고, 중재·계약은 규칙을 설계하는 제도 메커니즘이다. 논문이 흥미로운 이유는 이 둘을 같은 벤치마크 안에 넣어, “좋은 에이전트”보다 “좋은 제도”가 협력을 더 안정적으로 끌어내는지 비교한다는 점에 있다.
논문은 이 네 가지가 모두 협력 메커니즘이 되려면 두 조건을 만족해야 한다고 본다. 첫째, 플레이어가 기본 게임에서 하던 행동을 여전히 할 수 있어야 한다. 즉, 협력을 강제로 시키는 것이 아니라 협력이 합리적 선택이 되게 해야 한다. 둘째, 시스템 바깥에서 새로운 효용을 창조하지 않아야 한다. 계약 역시 외부 자금을 주입하는 것이 아니라 플레이어 사이의 zero-sum transfer만 허용한다. 이 제약 덕분에 메커니즘의 효과를 “환경 보조금”이 아니라 “상호작용 구조의 재설계”로 해석할 수 있다.
2.3 관련 연구의 맥락: LLM 협력 연구와 벤치마크 연구 사이의 틈
사회적 딜레마에서 AI 협력을 연구하는 전통은 오래되었다. Axelrod의 반복 죄수의 딜레마 토너먼트에서 시작해, 고전적 멀티에이전트 학습, 깊은 강화학습 기반 사회적 딜레마 연구까지 축적이 크다. 최근에는 LLM 에이전트를 대상으로 반복 게임이나 공공재 상황을 실험하는 연구가 늘었지만, 대개 특정 메커니즘 하나 또는 한두 개 게임에 국한되었다. CoopEval은 이 지점을 파고든다. 같은 LLM 집합을 가지고 서로 다른 협력 메커니즘을 직접 비교하면, 협력이 모델 성향의 결과인지 제도 구조의 결과인지 더 분명하게 나눠 볼 수 있다.
또 하나의 차별점은 Mediation을 LLM 맥락에서 본격 구현했다는 점이다. 반복과 평판은 LLM에게 과거 기록을 주고 다시 묻는 방식으로 비교적 자연스럽게 구현되지만, 중재와 계약은 설계 단계, 제안 단계, 승인 투표, 실제 채택 단계가 따로 필요하다. 저자들은 이 과정을 모두 자연어 인터페이스로 통일하고, 모델 스스로 중재자와 계약안을 제안하게 함으로써 메커니즘 설계 능력 자체를 평가 대상으로 포함했다. 이는 단순히 어떤 행동을 고르는지를 넘어, 제도 제안과 제도 수용까지 모델의 전략적 추론에 넣는다는 점에서 범위가 넓다.
LLM 벤치마크 연구의 흐름에서 보면 CoopEval은 한 가지 중요한 빈칸을 메운다. 다수의 최신 벤치마크는 도구 사용, 웹 네비게이션, 코딩 과제, 장문 리서치처럼 단일 행위자의 목표 달성을 측정하는 데 집중한다. 그러나 현실 배포에서는 종종 다른 에이전트나 사용자와의 이해 충돌, 협상, 신뢰 형성이 성능을 결정한다. CoopEval은 이 다중 주체 상호작용을 정형화된 게임 환경으로 끌어와, LLM이 단순히 똑똑한가가 아니라 상대가 있는 세계에서 어떻게 행동하는가를 측정하는 기준점이 된다.
3. 방법론: 협력 메커니즘과 CoopEval 설계
3.1 통합 정리: 협력은 선의가 아니라 균형으로도 구현될 수 있다
논문의 이론적 핵심은 네 메커니즘을 한 줄로 묶는 unifying theorem of cooperation이다. 정리는 다음 직관을 담는다. 어떤 정상형 게임 $G$의 Nash equilibrium $\mathbf{s}^*$가 있고, 그것보다 모든 플레이어에게 더 나은 행동 프로필 $\mathbf{a}$가 있다고 하자. 그러면 논문이 다루는 Mediation, Contracting, 그리고 충분히 큰 continuation probability를 가진 Repetition 및 Reputation+에서는, 기본 게임에서 비합리적으로 보이던 $\mathbf{a}$의 보상을 subgame perfect equilibrium으로 달성할 수 있다. 이 문장은 협력이 “착한 선택”이 아니라 “합리적 선택”이 될 수 있음을 뜻한다.
$$orall i,\; u_i(\mathbf{a}) > u_i(\mathbf{s}^*) \Rightarrow ext{the mechanism-modified game can sustain } u(\mathbf{a}) ext{ in equilibrium.}$$
이 정리의 힘은 각 메커니즘이 서로 전혀 다른 형태를 띠는데도, 모두 Pareto 개선된 결과를 균형 안으로 끌어올 수 있다는 점에 있다. 반복과 평판에서는 grim trigger 스타일의 위협이 미래 배신의 비용을 키우고, 중재에서는 모두가 위임할 때만 협력 행동을 택하는 공개 중재자 설계가 핵심이 되며, 계약에서는 협력 행동이 각 플레이어에게 지배 전략이 되도록 이전 지불을 설계한다. 저자들은 기존 문헌의 증명 아이디어를 한 틀로 통합해, 메커니즘 비교의 이론적 기준선을 마련한다.
동시에 논문은 정리가 모든 문제를 해결한다고 말하지 않는다. 메커니즘이 협력적 결과를 가능하게 한다는 것과, 실제 LLM이 그 구조를 이해하고 그 균형에 도달한다는 것은 별개의 문제다. 예를 들어 모두가 무조건 배신하는 결과도 여전히 하나의 균형으로 남을 수 있다. 따라서 CoopEval의 실험은 “이론상 가능한 협력”과 “현실의 LLM이 실제로 수행하는 협력” 사이의 거리를 측정하는 역할을 한다. 이 구분이 있어야 실험 결과를 올바르게 해석할 수 있다.
3.2 벤치마크의 팩터화 설계: 메커니즘 × 게임 × 모델 × 상대 구성
CoopEval은 메커니즘 × 게임의 조합을 중심축으로 삼는다. 메커니즘은 네 종류, 게임은 네 종류, 모델은 여섯 종류이므로 기본적으로 많은 실험 셀을 만든다. 여기에 2인 또는 3인 게임에서 가능한 모델 조합을 모두 넣고, 각 조합을 세 번 반복한다. 논문은 전체적으로 모델당 8,586개 결정, 전체로는 5만 회 이상의 결정을 수집했다고 설명한다. 이는 개별 매치업 하나의 통계 유의성보다, 대규모 집계에서 일관된 경향을 읽겠다는 설계다.
이 팩터화 설계가 중요한 이유는 두 가지다. 첫째, 같은 모델을 여러 메커니즘에 반복 투입할 수 있으므로, 메커니즘 간 성능 차이를 모델 능력 차이와 덜 섞어서 볼 수 있다. 둘째, 동일 메커니즘을 여러 게임에 적용해 그 메커니즘의 일반성을 시험할 수 있다. 예컨대 반복은 죄수의 딜레마에서는 직관적으로 강해 보이지만, 다자 공공재 게임이나 비대칭 신뢰 게임에서도 비슷하게 작동하는지 따로 확인해야 한다. CoopEval은 바로 그 횡단 비교를 위해 설계되었다.
또한 논문은 cross-play를 중시한다. LLM을 self-play만 시키면 특정 모델이 자기 복제 사회에서만 잘 작동하는지, 이질적 사회에서도 강한지 알기 어렵다. 반면 CoopEval은 서로 다른 모델을 섞어 플레이시키고, 이후 진화적 적응까지 모사한다. 덕분에 협력이 “상대도 나와 같은 모델일 때만” 성립하는지, 아니면 실제 다양한 모델이 공존하는 사회에서도 유지되는지 판별할 수 있다. 이는 다중 에이전트 안전성 평가에서 매우 중요한 차이다.
이 팩터화 설계는 논문이 강조하는 두 개의 “최초성”과도 연결된다. 저자들은 AI 에이전트를 대상으로 Travellers Dilemma와 동시형 Trust Game을 본격 평가한 것이 처음에 가깝고, Mediation을 LLM에게 실제 제안·투표·위임 구조로 구현한 것도 사실상 선행 사례가 거의 없다고 본다. 따라서 CoopEval은 단순히 반복 죄수의 딜레마를 조금 확장한 수준이 아니라, 협력 평가의 게임 종류와 제도 종류를 동시에 넓힌 작업이라고 볼 수 있다. 이 점은 벤치마크의 분량보다 범위에서 더 큰 의미를 가진다.
3.3 네 메커니즘의 구현: 정보 인터페이스와 제도 단계의 차이
Repetition은 가장 고전적이지만 구현이 단순하지는 않다. 플레이어는 같은 상대와 반복적으로 만나며, 저자들은 최근 $k=3$ 라운드의 행동 이력을 프롬프트에 넣는다. 라운드가 계속 이어질 확률은 $\delta=0.8$로 설정되며, 이 파라미터는 충분히 크면 grim trigger 류 전략이 협력을 지탱할 수 있다는 이론과 연결된다. 중요한 점은 플레이어가 과거 기록을 단순 참고 자료가 아니라 미래 보상 구조의 일부로 해석해야 한다는 것이다. 따라서 이 메커니즘은 단기 payoff 계산과 장기 전략 사고를 동시에 요구한다.
Reputation은 반복보다 더 어렵다. 현재 상대는 계속 바뀌지만, 상대의 과거 행동을 보고 판단해야 하기 때문이다. 논문은 두 버전을 둔다. Reputation-은 상대 자신의 최근 상호작용 이력만 보여 주고, Reputation+은 상대가 과거에 만난 상대들의 기록까지 재귀적으로 보여 준다. 이론적으로는 후자가 더 풍부한 정보 구조를 갖지만, 실제 LLM에게는 긴 텍스트 트리와 복잡한 책임 추론을 요구한다. 이 차이는 뒤 실험에서 매우 중요한 결과를 낳는다.
Mediation에서는 각 플레이어가 먼저 중재자 설계를 제안한다. 중재자는 “몇 명이 위임했을 때 어떤 행동을 대신 수행할지”를 공개적으로 명시하는 함수다. 그 다음 플레이어들이 승인 투표로 제안안 중 하나를 고르고, 마지막으로 실제 게임에서 각자 위임할지 독자적으로 행동할지를 선택한다. 이 설계는 단순히 좋은 행동을 고르게 하는 것이 아니라, 공개 계획, 투표, 채택, 집행이라는 제도 단계를 모두 모델이 통과하도록 만든다.
Contracting은 더욱 강력한 방식이다. 플레이어는 행동별로 얼마의 추가 보상을 받고 내는지를 정한 계약안을 제안한다. 이후 승인 투표를 거쳐 하나의 계약안을 선택하고, 모든 플레이어가 서명해야만 계약이 발효된다. 일단 계약이 발효되면 행동별 유인이 직접 바뀌므로, 특정 협력 행동이 지배 전략이 되도록 설계할 수도 있다. 논문이 계약 메커니즘을 강력하게 평가하는 이유는 여기에 있다. 반복이나 평판이 미래 보상에 기대는 반면, 계약은 현재 선택의 보상 함수 자체를 수정한다.
- 중재는 “모두가 위임했을 때 중재자가 협력 행동을 집행한다”는 공개 계획이 핵심이다.
- 계약은 “누가 어떤 행동을 하면 얼마를 지급하거나 받는가”를 명시해 행동 인센티브를 재설계한다.
- 승인 투표는 제안안들 중 하나를 고르는 단계이며, 동률이면 무작위로 결정된다.
- 계약 수락은 계약 메커니즘에만 있는 추가 단계로, 모든 플레이어가 서명해야 발효된다.
메커니즘 구현 전반에서 저자들이 일관되게 지키는 원칙은 “기본 게임을 완전히 다른 게임으로 바꾸지 않는다”는 점이다. 플레이어는 언제나 원래 행동을 선택할 수 있고, 메커니즘은 그 위에 정보나 절차, 이전 지불을 덧붙인다. 그래서 CoopEval은 메커니즘 자체의 비교 실험이 된다. 만약 어떤 설정에서 협력이 나오지 않는다면, 그것은 협력 게임을 새로 만들어서 모델을 속이지 못했기 때문이 아니라, 모델이 해당 제도 구조를 충분히 활용하지 못했기 때문이라고 해석할 수 있다.
3.4 프롬프트와 인터페이스 설계: 이름 누설을 피하고 전략 추론을 남긴다
실험 프롬프트 설계도 세심하다. 논문은 죄수의 딜레마나 여행자 딜레마 같은 이름을 전면에 내세우지 않고, 행동을 A0, A1 같은 태그로 익명화한다. 이는 모델이 게임 이름을 기억해서 정답처럼 대응하는 name leakage를 줄이기 위한 선택이다. 각 모델은 행동 하나를 고르는 대신, 가능한 행동들에 대한 확률 분포를 정수 퍼센트 합 100으로 제출한다. 이는 LLM이 무작위 결정을 서술적으로 표현할 때 생기는 cognition-behavior gap을 완화하려는 장치다.
중요한 구현 세부사항으로, 모든 추론 모델에는 chain-of-thought prompting를 사용하지만 Gemini-B만은 reasoning 없는 베이스 모델로 남긴다. 실험 온도는 1로 고정되고, 모델이 제출한 혼합 전략에서 실제 행동을 샘플링하는 것은 실험 코드가 담당한다. 덕분에 CoopEval은 “모델이 어떤 전략적 분포를 의도했는지”와 “실제 한 번의 샘플 결과가 무엇이었는지”를 구분해 볼 수 있다. 이 또한 단일 정답 채점형 벤치마크와 다른 지점이다.
프롬프트 구조를 보면 CoopEval은 사실상 작은 프로토콜 언어를 만들었다고 볼 수 있다. 게임 설명, 메커니즘 설명, 제안 단계, 승인 단계, 채택 단계, 최종 행동 단계가 각기 분리되어 있고, 출력 형식도 JSON으로 엄격히 제한된다. 이런 구조 덕분에 모델은 “무슨 게임인가”를 막연히 감으로 푸는 대신, 주어진 인터페이스를 해석해 정형화된 사회 규칙을 따라가야 한다. 이는 향후 실제 에이전트 프로토콜을 평가할 때도 참고할 만한 설계 원칙이다.
4. 실험 설정: 게임, 모델, 평가 지표를 어떻게 맞물리게 구성했는가
4.1 평가 대상 모델과 게임: 여섯 모델, 네 게임, 그리고 이질적 조합
논문은 여섯 개의 현대 LLM을 선택한다. Claude Sonnet 4.5와 GPT-5.2는 낮은 추론 설정, Gemini 3 Flash는 reasoning 버전과 non-reasoning 버전 두 가지, GPT-4o, Qwen3-30B-A3B-Instruct-2507가 포함된다. 저자들은 이 구성이 비용과 다양성의 균형이라고 설명한다. 즉, frontier 모델만 넣어 고가 실험으로 만들지 않으면서도, reasoning 여부와 모델 계열 차이를 비교할 수 있게 했다.
게임 측면에서는 네 가지 사회적 딜레마가 중심이지만, 부록에서는 Stag Hunt를 coordination-cooperation 기준선으로 추가한다. 다만 논문의 핵심 결론은 네 사회적 딜레마에서 나온다. 죄수의 딜레마는 학습 데이터에서의 과대표집 가능성 때문에 모델들이 상대적으로 잘 아는 게임일 수 있고, 공공재 게임은 다자 상호작용이라 난도가 높다. 여행자 딜레마는 미세한 언더컷 유인을 이해해야 하고, 신뢰 게임은 비대칭 역할 구조를 포함한다. 이런 조합은 “협력”이라는 한 단어 아래 여러 인지 능력이 섞여 있음을 보여 준다.
표 3. CoopEval이 평가한 여섯 개 모델과 추론 설정
| 약칭 | 모델 | 추론 설정 | 논문에서의 역할 |
|---|---|---|---|
| Claude | Claude Sonnet 4.5 | low reasoning + CoT | 상대적으로 안정적이지만 계약에서 지나치게 순한 사례가 보고됨 |
| GPT-5.2 | GPT 5.2 | low reasoning + CoT | 평균 성능은 높지만 전략적 영향 고려가 적다는 분석이 제시됨 |
| Gemini-R | Gemini 3 Flash | medium reasoning + CoT | 전반적 성능 상위권, 협력 메커니즘 활용 능력이 강함 |
| Gemini-B | Gemini 3 Flash | non-reasoning | reasoning 없는 대조군, judge 분석에서는 제외 |
| GPT-4o | GPT-4o (2024-05-13) | CoT | 이 논문에서 가장 약한 축에 속하며 예측 불가능성을 위해 혼합 전략을 과도하게 쓰는 경향 보고 |
| Qwen | Qwen3-30B-A3B-Instruct-2507 | CoT | 비용 대비 범용성은 있으나 전반 성능은 상대적으로 낮음 |
표 3은 CoopEval이 단일 모델 데모가 아니라 서로 다른 계열과 reasoning 설정을 아우르는 비교 실험임을 보여 준다. 특히 Gemini-R과 Gemini-B를 함께 넣은 것은 reasoning 추가가 협력 메커니즘 이해에 어떤 차이를 만드는지 비교할 수 있게 한다.
4.2 반복·평판 메커니즘의 파라미터: $k=3$, $\delta=0.8$, $T=15$
반복과 평판 실험의 핵심 파라미터는 history depth $k=3$과 continuation probability $\delta=0.8$이다. 저자들은 본문과 부록의 증명을 바탕으로, 이 설정이면 네 사회적 딜레마에서 협력 결과를 지탱하기에 충분하다고 본다. 또한 부록에서는 $k \in \{2,3,4\}$와 $\delta \in \{0.7,0.8,0.9\}$에 대한 ablation을 추가해, 메커니즘 성능이 파라미터에 얼마나 민감한지 따로 분석한다. 이 설정 덕분에 결과를 “특정 파라미터에 우연히 맞춘 것”으로 치부하기 어렵다.
논문은 continuation probability를 실제 무한 반복의 동전 던지기로 직접 구현하지 않는다. 그렇게 하면 실현 라운드 수 변동이 커져 결과 분산이 커지기 때문이다. 대신 고정된 라운드 수 $T=15$만큼 게임을 진행하고, 각 라운드 payoff를 $\delta$로 가중한 평균을 보고한다. 이는 “나중 라운드는 가치가 같지만 발생 확률은 낮다”는 반복 게임의 의미를 보존하면서도 실험 노이즈를 줄이기 위한 선택이다. 저자들은 이 근사로 인한 최악의 추가 오차가 기본 게임 payoff 범위의 4.2% 이하라고 밝힌다.
평판 메커니즘의 경우, 매 라운드 상대가 무작위로 바뀐다는 점도 중요하다. 반복은 동일 상대에 대한 직접 보복과 보상이 가능하지만, 평판은 제3자의 해석과 정보 전달을 거친다. 따라서 같은 $k$와 $\delta$를 써도 정보 구조의 질은 달라진다. CoopEval이 평판 메커니즘을 두 버전으로 나눈 이유도 여기에 있다. 같은 파라미터라도 정보의 종류와 텍스트 길이가 달라지면, LLM의 추론 실패 양상이 달라질 수 있기 때문이다.
4.3 세 가지 성능 지표와 chain-of-thought 판독
일반합 게임에서는 체스의 승률처럼 독립적인 단일 점수로 성능을 평가하기 어렵다. 한 모델의 성능은 어떤 집단과 함께 놓이는지에 따라 달라진다. 그래서 저자들은 첫 번째 지표로 Mean payoff를 둔다. 이는 테스트된 LLM들이 균일하게 섞인 사회에서 평균적으로 얼마나 좋은 보상을 받는지를 보여 준다. 직관적으로는 “다양한 상대가 공존하는 사회에서 이 모델을 골랐을 때 기대할 수 있는 평균 성과”에 가깝다.
두 번째 지표는 Replicator dynamics based fitness다. 여기서는 성능이 좋은 모델이 시간이 지날수록 더 많이 선택되는 진화적 사회를 시뮬레이션한다. 논문은 균일 분포에서 시작해 1000 스텝의 이산 replicator dynamics를 학습률 0.1의 exponential update로 수행하고, 최종 분포에 대한 각 모델의 fitness를 측정한다. 이 지표는 메커니즘이 강한 모델의 압력 아래서도 협력을 유지시키는지 보여 준다. CoopEval의 인상적인 결과 중 하나는, 적절한 메커니즘 아래에서는 이런 최적화 압력이 오히려 협력을 강화한다는 점이다.
세 번째 지표는 Deviation Ratings이며, 일반합 게임에서의 순위화를 위한 방법이다. 저자들에 따르면 이 방법은 dominance-preserving, clone-invariant 같은 장점을 가진다. 즉, 비슷한 모델 복제본이 더 들어와도 기존 순위 해석이 크게 흔들리지 않아야 한다는 요구를 반영한다. 여기에 더해, chain-of-thought를 GPT-5.2 judge로 판독해 15개 정당화 범주 가운데 무엇이 등장하는지도 측정한다. 이 분석은 행동 자체뿐 아니라, 모델이 협력을 어떤 이유로 설명하는지를 본다는 점에서 CoopEval을 단순 payoff 벤치마크보다 풍부하게 만든다.
표 4. 실험 프로토콜과 평가 지표
| 항목 | 설정 | 의미 |
|---|---|---|
| 표본 규모 | 모델당 8,586개 결정, 총 5만 회 이상 | 개별 매치업이 아니라 집계 경향을 안정적으로 관찰 |
| 혼합 전략 제출 | 행동별 정수 퍼센트, 합계 100 | 언어 모델의 확률적 의도와 실제 샘플 행동을 분리 |
| 온도 | temperature = 1 | 과도한 결정론을 피하고 전략 분포 응답을 허용 |
| Mean | 균일 혼합 사회에서의 평균 payoff | 이질적 사회에서의 평균 성능 |
| Fitness | 1000-step replicator dynamics 후 payoff | 적응적 사회에서 살아남는 상대적 경쟁력 |
| Deviation Ratings | 일반합 게임용 순위 지표 | 낮을수록 더 바람직한 랭킹 |
| Judge 분석 | GPT-5.2가 15개 정당화 범주 판독 | 행동의 이유와 메커니즘 이해 수준을 추적 |
표 4는 CoopEval이 단순 평균 점수표가 아니라 사회 분포, 진화 압력, 추론 근거까지 묶어 보는 평가 프레임임을 보여 준다. 특히 Fitness와 Deviation Ratings를 함께 쓰는 것은 “평균적으로 괜찮다”와 “적응적 경쟁에서 견딘다”를 구분하게 만든다.
여기서 한 가지 세부 사항이 더 중요하다. Reputation 메커니즘에는 Fitness와 Deviation Ratings가 직접적으로 보고되지 않는데, 이는 평판 환경에서는 상대가 고정되지 않아 같은 의미의 메타게임을 구성하기 어렵기 때문이다. 이 선택은 임의의 보조 지표를 억지로 적용하지 않고, 메커니즘별로 해석 가능한 비교 단위를 유지하겠다는 논문의 태도를 보여 준다. 다시 말해 CoopEval은 “모든 것을 같은 자로 재기”보다 “무엇을 재는지가 정당한가”를 먼저 따지는 평가 설계를 택한다.
5. 주요 실험 결과: 어떤 메커니즘이 실제로 협력을 유지시키는가
5.1 NoMechanism 베이스라인: 최신 모델은 단발 딜레마에서 거의 협력하지 않는다
가장 먼저 봐야 할 결과는 NoMechanism 베이스라인이다. 논문은 메커니즘이 정말 필요한지부터 묻는다. 결론은 분명하다. 메커니즘이 없으면 오늘의 LLM은 사회적 딜레마에서 협력하지 않는다. 본문 설명에 따르면 최신 모델들은 대부분의 게임에서 거의 100%에 가깝게 비협력 행동을 택하며, reasoning 모델뿐 아니라 non-reasoning 모델도 마찬가지다. 예외에 가까운 존재는 오래된 GPT-4o인데, 이 모델도 공공재 게임에서는 약 80% 수준으로 무임승차한다.
이 결과는 두 가지 해석을 낳는다. 첫째, 최신 추론 능력이 높아진다고 해서 협력 성향이 자연스럽게 올라가지는 않는다. 둘째, 다중 에이전트 안전성 문제를 “모델이 충분히 똑똑해지면 알아서 해결될 것”이라고 볼 수 없다는 뜻이다. CoopEval의 베이스라인은 최근 LLM이 단일 작업에서는 매우 뛰어나더라도, 사회적 유인 구조 앞에서는 여전히 지배 전략에 수렴한다는 사실을 보여 준다. 논문은 이 지점에서 메커니즘 설계의 필요성을 정당화한다.
Figure 2. 모든 모델을 합쳐 메커니즘별 평균 행동 확률을 정리한 그림. NoMechanism에서는 비협력 행동이 지배적이고, 계약과 중재로 갈수록 협력 행동 비중이 높아진다.
이 그림은 논문의 가장 직접적인 메시지를 시각화한다. 메커니즘이 없을 때는 비협력 행동이 대부분을 차지하지만, 반복·중재·계약이 도입되면 협력 행동 확률이 크게 상승한다. 특히 평판 메커니즘은 반복보다 낮고, 중재와 계약은 협력 행동의 질량이 더 크게 이동한다. 즉, 협력 증가는 모델의 선의라기보다 환경 설계 변화의 결과라는 해석이 가능하다.
저자들은 베이스라인에서 나타나는 정당화도 함께 본다. 사회 후생, 신뢰, 상호성 같은 이유는 거의 등장하지 않고, 주로 자기 점수 극대화와 안전한 비협력 선택이 중심이 된다. 또한 replicator dynamics를 적용하면 상대적으로 더 협력적인 에이전트는 집단에서 밀려나고 전체 payoff도 더 악화된다. 메커니즘이 없는 상태에서는 진화적 압력이 협력을 강화하는 것이 아니라, 오히려 남아 있는 약한 협력 신호까지 제거한다는 뜻이다.
이 베이스라인은 실제 배치 함의를 생각하면 더 중요해진다. 다중 에이전트 시스템에서 설계자가 협력 장치를 별도로 넣지 않으면, 에이전트가 사용자 지시를 충실히 따를수록 오히려 더 일관되게 자기이익적이거나 국지 최적적인 행동을 할 수 있다는 뜻이기 때문이다. 다시 말해 문제는 “모델이 말을 안 듣는다”가 아니라, “모델이 주어진 유인 구조를 너무 잘 따른다”에 가깝다. CoopEval이 메커니즘 수준의 개입을 강조하는 이유가 바로 여기에 있다.
5.2 메커니즘별 집계 결과: 계약과 중재가 가장 강하고, 평판은 기대보다 약하다
집계 결과는 매우 선명하다. 논문은 모든 게임을 0과 1 사이의 공통 척도로 재스케일해 메커니즘 평균을 비교하는데, 여기서 0은 모두가 배신하는 기준점, 1은 모두가 가장 협력적인 행동을 하는 기준점이다. 이 스케일에서 NoMechanism의 LLM 평균은 0.072에 불과하다. 반면 Repetition은 0.587, Reputation-는 0.321, Reputation+는 0.227, Mediation은 0.695, Contracting은 0.801까지 올라간다. 기본 메시지는 명확하다. 협력 메커니즘은 효과가 있지만, 그 효과의 크기는 메커니즘마다 극적으로 다르다.
특히 평판 계열의 결과는 이론적 기대와 다르게 약하다. 반복은 같은 상대와 다시 만나기 때문에 배신에 대한 직접적 보복이 가능하지만, 평판은 바뀌는 상대와 복잡한 이력 해석에 의존한다. 그 결과 Reputation+처럼 더 풍부한 고차 이력을 준 버전이 오히려 Reputation-보다 낮은 평균을 보인다. 논문은 이를 LLM이 방대한 과거 기록과 고차 책임 추론을 잘 소화하지 못하기 때문일 가능성으로 읽는다. 즉, 더 많은 정보가 항상 더 좋은 사회적 추론으로 이어지지 않는다.
표 5. 모든 사회적 딜레마를 재스케일해 집계한 메커니즘별 핵심 수치
| 메커니즘 | Mean | Fitness | Deviation Ratings | 해석 |
|---|---|---|---|---|
| NoMechanism | 0.072 | 0.021 | 3.5 | 기본 상태에서는 협력이 거의 나타나지 않음 |
| Repetition | 0.587 | 0.992 | 3.5 | 직접 상호성이 강력하며 진화 후 거의 협력 상태에 근접 |
| Reputation- | 0.321 | 해당 없음 | 해당 없음 | 평판은 도움 되지만 효과가 제한적 |
| Reputation+ | 0.227 | 해당 없음 | 해당 없음 | 더 많은 이력이 오히려 성능을 낮춤 |
| Mediation | 0.695 | 1.000 | 3.5 | 초기 이질 집단에서도 높은 평균, 진화 후 사실상 완전 협력 |
| Contracting | 0.801 | 0.999 | 3.5 | 평균 성능 최고, 일부 모델은 기본 협력 기준을 넘는 이득도 확보 |
표 5는 CoopEval의 메인 메시지를 숫자로 요약한다. 집계 평균만 보면 계약이 가장 높고 중재가 그 뒤를 잇는다. 그러나 Fitness까지 보면 반복도 거의 완전 협력 수준으로 올라간다. 즉, 초기 이질성에서는 중재·계약이 강하고, 적응이 진행된 사회에서는 반복도 매우 강해질 수 있다.
Figure 3. 각 메커니즘 안에서 모델별 행동 확률을 분해한 그림. 메커니즘 효과가 전체 평균뿐 아니라 모델 개별 행동에도 어떤 차이를 만드는지 보여 준다.
이 그림은 메커니즘 효과가 특정 모델 하나의 편향이 아니라 여러 모델에서 공통적으로 나타나는지 확인하게 해 준다. NoMechanism에서는 대부분의 모델이 비협력 행동에 몰리고, 중재와 계약에서는 Gemini 계열과 Claude, GPT-5.2가 협력 행동으로 더 강하게 이동한다. 반면 GPT-4o와 Qwen은 일부 메커니즘에서 여전히 불안정한 응답을 보여, 제도 효과와 모델 능력이 상호작용한다는 사실을 드러낸다.
진화적 압력까지 고려하면 결과는 더 흥미롭다. 메커니즘 없는 환경에서는 최적화가 협력적 에이전트를 밀어내지만, 메커니즘이 있는 환경에서는 오히려 협력 수준을 90%~100%까지 끌어올린다. 논문은 이를 중요한 안전성 신호로 읽는다. 강한 모델과 강한 경쟁 압력이 항상 사회 후생을 해치는 것은 아니며, 적절한 제도 아래서는 그 압력이 오히려 협력적 균형을 더 견고하게 만들 수 있다는 것이다. 특히 Mediation과 Contracting은 이 점에서 가장 두드러진다.
다만 집계 평균을 읽을 때는 스케일링의 의미를 기억해야 한다. 재스케일된 1은 기본 게임의 완전 협력 기준점이며, 계약에서는 이전 지불 구조 때문에 일부 모델이 이 기준을 넘는 보상을 얻을 수도 있다. 실제로 집계 표에서 Gemini 계열은 Contracting에서 1을 웃도는 평균을 보인다. 이는 계약이 단순히 “기본 협력 상태를 회복”하는 수준을 넘어, 행동 유인을 재설계해 일부 모델에 더 유리한 결과를 만들 수 있음을 뜻한다.
또한 Mean과 Fitness를 함께 보면 메커니즘의 성격 차이가 더 선명해진다. Contracting은 초기 이질 집단에서 평균이 가장 높고 Mediation도 그 뒤를 바짝 따른다. 반면 Repetition은 초기 평균만 보면 두 메커니즘보다 낮지만, 진화 후 Fitness는 0.992로 거의 같은 수준까지 올라간다. 이는 중앙집중적 제도가 초기에 조정 비용을 줄이는 데 강하고, 반복은 시간이 주어졌을 때 사회를 스스로 협력 균형 쪽으로 정렬시키는 힘이 강하다는 해석을 가능하게 한다. 같은 높은 점수라도 제도가 작동하는 방식은 다르다.
5.3 게임별 결과: 어떤 사회적 딜레마에서 어떤 메커니즘이 잘 먹히는가
게임별 평균을 보면, 협력 메커니즘의 효과가 모든 게임에서 같은 크기로 나타나지 않는다. Prisoner's Dilemma에서는 NoMechanism 평균이 1.097이지만 Repetition 1.770, Mediation 1.833, Contracting 1.843으로 크게 오른다. 이 게임은 구조가 단순하고 데이터에서 익숙할 가능성이 높아, 모델이 메커니즘의 뜻을 비교적 잘 이해한 것으로 보인다. 반면 Public Goods에서는 Repetition이 1.166으로만 오르지만 Contracting은 1.438까지 상승한다. 다자 협력에서 계약이 특히 강하다는 점이 드러난다.
Travellers Dilemma에서는 차이가 더 크다. NoMechanism 2.185에서 Repetition 3.077, Mediation 4.000, Contracting 4.130으로 올라가며, 언더컷 경쟁을 제도적으로 막는 효과가 두드러진다. Trust Game은 절대 payoff 규모가 커서 숫자가 다르게 보이지만 패턴은 비슷하다. NoMechanism 4.556에 비해 Repetition 9.311, Reputation- 7.995, Mediation 8.833, Contracting 8.667이다. 여기서는 반복이 특히 강하고, Reputation+는 6.551로 Reputation-보다 약하다. 신뢰와 비대칭 역할이 있는 상황에서 고차 평판 정보가 오히려 혼란을 준다는 해석이 가능하다.
표 6. 게임별 LLM 평균 payoff(각 게임 원래 스케일 기준, Mean)
| 게임 | NoMechanism | Repetition | Reputation- | Reputation+ | Mediation | Contracting |
|---|---|---|---|---|---|---|
| Prisoner's Dilemma | 1.097 | 1.770 | 1.407 | 1.358 | 1.833 | 1.843 |
| Public Goods | 1.017 | 1.166 | 1.086 | 1.051 | 1.237 | 1.438 |
| Travellers Dilemma | 2.185 | 3.077 | 2.118 | 2.070 | 4.000 | 4.130 |
| Trust Game | 4.556 | 9.311 | 7.995 | 6.551 | 8.833 | 8.667 |
표 6은 게임별로 가장 강한 메커니즘이 조금씩 다르지만, 공통적으로 NoMechanism이 최하위에 머문다는 점을 보여 준다. 공공재와 여행자 딜레마에서는 계약이 특히 강하고, 신뢰 게임에서는 반복이 가장 높은 평균을 기록한다. Reputation+가 여러 게임에서 Reputation-보다 낮다는 점도 반복적으로 확인된다.
이 수치는 CoopEval이 단순히 “중재와 계약이 항상 무조건 최고”라는 메시지를 주는 것은 아님을 보여 준다. 반복은 분산적 메커니즘임에도 신뢰 게임에서 가장 강하고, 죄수의 딜레마에서도 거의 최상위권이다. 반대로 중재는 공공재 게임에서 계약보다 약하다. 따라서 어떤 제도를 실제 시스템에 넣을지 고민할 때는 메커니즘의 추상적 우수성보다, 상호작용 구조, 참여자 수, 정보량, 역할 비대칭성을 함께 봐야 한다.
또한 게임별 결과는 모델 학습 데이터 편향을 시사한다. 논문은 죄수의 딜레마에서 모델들이 가장 잘 수행하는 이유 중 하나로, 이 게임이 교육 자료와 인터넷 텍스트에서 지나치게 자주 등장한다는 가능성을 언급한다. 반면 공공재 게임은 다자 상호작용, 여행자 딜레마는 미세 언더컷 논리, 신뢰 게임은 비대칭 역할 때문에 더 어렵다. CoopEval의 가치는 바로 여기에 있다. 한 게임에 최적화된 프롬프트나 기억을 일반적 협력 능력으로 오해하지 않게 해 준다.
부록의 Stag Hunt 결과도 이 해석을 보완한다. Stag Hunt는 사회적 딜레마라기보다 협조적 균형 선택 문제에 가깝기 때문에, 여기서도 실패하는 모델은 단순한 이기주의보다 균형 인식과 조정 능력의 한계를 드러낸다. 논문은 GPT-4o와 GPT-5.2가 이 기준선 게임에서 더 나은 균형을 놓치는 경우를 보고하며, 특히 계약 메커니즘이 능력이 낮은 모델에게는 오히려 복잡하게 느껴질 수 있다고 해석한다. 즉, 좋은 메커니즘도 모델이 읽지 못하면 결과로 환산되지 않는다.
5.4 진화 동학과 모델 비교: 강한 모델은 누구이며, 협력은 최적화 압력 아래서 살아남는가
논문은 개별 모델의 상대적 강약도 비교한다. 전반적으로 Gemini-R와 Gemini-B가 상위권이며, Claude와 GPT-5.2가 그 뒤를 따른다. Qwen은 비용 면에서 저렴하지만 성능은 낮고, GPT-4o는 가장 약한 축으로 평가된다. 흥미로운 부분은 reasoning 유무보다도, 메커니즘을 읽고 미래 유인을 계산하는 능력이 더 중요해 보인다는 점이다. Gemini-B가 reasoning이 없음에도 많은 설정에서 높은 성과를 내는 것은, 적어도 이 벤치마크에서 장황한 추론 자체가 성능의 필요조건은 아님을 보여 준다.
저자들은 일부 모델이 “예측 불가능성 유지”를 이유로 혼합 전략을 과도하게 사용하는 문제도 지적한다. 특히 GPT-4o는 어떤 행동이 지배 전략임을 이해하면서도 상대를 헷갈리게 하기 위해 확률 분포를 섞는 식의 응답을 보인다. 이런 방식은 단일 게임 이론 계산에서는 그럴듯해 보여도, 실제 메커니즘이 제공하는 협력 유인을 충분히 활용하지 못하게 만든다. CoopEval은 바로 이런 추론 스타일의 질적 차이를 payoff 결과로 드러낸다.
Figure 4. 공공재 게임에서 계약 메커니즘을 적용했을 때의 replicator dynamics 예시. 초기 균등 분포에서 출발한 모델 사회가 시간이 지나며 어떤 모델에 무게를 싣는지와, 각 모델의 상대적 fitness가 어떻게 변하는지를 함께 보여 준다.
이 그림의 핵심은 초기 평균 성능과 진화 후 상대 성능이 다를 수 있다는 점이다. 본문 설명처럼 Qwen은 균등 사회에서는 비교적 괜찮아 보여도, 집단이 더 잘하는 모델 쪽으로 재구성되면 상대 성능이 크게 떨어진다. 반대로 계약 메커니즘은 전체적으로 협력 구조를 유지해, 적응 압력이 후생을 무너뜨리기보다 더 강한 협력 사회를 만들 수 있음을 보여 준다.
진화 동학은 CoopEval이 일반적인 리더보드와 구별되는 대목이다. 단순 평균만 보면 중간권인 모델이 진화 후에는 급격히 밀려날 수 있고, 어떤 메커니즘은 초기에는 다소 불안정해 보여도 적응이 진행되면 협력 중심 사회를 형성할 수 있다. 논문이 반복 메커니즘을 높게 평가하는 이유도 여기에 있다. 중앙집중적 계약이나 중재 없이도, 충분한 직접 상호성이 있으면 진화적 압력 아래에서 매우 강한 협력 결과가 나온다.
결과적으로 CoopEval의 주요 실험 결과는 세 줄로 압축된다. 첫째, 메커니즘이 없으면 최신 LLM은 사회적 딜레마에서 협력하지 않는다. 둘째, 메커니즘이 있어도 종류에 따라 효과가 크게 다르며, 계약과 중재가 가장 강하다. 셋째, 적절한 메커니즘 아래에서는 진화적 최적화 압력이 협력을 깨뜨리기보다 오히려 강화할 수 있다. 이 세 문장은 다중 에이전트 시스템 설계에 매우 직접적인 함의를 가진다.
이 결과는 평가 철학 측면에서도 의미가 있다. 많은 LLM 벤치마크가 정답률, 툴 사용 성공률, 단일 작업 완수율을 중심으로 설계되는 반면, CoopEval은 상대가 있는 환경에서 제도가 어떤 사회를 만드는가를 묻는다. 이는 모델을 개인 단위의 문제 해결자로만 보는 시각에서, 제도 안에서 상호작용하는 행위자로 보는 시각으로 이동하는 것이다. 다중 에이전트 배치가 늘어날수록 이런 관점 전환은 주변적 관심사가 아니라 핵심 평가 항목이 될 가능성이 높다.
6. 추가 분석 및 Ablation Study: 진화 동학, 정당화 분석, 파라미터 민감도
6.1 chain-of-thought 정당화 분석: 모델은 왜 그런 결정을 내렸다고 설명하는가
CoopEval의 추가 분석에서 가장 유익한 부분 중 하나는 정당화 분류다. 저자들은 GPT-5.2 judge를 이용해 각 chain-of-thought에 15개 범주의 정당화가 등장하는지 판별한다. 여기에는 individual utility maximization, strategic equilibrium focus, social welfare maximization, reciprocity, trust evaluation, uncertainty evaluation 등이 포함된다. 이 분석은 모델이 협력 행동을 하더라도 그것이 도덕 감수성 때문인지, 아니면 메커니즘 아래에서 자기이익과 균형 계산이 일치한다고 판단했기 때문인지 구분하게 해 준다.
논문이 보고하는 핵심 패턴은 명확하다. 협력 메커니즘 아래에서 가장 자주 나타나는 이유는 개인 효용 극대화와 전략적 균형 지향이다. 이는 중요한 신호다. 모델이 협력한다고 해서 반드시 친사회적 문장을 많이 써서가 아니라, 메커니즘 하에서는 협력이 자신의 점수를 높이는 최적 전략이라고 이해하기 때문에 협력한다는 뜻이기 때문이다. 반대로 베이스라인에서는 사회 후생이나 신뢰 관련 근거가 거의 사라지고, 비협력 선택을 정당화하는 계산이 지배한다.
Figure 5. 가장 많이 등장한 정당화 범주를 메커니즘별로 레이더 차트로 보여 준 그림. 어떤 제도가 어떤 유형의 reasoning을 더 자주 끌어내는지 비교할 수 있다.
이 레이더 차트는 행동 결과만 볼 때 놓치기 쉬운 reasoning의 구조를 드러낸다. 반복과 평판에서는 상호성, 전략적 영향, 불확실성 평가가 조금 더 살아나고, 중재와 계약에서는 자기효용과 균형 초점이 더 강해진다. 즉, 메커니즘이 바뀌면 단지 행동 확률만 달라지는 것이 아니라, 모델이 결정을 설명하는 논리의 중심축도 달라진다.
Figure 6. 모든 모델과 게임을 합쳐 메커니즘별 정당화 범주의 평균 출현 빈도를 보여 주는 히트맵. 어떤 정당화가 거의 항상 등장하고 어떤 범주는 거의 등장하지 않는지 한눈에 읽게 한다.
이 히트맵에서 두드러지는 것은 대부분의 설정에서 개인 효용 극대화와 전략적 균형 초점이 가장 짙게 나타난다는 점이다. 반면 경쟁심, 불평등 회피, 규칙 오해, 사회 규범 순응, 전략 가독성은 거의 보이지 않는다. CoopEval은 이를 통해 현대 LLM이 다중 에이전트 상황을 읽을 때 생각보다 계산 중심적이며, 규범적 추론은 약하다는 사실을 시사한다.
표 7. 논문이 정의한 정당화 범주의 요지와 실험상 관찰 포인트
| 범주 | 정의 요지 | 논문이 관찰한 경향 |
|---|---|---|
| Individual utility maximization | 자신의 payoff를 최대화하려는 계산 | 거의 모든 메커니즘에서 가장 강하게 등장 |
| Strategic equilibrium focus | Nash equilibrium 등 안정적 전략을 찾으려는 태도 | 협력 메커니즘 아래에서 자주 등장 |
| Social welfare maximization | 총합 효용을 키우려는 동기 | 있지만 핵심 동인으로는 덜 두드러짐 |
| Reciprocity | 상대 행동에 맞춘 보상·응징 의도 | 주로 Repetition에서 관찰 |
| Strategic influence | 상대의 미래 행동을 바꾸려는 고려 | 반복·평판에서 의미 있게 등장 |
| Trust / uncertainty evaluation | 상대를 믿을 수 있는지, 의도가 불확실한지 평가 | 평판 메커니즘에서 특히 강함 |
| Competitiveness / inequity aversion / rule misunderstanding | 상대보다 이기려는 욕구, 형평성, 규칙 혼란 | 전반적으로 매우 드물게 등장 |
표 7은 CoopEval이 “협력 행동이 나왔다”를 넘어서 “왜 그 행동이 나왔는가”를 파고든다는 사실을 요약한다. 특히 협력이 도덕적 이유보다 자기이익과 균형 계산으로 설명되는 경우가 많다는 점은, 메커니즘 설계의 효과를 해석할 때 매우 중요하다.
이 분석은 메커니즘 설계 관점에서 매우 중요하다. 만약 협력이 사회 후생에 대한 선호에 의존했다면, 프롬프트나 모델 업데이트가 바뀌는 순간 쉽게 사라질 수 있다. 반면 자기이익 계산과 균형 판단이 협력으로 이어진다면, 구조가 유지되는 한 더 견고할 가능성이 있다. CoopEval은 바로 이 둘을 분리해 보여 준다. 현대 LLM은 도덕적 설교 없이도, 제도 설계가 적절하면 자기이익 계산을 통해 협력으로 이동할 수 있다.
동시에 거의 등장하지 않는 범주도 해석 가치가 있다. 경쟁심, 불평등 회피, 사회 규범 순응, 규칙 오해, 전략 가독성이 드물었다는 것은 현재 모델들이 이 벤치마크를 도덕 드라마보다 계산 문제로 읽고 있음을 뜻한다. 이는 한편으로는 규칙을 몰라서 우연히 협력하는 상황이 아니라는 점에서 안심할 요소이지만, 다른 한편으로는 규범 기반 평판 시스템이나 인간-에이전트 상호작용으로 확장할 때 사회적 의미 층위를 다루는 능력이 아직 약하다는 신호이기도 하다.
6.2 조건부 행동, 투표, 채택: 반복·평판의 미세 동학과 중재·계약의 제안 품질
반복과 평판 메커니즘의 차이는 조건부 행동 분석에서 더 분명해진다. 저자들은 상대가 직전 라운드에 무엇을 했을 때 모델이 이번 라운드에서 어떤 행동을 하는지 집계한다. 이 분석은 모델이 처음에는 친절한가, 배신에 보복하는가, 한 번의 협력을 얼마나 믿는가를 간접적으로 보여 준다. 논문에 따르면 반복에서는 일부 모델, 특히 Gemini-R과 Claude에서 reciprocity 신호가 관찰되지만, 평판에서는 오히려 정보가 더 많아질수록 협력 성향이 흐려진다.
Figure 7. 반복과 평판 메커니즘에서 직전 라운드 상대 행동에 조건부한 현재 행동 빈도를 죄수의 딜레마 기준으로 보여 준 그림. LLM이 협력에 보답하는지, 배신에 응징하는지 대략적 신호를 읽을 수 있다.
이 그림은 반복과 평판이 표면적으로 비슷해 보여도 실제 동학은 다르다는 점을 보여 준다. 반복에서는 직전 협력에 대한 재협력, 직전 배신에 대한 보복 패턴이 비교적 분명하지만, 평판에서는 상대가 바뀌기 때문에 같은 강도의 상호성이 형성되지 않는다. CoopEval이 평판 메커니즘을 약하게 평가하는 이유가 바로 이런 조건부 행동 구조에서 드러난다.
논문은 평판 메커니즘에서 특히 두 가지 문제가 나타난다고 본다. 하나는 불확실성이다. 상대가 바뀌고 기록이 텍스트 트리 형태로 주어지면서, 플레이어는 현재 만난 상대의 성향뿐 아니라 과거 사건의 맥락까지 해석해야 한다. 다른 하나는 독성 전파다. 몇몇 비협력 행위자가 전체 평판 생태계를 오염시키면, 서로 모르는 플레이어들 사이에서 협력적 해석이 더 어려워진다. 이런 구조적 어려움은 평판이 반복보다 약한 이유를 잘 설명한다.
중재와 계약에서는 분석 초점이 달라진다. 여기서는 어떤 제안이 올라오고, 누가 무엇에 투표하며, 최종 채택된 안을 실제로 따르는지가 중요하다. 논문은 잘 설계된 중재자 또는 계약안 하나만으로도 이질적 LLM 사회에서 협력이 상당 부분 회복된다고 보고한다. 특히 계약의 경우, 승리한 안에 대한 acceptance rate가 중재 위임률보다 더 높고, 마지막 행동 선택 단계의 추론도 더 단순하다고 분석한다. 이는 유인 구조가 명시적으로 수치화되면 모델이 전략 계산을 더 쉽게 수행한다는 해석과 맞닿아 있다.
Figure 8. 공공재 게임에서 중재와 계약 메커니즘의 제안별 득표, 채택, 실제 위임·수락 비율을 보여 주는 그림. 어떤 제안이 인기를 얻고 실제 행동으로 이어지는지 비교할 수 있다.
이 그림은 메커니즘 효과가 제도 설계 품질과 채택 과정에 크게 의존한다는 점을 드러낸다. 어떤 제안이 높은 득표를 받더라도 실제 위임이나 계약 서명으로 이어지지 않으면 협력은 유지되지 않는다. CoopEval이 단순 행동 선택이 아니라 제안과 승인, 수락을 모두 평가하는 이유가 여기에 있다.
Figure 9. LLM이 제안한 중재자와 계약안이 각 게임에서 협력적 결과를 게임 이론적으로 얼마나 안정적으로 만드는지 요약한 그림. Nash equilibrium과 약지배 전략 여부를 함께 비교한다.
이 그림은 단지 모델이 협력 행동을 선택했는지보다 한 단계 더 들어가, 모델이 설계한 제도 자체가 이론적으로 얼마나 건전한지 묻는다. 논문은 공공재와 죄수의 딜레마에서 계약안이 특히 강하며, 신뢰 게임과 여행자 딜레마에서는 중재자 설계가 더 까다롭다고 보고한다. 즉, 메커니즘의 성패는 행동 선택 능력뿐 아니라 제안 품질에도 달려 있다.
표 8. 본문이 보고한 중재·계약 제안 품질과 인기의 핵심 수치
| 항목 | Mediation | Contracting |
|---|---|---|
| 협력 결과의 이론적 안정성 | PD/TG에서 모두 위임이 Nash equilibrium인 비율이 80~89% | PG에서 약지배 기준 94%, PD에서 81% 수준의 강한 계약 설계가 자주 등장 |
| 어려운 게임 | TD와 PG에서 일부 모델 제안이 실패해 성능 저하 | TG는 대부분 모델에게 어렵고 Claude가 상대적으로 강함 |
| 전원 승인 제안 존재 | 대체로 70~90%, 단 PG는 예외 | 대체로 70~90%, 단 TG는 예외 |
| 최종 채택 후 행동 복잡도 | GPT-4o와 Qwen이 위임을 꾸준히 따르지 못하는 경우 존재 | 승리한 계약안 수락률이 더 높고 마지막 행동 결정이 더 단순 |
표 8은 중재와 계약이 단순히 “좋은 규칙”이라서 강한 것이 아니라, 제안이 잘 만들어지고 실제로 채택될 때 강해진다는 점을 정리한다. 계약이 초기 이질 집단에서 더 강한 이유도 최종 수락과 행동 단계의 마찰이 더 적기 때문으로 해석할 수 있다.
특히 흥미로운 점은, 적어도 하나의 제안이 모든 참여자의 승인표를 받는 경우가 상당히 자주 나온다는 사실이다. 논문은 대부분의 게임에서 이런 만장일치형 승인 가능성이 70~90%라고 보고한다. 이는 LLM들이 완전히 엇갈린 제도 설계만 내놓는 것이 아니라, 상호 이익을 설명 가능한 수준의 제안안에는 꽤 자주 수렴한다는 뜻이다. 다만 공공재의 중재와 신뢰 게임의 계약처럼 구조적으로 까다로운 경우에는 이 합의 형성이 더 어렵다.
세부적으로 보면 중재에서는 죄수의 딜레마와 신뢰 게임에서 “모두 위임”이 Nash equilibrium이 되는 설계가 자주 나오지만, 여행자 딜레마와 공공재 게임에서는 일부 모델 제안이 균형 조건을 만족하지 못한다. 계약은 공공재 게임에서 특히 강해 약지배 전략 수준의 협력 결과가 94%까지 나타나고, 죄수의 딜레마에서도 81% 수준의 강한 설계가 반복적으로 등장한다. 이는 중재가 조정 장치로서 강하고, 계약은 유인 재설계 장치로서 더 공격적으로 작동한다는 차이를 보여 준다.
6.3 Ablation Study: 평판은 더 많은 정보에서 이득을 보지 못했고, 반복은 비교적 안정적이다
부록의 ablation은 죄수의 딜레마에서 반복과 평판 메커니즘의 민감도를 본다. 먼저 Repetition은 상당히 안정적이다. Mean 기준으로 $(k=2, \delta=0.8)$에서 1.849, $(k=3, \delta=0.7)$에서 1.864, 기본 설정 $(k=3, \delta=0.8)$에서 1.770, $(k=3, \delta=0.9)$에서 1.840, $(k=4, \delta=0.8)$에서 1.847이다. 변화가 아주 없지는 않지만, 전체 추세는 반복이 파라미터 변화에 크게 흔들리지 않는다는 쪽에 가깝다. 이는 직접 상호성이 비교적 단순하고 일관된 메커니즘이라는 해석과 맞물린다.
반면 Reputation 계열은 더 민감하고, 방향도 직관과 다르다. 본문에서 저자들이 강조하듯 낮은 $k$나 낮은 $\delta$가 오히려 평판 메커니즘을 더 잘 작동시키는 경우가 있다. 예를 들어 Reputation-은 $(k=3, \delta=0.7)$에서 1.536으로 기본 설정 1.407보다 높고, Reputation+도 $(k=2, \delta=0.8)$에서 1.540으로 기본 설정 1.358보다 높다. 이 결과는 이론적으로는 미래 만남 가능성이 높을수록 협력 유인이 커져야 한다는 직관과 어긋난다. 논문은 이를 LLM이 긴 이력과 복잡한 사회 정보 구조를 제대로 활용하지 못하기 때문으로 해석한다.
표 9. 죄수의 딜레마에서의 ablation Mean 결과
| 설정 | Mean | 해석 |
|---|---|---|
| Repetition (k=2, δ=0.8) | 1.849 | 기본 설정보다 약간 높음 |
| Repetition (k=3, δ=0.7) | 1.864 | 낮은 δ에서도 강함 |
| Repetition (k=3, δ=0.8) | 1.770 | 논문 기본 설정 |
| Repetition (k=3, δ=0.9) | 1.840 | δ 상승이 큰 차이를 만들지는 않음 |
| Repetition (k=4, δ=0.8) | 1.847 | 긴 이력도 비교적 안정적으로 처리 |
| Reputation- (k=2, δ=0.8) | 1.494 | 짧은 이력이 오히려 유리 |
| Reputation- (k=3, δ=0.7) | 1.536 | 낮은 δ에서 개선 |
| Reputation- (k=3, δ=0.8) | 1.407 | 논문 기본 설정 |
| Reputation+ (k=2, δ=0.8) | 1.540 | 고차 이력의 길이를 줄이면 개선 |
| Reputation+ (k=3, δ=0.8) | 1.358 | 논문 기본 설정 |
| Reputation+ (k=4, δ=0.8) | 1.414 | 더 긴 이력이 일관된 개선으로 이어지지 않음 |
표 9는 반복과 평판이 같은 파라미터를 공유해도 작동 방식이 다르다는 점을 보여 준다. 반복은 비교적 견고하지만, 평판은 정보량이 늘수록 좋아지지 않는다. CoopEval의 중요한 교훈 중 하나는 사회적 정보의 양보다 모델이 실제로 처리할 수 있는 정보의 형태가 더 중요하다는 사실이다.
이 ablation은 실전 시스템 설계에도 시사점을 준다. 평판 시스템을 구축할 때 무조건 더 많은 로그, 더 많은 연결 관계, 더 긴 기록을 보여 주는 것이 좋다고 생각하기 쉽다. 그러나 CoopEval 결과는 현재 LLM에게는 요약된 1차 정보가 긴 재귀형 이력보다 더 유용할 수 있음을 말한다. 반대로 반복 메커니즘은 단순한 상태만 유지해도 강한 효과를 내므로, 시스템 구현 복잡도 대비 효율이 높을 수 있다.
여기서 자연스럽게 나오는 후속 질문은 정보 요약기의 설계다. 만약 평판 메커니즘이 긴 원시 로그 때문에 약해진다면, 단순 길이 축소가 아니라 책임 귀속과 핵심 사건만 남기는 구조화 요약이 도움이 될 수 있다. 다시 말해 CoopEval의 다음 실험은 더 많은 기록을 넣는 것이 아니라, 어떤 방식으로 사회적 기억을 압축해야 LLM이 협력 규칙을 안정적으로 읽는지 묻는 방향으로 나아갈 수 있다. 이는 메커니즘 설계와 메모리 인터페이스 설계를 연결하는 흥미로운 주제다.
7. 한계점 및 향후 연구 방향: 일반성, 메커니즘 설계, 실세계 배치로의 거리
7.1 이 논문이 아직 다루지 못한 범위
가장 먼저 짚어야 할 한계는 게임 환경의 추상성이다. CoopEval은 분명 다중 에이전트 평가의 중요한 빈칸을 메우지만, 여전히 언어로 설명된 정형 게임 안에서 진행된다. 즉, 실제 도구 사용, 장기 메모리 관리, 외부 검증자와의 상호작용, 자원 제약 같은 현실의 마찰은 거의 없다. 따라서 이 논문의 결과는 “LLM이 사회적 유인 구조를 읽는 능력”에 대한 강한 신호이지만, 곧바로 복잡한 실세계 협상 시스템의 성능으로 일반화할 수는 없다.
둘째 한계는 메커니즘 집합의 제한이다. 반복, 평판, 중재, 계약은 분명 중요한 네 축이지만, 협력 문헌 전체를 대표하지는 않는다. 논문 스스로도 향후 과제로 sequential social dilemmas, preplay, gifting, open-source game playing 같은 다른 메커니즘을 제안한다. 따라서 CoopEval의 결과는 “협력 메커니즘의 전체 지도”가 아니라, 오늘의 LLM이 특히 잘 다루는 제도와 잘 못 다루는 제도의 첫 비교표라고 보는 편이 정확하다.
셋째 한계는 모델 종류와 상호작용 방식의 폭이다. 논문은 여섯 모델만 평가하며, 모두 자연어 기반 일반 LLM이다. 그러나 실제 배치에서는 fine-tuned agent, scaffolded agent, 도구를 활용하는 multi-step agent, 외부 메모리와 검색기를 붙인 시스템이 더 흔하다. 저자들도 이러한 purpose-built agent에 대해 메커니즘이 얼마나 견고한지 검증하는 일이 다음 단계라고 명시한다. CoopEval은 여기서 출발점을 제시했지만, 실제 배치군 전체를 대표한다고 보기는 어렵다.
여기에 더해 Impact Statement가 시사하듯, 모든 협력이 바람직한 것은 아니라는 점도 한계 논의에 포함되어야 한다. 메커니즘이 협력을 잘 유도하더라도, 그 협력이 외부 플레이어를 배제하거나 더 큰 사회적 후생을 해치는 담합일 가능성은 별도로 남는다. 현재 CoopEval은 참여자 내부의 상호 이익 회복에 집중하므로, 협력의 외부 효과까지 직접 측정하지는 않는다. 따라서 다음 세대 벤치마크는 “협력이 가능한가”뿐 아니라 “그 협력이 누구에게 어떤 비용을 전가하는가”를 함께 묻는 층위를 가져야 한다.
7.2 논문이 제시하는 후속 연구 방향
향후 연구 방향으로 논문이 가장 직접적으로 제시하는 것은 더 복잡한 사회적 딜레마와 더 다양한 메커니즘으로의 확장이다. 반복과 평판이 성공하는 조건은 상대적으로 단순한 게임에서는 잘 설명되지만, 순차적 의사결정, 불완전 정보, 도구 사용이 들어가면 양상이 달라질 수 있다. 예컨대 실제 코드 협업이나 자원 분배 문제는 여기서 다루는 정상형 게임보다 훨씬 긴 시간축과 상태 공간을 가진다. 이런 환경에서 어떤 메커니즘이 여전히 협력을 유지시키는지는 아직 열려 있다.
또 다른 방향은 평판 메커니즘의 사회 규범화다. 현재 CoopEval의 평판은 각 플레이어가 주어진 기록을 독립적으로 해석하는 바텀업 구조다. 하지만 현실의 평판 시스템은 종종 “무엇이 좋은 행동인가”를 미리 규정하는 사회 규범을 포함한다. 논문은 이 부분을 열어 둔다. 만약 규범을 명시한 평판 시스템이 현재 LLM에게 더 해석하기 쉬운 형태로 정보를 제공한다면, Reputation이 Repetition보다 약하다는 이번 결과가 뒤집힐 가능성도 있다.
마지막으로 저자들은 이 연구 의제를 더 큰 Cooperative AI 아젠다 속에 위치시킨다. 즉, 목표는 한두 개 벤치마크 점수를 올리는 것이 아니라, 미래 AI 사회에서 합리적이고 견고한 협력이 어떤 형태여야 하는지 이해하는 데 있다. CoopEval은 그 중 첫 단계로서, 협력을 단순 윤리 프롬프트의 산물이 아니라 제도 설계와 평가 체계의 문제로 옮겨 놓았다. 후속 연구는 이 축을 더 현실적인 환경과 더 강한 에이전트로 확장해야 한다.
특히 purpose-built agent와의 접목은 매우 중요하다. 도구 호출, 메모리, 검색, 계획 모듈을 가진 에이전트는 같은 LLM 본체라도 제도 신호를 전혀 다르게 처리할 수 있다. 예를 들어 계약안을 외부 계산기로 검산하거나, 평판 기록을 요약 모델이 먼저 압축한 뒤 메인 정책이 읽는 구조를 쓰면 결과가 바뀔 수 있다. 따라서 후속 연구는 “어떤 모델이 좋은가”만이 아니라 “어떤 agent scaffold가 어떤 메커니즘과 잘 맞는가”를 함께 측정해야 한다.
8. 내 해석: 약점 1 + 후속 제안 1
8.1 내가 보는 가장 큰 약점 1개: 메커니즘의 현실 마찰이 지나치게 추상화되어 있다
내가 보기에 이 논문의 가장 큰 약점은 협력 메커니즘의 현실 마찰이 지나치게 잘 정제되어 있다는 점이다. CoopEval은 메커니즘을 자연어로 설명된 게임 안에 넣고, 기록 접근성·중재자 신뢰성·계약 집행 가능성 같은 전제를 비교적 깨끗하게 준다. 하지만 실제 배치 환경에서는 기록이 누락되거나, 중재 규칙이 툴 호출과 연결되어야 하거나, 계약 조항이 여러 단계의 외부 검증을 거쳐야 한다. 즉, 논문이 측정한 것은 “제도를 이해한 상태에서의 전략 추론”에 매우 가깝고, “제도를 구현하고 집행하면서 생기는 운영 마찰 아래의 협력”과는 아직 거리가 있다.
이 약점은 최근 다른 평가 흐름과 비교하면 더 선명해진다. ClawBench와 live web agent evaluation이 실제 웹사이트의 마찰을 남겨 둔 상태에서 에이전트를 평가하려 하고, DR3-Eval이 현실성과 재현성 사이의 균형을 고민하듯, CoopEval도 다음 단계에서는 제도 설명만이 아니라 제도 집행의 실제 흔적까지 평가 단위에 넣을 필요가 있다. 지금의 결과는 메커니즘 아이디어의 방향을 보여 주는 데는 충분하지만, 다자 시스템 운영에서 생기는 검증 비용과 증거 관리 비용까지 반영한 결과로 보기는 어렵다.
8.2 내가 제안하는 후속 연구 1개: live interaction과 trace audit를 결합한 CoopEval-Live
내 후속 제안은 하나다. CoopEval-Live 같은 확장 벤치마크를 만들어, 중재자 제안과 계약 조항이 단순 텍스트 선언으로 끝나지 않고 실제 도구 호출, 로그 생성, 검증 가능한 아티팩트와 연결되게 하는 것이다. 예를 들어 에이전트가 계약안을 만들면 그 조항이 외부 심사기 또는 시뮬레이터에 의해 검증되고, 중재자는 여러 라운드에 걸쳐 일관되게 집행 로그를 남겨야 하며, 평판은 요약 로그와 원시 로그를 함께 제공받는 식이다. 이렇게 하면 CoopEval의 강점인 게임 이론적 엄밀성을 유지하면서도, live 환경의 마찰을 더 가까이 반영할 수 있다.
이 제안에서 핵심은 평가 단위를 단일 에피소드가 아니라 trace repository까지 넓히는 일이다. 여러 상호작용 로그가 쌓였을 때 협력이 진짜 상호 이익인지, 아니면 바깥 플레이어를 해치는 collusion인지 구분하려면 repository-level safety auditing 관점이 필요하다. 그러면 CoopEval은 단순히 “협력을 잘 유도하는가”를 넘어 “어떤 협력이 안전하고 감사 가능한가”까지 다루는 벤치마크로 발전할 수 있다. 나는 이 방향이 ClawBench류의 현실성, DR3-Eval류의 재현성, 그리고 CoopEval의 제도 비교 강점을 한 프레임으로 묶는 가장 생산적인 확장이라고 본다.
구체적으로는 세 층이 필요하다. 첫째, 상호작용 층에서는 실제 툴 호출과 상태 변경이 일어나야 한다. 둘째, 제도 층에서는 중재자와 계약이 검증 가능한 형식 언어 또는 실행 가능한 정책으로 저장되어야 한다. 셋째, 감사 층에서는 여러 에피소드 로그를 묶어 뒤늦게 읽어도 누가 어떤 규칙을 제안했고, 언제 집행에 실패했으며, 어떤 협력이 외부 피해를 낳았는지 재구성할 수 있어야 한다. 이런 구조가 갖춰져야 협력 벤치마크가 단순 게임 실험을 넘어 실제 거버넌스 평가로 발전할 수 있다.
내가 이 제안을 강조하는 이유는 CoopEval의 장점을 버리지 않고 확장할 수 있기 때문이다. ClawBench류의 live 평가가 현실 마찰을 잘 포착하더라도 재현성이 약해질 수 있고, DR3-Eval류의 정적 평가가 비교 가능성은 높지만 현실성이 낮아질 수 있는데, CoopEval-Live는 제도 규칙과 로그 형식을 명시적으로 저장함으로써 두 문제를 동시에 다룰 여지가 있다. 중재자 정책과 계약 조항을 버전 관리 가능한 파일로 남기고, 각 라운드의 승인·거부·집행 실패 로그를 표준 포맷으로 축적하면, 동일한 실험을 반복 재생하면서도 실제 시스템 마찰을 상당 부분 보존할 수 있다. 이렇게 되면 연구자는 단순히 어떤 모델이 협력했는지를 넘어서, 어떤 제도가 반복 가능한 방식으로 협력을 유지했고 어떤 제도는 로그 수준에서 붕괴했는지까지 분석할 수 있다. 나는 바로 이 점 때문에 CoopEval이 다음 세대 에이전트 벤치마크의 중심축 중 하나가 될 가능성이 있다고 본다.
9. 결론: 협력을 도덕이 아니라 제도로 다루는 벤치마크
CoopEval은 현대 LLM 에이전트 평가에서 중요한 관점을 복원한다. 단일 작업 능력이 아무리 높아도, 다른 목표 추구자와 상호작용하는 사회적 장면에서의 행동은 별도로 측정해야 한다는 점이다. 논문은 단발 사회적 딜레마에서 최신 LLM이 거의 일관되게 비협력적으로 행동함을 보였고, 동시에 반복·평판·중재·계약이라는 메커니즘이 이 행동을 얼마나 바꿀 수 있는지 체계적으로 비교했다. 그 결과는 모델 자체의 협력성보다 제도 구조가 더 큰 차이를 만들 수 있음을 보여 준다.
실험적으로는 Contracting과 Mediation이 가장 강했고, Repetition은 분산형 메커니즘임에도 진화적 압력 아래서 거의 완전 협력까지 끌어올렸다. 반면 Reputation은 이론적 잠재력에 비해 실제 LLM에서는 약했고, 더 많은 고차 정보가 반드시 더 좋은 협력으로 이어지지 않았다. 추론 분석을 보면 협력은 사회 후생 지향성보다 자기효용과 균형 계산으로 정당화되는 경우가 많았다. 이는 오늘의 LLM이 윤리적이어서 협력한다기보다, 구조가 맞으면 협력이 자기이익과 일치한다고 판단하기 때문에 협력한다는 뜻이다.
따라서 이 논문의 가장 큰 공헌은 협력을 평가하는 좌표계를 바꿨다는 데 있다. LLM을 더 친절하게 프롬프트하는 문제를 넘어서, 어떤 메커니즘이 강한 모델 사회에서도 협력을 지속시키는가를 묻는 벤치마크를 제시했기 때문이다. 앞으로 다중 에이전트 시스템이 현실 배치로 더 깊숙이 들어갈수록, CoopEval 같은 프레임은 모델 성능표의 주변 항목이 아니라 핵심 안전성 지표로 읽힐 가능성이 크다.
더 넓게 보면 이 논문은 평가 연구와 제도 설계 연구를 다시 연결한다. 좋은 모델을 뽑는 일과 좋은 상호작용 규칙을 설계하는 일은 별개가 아니라 서로를 보완한다. CoopEval은 바로 그 접점을 숫자와 이론으로 보여 준다. 모델이 아무리 강해도 제도가 없으면 협력은 쉽게 무너지고, 반대로 제도가 잘 짜이면 완전히 도덕적이지 않은 모델도 협력 균형으로 이동할 수 있다. 이 통찰은 앞으로의 에이전트 거버넌스 논의에서 매우 오래 남을 만한 기준점을 제공한다.
같은 이유로 CoopEval은 앞으로의 벤치마크 설계자에게 세 가지 실무적 교훈을 남긴다. 첫째, 다중 에이전트 평가에서는 모델 내부 성향만이 아니라 상호작용 규칙을 독립 변수로 다뤄야 한다. 그래야 협력이 모델 성격의 부산물인지, 제도 설계의 결과인지 구분할 수 있다. 둘째, 점수표는 평균값 하나로 끝나면 안 된다. 균일 집단에서의 성능, 적응적 집단에서의 생존성, reasoning 정당화, 제안 품질, 채택 마찰처럼 서로 다른 층의 지표가 함께 있어야 결과를 오해하지 않는다. 셋째, 협력은 단지 “좋은 것”이 아니라 언제든 담합으로 뒤집힐 수 있는 구조이므로, 협력 성공률과 함께 감사 가능성, 외부 효과, 추적 가능한 로그를 평가해야 한다. 이 세 교훈은 CoopEval이 단순한 논문 한 편을 넘어, 앞으로의 에이전트 안전성 벤치마크가 어떤 질문을 우선해야 하는지까지 제안하고 있음을 보여 준다.
결국 CoopEval이 남기는 가장 실질적인 메시지는 다중 에이전트 시대의 안전성을 더 이상 모델 내부 정렬만으로 환원해서는 안 된다는 점이다. 어떤 시스템은 같은 모델을 써도 반복 규칙을 주면 협력적이 되고, 계약 규칙을 주면 더 빠르게 안정화되며, 평판 정보를 잘못 주면 오히려 혼란이 커질 수 있다. 이는 안전성 평가가 모델, 메커니즘, 정보 인터페이스, 감사 구조의 공동 설계 문제라는 뜻이다. 나는 이 논문이 바로 그 관점을 정교한 수치와 이론으로 밀어 올렸다고 본다. 그래서 CoopEval의 가치는 단순히 “협력을 측정했다”에 있지 않고, 앞으로 무엇을 추가로 측정해야 하는지를 비교적 선명하게 정의했다는 데 있다.
실제로 이 논문을 읽고 나면, 앞으로의 에이전트 시스템 평가에서 빠지면 안 되는 질문이 정리된다. 첫째, 에이전트가 협력 규칙을 텍스트로 이해하는가만으로는 부족하고, 그 규칙을 여러 라운드에 걸쳐 일관되게 집행할 수 있는가까지 봐야 한다. 둘째, 메커니즘의 성능은 평균 payoff 하나로 설명되지 않는다. 초기 이질 집단에서의 적응 속도, 강한 모델이 섞였을 때의 안정성, 제안서 품질과 승인 절차의 마찰, reasoning 근거의 일관성처럼 서로 다른 층위가 함께 움직인다. 셋째, 협력이 성공했다는 사실만으로 안전하다고 말할 수는 없다. 어떤 협력은 내부 참가자에게만 이익이 되고 외부 사용자나 제3자에게 비용을 넘길 수 있기 때문이다. 이 세 질문을 보면 CoopEval은 하나의 완성형 벤치마크이기보다, 다중 에이전트 거버넌스 평가를 어디서부터 확장해야 하는지 알려 주는 설계 문서에 더 가깝다.
이 점에서 CoopEval은 앞으로 다른 에이전트 벤치마크와 결합될 여지도 크다. 예를 들어 live web 환경에서는 계약 조항이 실제 API 호출 제한, 승인 워크플로, 비용 정산 규칙과 어떻게 연결되는지 볼 수 있고, research agent 환경에서는 정보 공유와 인용 책임을 어떻게 분담하는지가 새로운 협력 문제로 나타날 수 있다. 코드 에이전트 환경에서는 동일 저장소에 여러 에이전트가 동시에 접근할 때 누가 테스트 비용을 부담하고 누가 실패 복구를 맡는지가 계약의 대상이 될 수 있다. 이런 확장을 감안하면 CoopEval의 가장 큰 성취는 특정 게임에서 높은 수치를 냈다는 사실보다, 협력을 하나의 평가 모듈로 분리해 다른 시스템 위에 조합할 수 있는 형태로 만들었다는 데 있다. 즉, 이 논문은 다중 에이전트 평가를 더 현실적인 환경으로 넓혀 갈 때 계속 재사용될 수 있는 기본 좌표계를 제안한다.
10. 요약 정리: 핵심 포인트 한눈에 보기
- CoopEval은 반복, 평판, 중재, 계약 네 메커니즘이 사회적 딜레마에서 LLM 협력을 얼마나 유지시키는지 비교하는 최초의 체계적 벤치마크다.
- 메커니즘이 없을 때 최신 LLM은 죄수의 딜레마, 공공재, 여행자 딜레마, 신뢰 게임에서 대체로 비협력 행동을 택한다.
- 이론적으로는 네 메커니즘 모두 Pareto 개선된 결과를 균형으로 뒷받침할 수 있지만, 실제 LLM의 수행력은 메커니즘마다 크게 다르다.
- 집계 결과에서 Contracting(0.801)과 Mediation(0.695)이 평균 성능이 가장 높고, Repetition(0.587)도 강한 개선을 보인다.
- Reputation-와 Reputation+는 반복보다 약하며, 더 많은 고차 이력이 오히려 성능을 낮추는 경우가 많다.
- 진화적 적응을 모사한 replicator dynamics에서는 메커니즘 없는 환경과 달리, 적절한 메커니즘 아래서 협력이 오히려 더 강화된다.
- 정당화 분석에 따르면 협력의 주된 근거는 사회 후생보다 개인 효용 극대화와 전략적 균형 지향이다.
- 중재와 계약의 성패는 단순 행동 선택뿐 아니라 제안 품질, 승인 투표, 최종 채택의 마찰에도 크게 좌우된다.
- 내 해석으로는 CoopEval의 다음 단계는 live interaction, 검증 가능한 로그, repository-level safety auditing을 결합해 협력의 현실성과 감사 가능성을 함께 평가하는 방향이다.