BOHM: Zero-Cost Hierarchical Attribution for Compound AI Systems
https://arxiv.org/abs/2605.22866
Joss Armstrong | Ericsson Research, Ireland | arXiv:2605.22866 | 2026년 5월
1. 서론: 복합 AI 시스템에서 “누가 성능을 만들었는가”를 다시 묻기
최근의 compound AI system은 하나의 모델 호출로 끝나지 않는다. 사용자 요청은 라우터, 검색기, 코드 실행기, 평가기, 여러 LLM 후보, 외부 API, 후처리 모듈을 지나며 한 번의 성공 또는 실패로 관측된다. 이런 시스템에서 운영자가 알고 싶은 질문은 입력 토큰 중 어느 feature가 중요했는지를 넘어, 계층 안의 어떤 구성요소가 실제 배포 상태에서 얼마만큼 신뢰를 받고 있으며 그 신뢰가 성능과 맞물리는가이다. BOHM 논문은 이 질문을 component-level attribution 문제로 정리하고, 기존 설명가능성 도구가 가정하는 coalition ablation이 실제 서비스 구조와 자주 맞지 않는다는 점에서 출발한다.
논문의 핵심 주장은 단순하다. 많은 계층형 시스템은 이미 각 라우터가 자식 노드에 대해 weight vector를 유지하고, 실행 결과에 따라 그 가중치를 업데이트한다. BOHM은 이 가중치 상태를 버리지 않고, 루트에서 리프까지 이어지는 경로 곱으로 leaf attribution을 만들며, 깊이별 노드 분포까지 동시에 읽는다. 그래서 별도 explanation pass, component 내부 접근, 임의 부분집합 재평가가 필요 없다. 저자는 이 방법을 Byproduct-Of-Hierarchy Method라고 부르고, 말 그대로 운영 중 생긴 계층 상태의 부산물을 귀속 신호로 바꾼다.
이 논문이 흥미로운 지점은 BOHM을 SHAP의 저가형 근사로 팔지 않는다는 데 있다. SHAP은 “이 구성요소가 coalition value function에 갖는 counterfactual marginal contribution은 얼마인가”를 묻고, BOHM은 “배포된 라우터가 현재 어떤 구성요소를 신뢰하도록 학습됐는가”를 묻는다. 두 답은 라우터가 거의 최적으로 동작하고 coalition value를 쉽게 측정할 수 있을 때 가까워진다. 반대로 오케스트레이터가 잘못된 도구를 과신하면 두 방법의 순위가 갈라지며, 논문은 바로 이 불일치를 배포 진단 신호로 해석한다.
실험도 이 문제의식에 맞춰 구성된다. 18개 LLM을 3단계 계층으로 묶어 880개 LiveCodeBench 문제에서 BOHM attribution을 계산하고, 같은 cached pass matrix에서 SHAP과 비교한다. 이어 US Census 같은 외부 제도적 계층, S&P 500, synthetic hierarchy, opaque component, multi-driver agentic harness까지 확장해 “계층형 라우팅 상태가 실제 품질 순위를 얼마나 회수하는가”를 본다. 이 리뷰에서는 BOHM의 수식, 평가 프로토콜, SHAP과의 구조적 차이, 그리고 기존에 리뷰했던 에이전트 런타임·라우팅 연구와의 연결을 중심으로 읽는다.
| 구분 | BOHM이 보는 질문 | SHAP 계열이 보는 질문 | 운영상 차이 |
|---|---|---|---|
| 입력 | 계층형 라우터가 유지하는 현재 가중치 상태 | 임의 coalition $S$에 대한 value function $v(S)$ | BOHM은 배포 로그와 routing state를 재사용하고, SHAP은 부분집합 재평가가 필요하다 |
| 출력 | leaf와 모든 중간 depth의 multi-resolution attribution | 리프 또는 feature에 대한 flat attribution vector | BOHM은 tier, subgroup, model 수준을 동시에 보여 준다 |
| 비용 | 운영 라운드 이후 marginal cost 0 | 정확 계산은 $O(2^N)$, 표본 근사는 $O(MN)$ | 구성요소 수가 늘수록 coalition 방식의 재평가 부담이 커진다 |
| 적용 범위 | stateful adaptive routing hierarchy | 부분집합 value를 측정할 수 있는 시스템 | third-party API나 opaque orchestrator에서는 BOHM 쪽 가정이 더 현실적일 수 있다 |
2. 배경 및 관련 연구: Shapley 귀속과 라우팅 기반 신뢰의 간격
2.1 Flat attribution이 복합 시스템에서 부딪히는 구조적 한계
SHAP은 Shapley value를 기반으로 각 feature 또는 component의 평균 한계 기여를 계산한다. 이 틀은 “모든 가능한 부분집합에서 해당 구성요소가 들어왔을 때 value가 얼마나 변하는가”를 따진다. 모델 feature attribution에서는 이 질문이 자연스럽지만, LLM 오케스트레이션이나 tool-using agent에서는 부분집합 자체가 실제 배포 상태와 다르게 구성된다. 예를 들어 어떤 orchestrator가 다섯 도구 중 두 도구에만 대부분의 호출을 보내고 있었다면, 나머지 도구만 남긴 coalition은 운영 중 본 적 없는 메뉴가 된다. 그 coalition value를 얻으려면 배포된 시스템을 그대로 관찰하는 대신 다른 프롬프트와 다른 도구 메뉴로 다시 실행해야 한다.
BOHM은 이 지점을 단순 비용 문제를 넘어 semantics 문제로 본다. coalition ablation이 가능하더라도 그것이 배포된 라우터의 실제 신뢰 상태를 설명한다고 말하기 어렵다. 특히 third-party API, proprietary model endpoint, agentic orchestrator처럼 내부를 열거나 임의 subset으로 실행할 수 없는 환경에서는 $v(S)$를 정의하는 순간부터 운영 시스템과 실험 시스템이 갈라진다. 논문은 이 간격 때문에 BOHM과 SHAP을 경쟁 관계로 놓기보다, counterfactual marginal contribution과 deployed trust assignment라는 서로 다른 질문의 답으로 분리한다.
2.2 라우팅 가중치와 MoE/에이전트 오케스트레이션의 공통 언어
라우팅 가중치 자체는 새롭지 않다. Mixture-of-Experts, weighted majority, EXP3, hierarchical reinforcement learning, tool router, model router는 모두 어떤 후보를 얼마나 선택할지에 대한 분포를 유지한다. 다만 기존 연구에서 weight는 주로 학습 안정성, load balancing, token dispatch, cost-performance trade-off를 위한 내부 상태였다. BOHM은 그 weight를 attribution object로 재해석한다. 중요한 점은 표준 MoE의 token-conditional gate를 그대로 설명으로 쓰겠다는 뜻이 아니다. 논문은 stateful, input-unconditioned adaptive routing substrate를 전제하고, 그 위에서 누적된 outcome feedback이 weight에 반영된다고 명시한다.
로컬 위키의 관점에서 보면 BOHM은 이전에 정리한 Task-Type-Aware Routing이나 Cold-Start LLM Routing과 닿아 있다. 그 논문들은 “질의를 어떤 모델에 보낼 것인가”라는 정책층을 다뤘고, BOHM은 그 정책층이 시간이 지난 뒤 어떤 신뢰 분포를 형성했는지 읽는다. 또 Shepherd 리뷰에서 다룬 meta-agent runtime substrate는 에이전트 실행 trace를 관찰·fork·replay하는 기판이었는데, BOHM은 trace 전체를 replay하지 않고도 routing state만으로 multi-resolution trust map을 만든다. 즉 이 논문은 라우팅 정책을 잘 만드는 문제보다, 이미 배포된 계층형 정책을 어떻게 감사할지에 더 가까운 위치에 있다.
관련 연구와의 차이는 “새 라우터를 제안하는가”에서도 드러난다. 저자는 BOHM이 routing substrate 자체를 발명하지 않는다고 반복해서 선을 긋는다. adaptive routing의 update rule과 equilibrium 성질은 별도 선행 작업에 기대고, 이 논문의 기여는 그 substrate가 만든 weight state를 global attribution으로 읽는 formal object를 정의하는 데 있다. 따라서 BOHM을 모델 선택 알고리즘으로만 읽으면 좁다. 더 정확히는 계층형 selection policy가 이미 있는 조직에서, 그 정책이 시간이 지나 어떤 신뢰 구조를 만들었는지 운영자가 확인하는 auditing layer다.
3. 방법론: BOHM의 계층형 attribution tree
3.1 계층형 component system의 설정
논문은 $N$개의 component가 rooted tree $\mathcal{T}$의 leaf로 배치된다고 둔다. 루트에서 어떤 leaf $j$로 가는 경로는 depth $D$의 router sequence를 지나며, 각 router $v$는 자식에 대한 weight vector $\mathbf{w}_v(t)$를 유지한다. 각 라운드 $t$에서 router는 이 weight에 비례해 자식을 선택하고, 최종 leaf가 binary outcome $o(t)$를 만든다. 여기서 leaf 품질 $p_j$는 고정된 Bernoulli 확률로 모델링되며, 이 단순화는 BOHM의 수학적 성질과 실험 설계를 분명하게 해 준다. 실제 에이전트나 LLM에서는 입력 context별 품질이 다르므로, 논문은 context를 나눠 별도로 attribution을 계산하는 방식으로 확장한다.
leaf attribution의 기본식은 경로 곱이다. leaf $j$의 경로가 $(v_0,\ldots,v_{D-1})$라면 BOHM은 $a_j(t)=\prod_{\ell=0}^{D-1}w_{v_\ell,child(v_\ell,j)}(t)$로 귀속량을 정의한다. 이 식은 “루트가 어느 tier를 신뢰하고, 그 tier 내부 router가 어느 subgroup을 신뢰하며, 마지막 router가 어느 model을 신뢰하는가”를 곱해 leaf의 전체 신뢰 질량을 만든다. 각 router weight가 simplex 위에 있으므로 leaf attribution 전체도 1로 합산된다. 이 효율성은 추가 가정 없이 정의 자체에서 바로 나온다.
3.2 level-k attribution과 multi-resolution decomposition
BOHM의 장점은 leaf vector 하나로 끝나지 않는다는 점이다. depth $k$의 노드 $u$에 대해서도 루트에서 $u$까지의 weight 곱을 $a_u^{(k)}(t)$로 정의하면, 같은 routing state에서 tier, subgroup, region, state 같은 중간 수준 attribution을 동시에 얻을 수 있다. SHAP을 flat vector로 계산한 뒤 중간 그룹별로 합산할 수는 있지만, 서로 다른 계층 level의 value function을 따로 설계하고 계산해야 한다. BOHM은 tree 구조가 이미 주어져 있으므로 같은 상태에서 모든 level을 읽는다.
이 구조를 논문은 hierarchical attribution tree라고 부른다. 각 router는 local weight vector를 갖고, 전체 tree는 그 local view들이 factorize한 global distribution이 된다. 운영자가 root-level chart를 보면 시스템이 어떤 큰 그룹을 선호하는지 알 수 있고, leaf-level chart를 보면 최종 구성요소 단위 신뢰가 보인다. 특히 기관·지역·회사처럼 계층 자체가 도메인 의미를 가질 때, level-wise attribution은 단순한 시각화 편의를 넘어 감사 단위의 차이를 만들어 낸다. Census 실험에서 region, division, state, PUMA를 동시에 평가한 이유가 여기에 있다.
3.3 BOHM이 전제하는 adaptive routing substrate
BOHM은 weight가 outcome feedback을 반영해 업데이트되는 substrate를 전제한다. 논문 본문은 substrate의 세부 update rule을 appendix로 보내고, 본문에서는 필요한 성질을 중심으로 설명한다. weights는 uniform에서 시작하고, 선택된 leaf의 binary outcome이나 상위 router weight 변화 같은 피드백을 통해 simplex 위에서 갱신된다. 이 substrate가 stationary quality 아래에서 품질이 높은 자식에 더 큰 equilibrium weight를 주면, BOHM의 leaf attribution도 품질 순서를 보존하는 방향으로 수렴한다.
여기서 “trust”라는 단어는 규범적 신뢰가 아니다. 논문은 trust를 선택한 substrate와 feedback signal 아래에서 routing weights가 표현하는 preference state라고 제한한다. 이 제한은 중요하다. BOHM attribution이 높다는 말은 그 component가 도덕적으로 믿을 만하거나 모든 context에서 좋은 모델이라는 뜻이 아니다. 특정 라우팅 계층과 특정 운영 피드백 아래에서 시스템이 그 구성요소를 많이 통과시키는 방향으로 학습됐다는 의미다. 그래서 BOHM은 보안, 책임, 품질 보증의 최종판정기라기보다, 현재 배포 정책의 내부 상태를 읽는 계측기다.
| 정의 | 수식 또는 설명 | 운영상 의미 |
|---|---|---|
| Leaf attribution | $a_j(t)=\prod_{\ell=0}^{D-1}w_{v_\ell,child(v_\ell,j)}(t)$ | 루트에서 리프까지 선택 신뢰를 곱해 최종 component 신뢰 질량을 만든다 |
| Level attribution | $a_u^{(k)}(t)=\prod_{\ell=0}^{k-1}w_{v_\ell,child(v_\ell,u)}(t)$ | tier, group, region처럼 중간 노드의 attribution을 같은 상태에서 읽는다 |
| Efficiency | $\sum_j a_j(t)=1$ | 각 router weight가 simplex이므로 전체 leaf mass도 확률분포가 된다 |
| Scope | stateful adaptive routing hierarchy | 입력마다 바뀌는 일회성 attention이나 token-level MoE gate와 구분된다 |
4. 실험 설정: 18개 LLM, 외부 계층, multi-driver agentic harness
4.1 LiveCodeBench 18 LLM 계층
첫 번째 실험은 18개 LLM을 3단계 $[3,3,2]$ hierarchy로 배열하고 880개 LiveCodeBench coding problem을 처리한다. 최상위에는 strong, mid, weak에 가까운 tier가 있고, 각 tier는 세 subgroup, 각 subgroup은 두 모델을 갖는다. pass rate는 Mistral-7B의 6.8%부터 GPT-oss-120B의 80.0%까지 넓게 벌어진다. 모든 model output은 미리 계산되어 있으므로 실험은 실제 API 비용을 다시 쓰는 구조를 피하고 cached pass matrix를 활용한다. BOHM은 20개 random seed에서 각 seed가 880문제를 순서대로 처리한 뒤 최종 weight state를 읽는다.
이 실험의 목적은 BOHM이 실제 LLM 품질 순위를 얼마나 잘 회수하는지 확인하는 것이다. ground-truth로는 empirical pass rate ranking을 사용하고, attribution ranking과의 관련성을 Kendall $\tau$로 잰다. 이때 품질 tier로 hierarchy를 만든 점은 분명한 설계 선택이다. 논문은 이 선택이 결과를 쉽게 만들 수 있다는 반론을 예상하고, 이후 external-benchmark tiering과 자연 그룹/랜덤 그룹 ablation, domain-specific tiering을 추가한다. 첫 실험은 BOHM 신호가 충분히 작동하는 baseline setting으로 읽는 편이 정확하다.
| Tier | 포함 모델 예시 | Pass rate 범위 | Mean attribution |
|---|---|---|---|
| A strong | GPT-oss-120B, Qwen3-32B, MiniMax-M2.5, DeepSeek-V3.2, Qwen3-Coder-480B, DeepSeek-R1-32B | 69.9–80.0% | 66.7% |
| B mid | GLM-4.7-Flash, Qwen2.5-Coder-32B, Qwen2.5-72B base, Qwen2.5-32B-Instruct, Qwen2.5-14B-Instruct-1M, Phi-4-14B | 31.4–58.4% | 20.5% |
| C weak | Qwen2.5-14B base, Qwen2.5-Coder-7B, LLaMA-3.1-70B, DeepSeek-Coder-V2, LLaMA-3.1-8B, Mistral-7B | 6.8–30.3% | 12.8% |
| 전체 ranking | 18개 모델 leaf attribution | 6.8–80.0% | Kendall $\tau=0.739\pm0.079$ |
4.2 SHAP 비교와 cached pass matrix
SHAP 비교는 BOHM에 불리하지 않은 환경에서 수행된다. 모든 model-problem pass outcome이 cache되어 있으므로, coalition value를 얻기 위해 실제 모델을 다시 호출하지 않아도 된다. 논문은 500 permutation sample과 18 models를 곱해 문제당 coalition evaluation을 만들고, 880문제 전체에 대해 permutation SHAP을 계산한다. 이 설정에서는 SHAP이 counterfactual marginal contribution을 매우 잘 추정할 수 있으며, 논문도 SHAP이 seed-averaged ranking에서 BOHM보다 높은 $\tau$를 낸다고 보고한다.
그러나 비용과 구조는 다르다. BOHM은 각 routing seed에서 880 operational rounds 이후 weight state를 읽을 뿐이다. SHAP은 cached lookup이라도 seed마다 7,920,000 coalition evaluation을 요구한다. 논문은 이 차이를 약 $9{,}000\times$ cost ratio로 제시한다. 더 중요한 차이는 uncached deployment에서 나타난다. tool call, external API, agent chain을 실제로 재실행해야 하는 환경에서는 coalition value 측정 비용이 단순 lookup을 넘어 시스템 상태 자체를 바꿀 수 있다.
| 방법 | Kendall $\tau$ | 전용 평가 수 | 해석 |
|---|---|---|---|
| BOHM (20 routing seeds) | 0.928 | 0 (880 operational rounds를 재사용) | 배포 라우터가 형성한 trust assignment를 읽는다 |
| Permutation SHAP (500 permutations, 20 seeds) | 0.980 | 7,920,000 per seed | cached coalition value에서 counterfactual marginal contribution을 계산한다 |
| 온라인 win-rate baseline | 0.941 (seed-averaged) | 선택된 모델 결과 관측 | stationary label-observable 환경에서는 강하지만 multi-level decomposition은 제공하지 않는다 |
4.3 외부 제도적 계층과 agentic harness
두 번째 축은 hierarchy가 연구자가 만든 품질 tier일 때만 작동하는지 확인하는 것이다. 논문은 US Census geographic classification을 사용해 Region, Division, State, PUMA로 이어지는 4-level tree를 구성한다. 품질 measure는 2022 American Community Survey에서 계산한 adult income-to-poverty ratio이고, PUMA 475개를 leaf로 둔다. 이 계층은 BOHM 실험을 위해 만든 구조가 아니므로, “좋은 모델끼리 모아 둔 hierarchy라서 잘 된다”는 의심을 완화한다.
세 번째 축은 multi-driver agentic study다. 여기서는 driver orchestrator가 다섯 도구 중 하나를 고르고 결과를 grading하는 harness를 둔다. 5개 driver와 7개 benchmark가 만들어내는 35개 cell에서, 배포 trace와 모든 non-empty tool menu subset의 routing을 수집한다. 이 실험은 BOHM과 SHAP이 언제 비슷하고 언제 달라지는지 보여 주는 핵심 장면이다. driver가 empirically best tool을 top pick으로 삼으면 두 ranking이 가까워지고, 잘못된 도구를 과신하면 BOHM은 그 과신을 그대로 드러내며 SHAP과 멀어진다.
Figure 1: BOHM attribution on 18 LLMs in a 3-level hierarchy over 880 LiveCodeBench problems.
Figure 1은 LiveCodeBench 실험의 네 가지 관측을 한 장에 묶는다. tier별 attribution trajectory, per-model attribution과 empirical pass rate의 대응, seed별 $\tau$ 분포, tier-subgroup-model 계층 분해가 함께 제시된다. strong tier가 전체 mass의 대부분을 가져가고, leaf 수준에서도 pass rate가 높은 모델에 attribution이 집중되는 흐름이 보인다. 이는 BOHM이 단일 벡터보다 계층 전체의 신뢰 이동을 함께 보여 준다는 점을 드러낸다.
Figure 2: BOHM vs SHAP attribution on 18 LLMs over 880 LiveCodeBench problems.
Figure 2는 BOHM과 SHAP을 같은 cached pass matrix 조건에서 비교한다. 왼쪽은 model별 attribution ranking이 empirical pass rate와 얼마나 정렬되는지 보여 주고, 오른쪽은 evaluation cost를 log scale로 나타낸다. SHAP의 $\tau$가 약간 더 높지만, BOHM은 operational rounds 이후 별도 coalition evaluation을 요구하지 않는다. 이 그림은 논문의 “정확도만 보면 SHAP, 배포 계측 비용까지 보면 BOHM”이라는 구도를 압축한다.
Figure 3: Structure sensitivity: natural quality-based grouping versus random hierarchy.
Figure 3은 hierarchy 설계가 BOHM 품질에 영향을 준다는 점을 직접 보여 준다. 자연 그룹은 비슷한 품질의 모델을 같은 tier에 둔 구조이고, random grouping은 모델을 무작위로 섞은 구조다. 자연 그룹은 Kendall $\tau$와 tier weight spread 모두에서 높은 값을 보이며, 임의 계층에서는 설명 신호가 약해진다. 이는 BOHM이 hierarchy를 무시하는 범용 ranking 도구라기보다, 주어진 계층 구조의 타당성에 의존하는 감사 도구임을 말한다.
5. 주요 실험 결과: 무비용 attribution과 counterfactual attribution의 가까움과 멀어짐
5.1 LiveCodeBench 결과와 비용 차이
LiveCodeBench 결과는 BOHM이 “공짜지만 조악한 proxy”에 머물지 않는다는 사실을 보여 준다. Table 1에서 BOHM attribution과 empirical pass rate의 Kendall $\tau$는 $0.739\pm0.079$이고, seed-averaged setting에서는 SHAP 비교 표에서 $0.928$까지 오른다. 이 수치는 동일한 문제와 모델 set에서 SHAP의 $0.980$보다 낮지만, evaluation cost를 함께 보면 의미가 달라진다. BOHM은 이미 운영 중 발생한 880 라운드를 재사용하고, SHAP은 cached regime에서도 seed마다 7.9M lookup을 수행한다.
운영적으로 이 결과는 두 가지로 읽힌다. 첫째, 라우터가 충분히 탐색하고 feedback이 안정적이라면 routing weights는 component quality에 대한 강한 summary가 될 수 있다. 둘째, cached pass matrix가 없는 실제 서비스에서는 SHAP의 높은 $\tau$를 얻기 위해 새 coalition 실험을 구성해야 하며, 그 과정은 비용과 함께 시스템 semantics까지 바꾼다. 그래서 BOHM의 경쟁력은 단순 비용 절감보다 “배포된 시스템이 실제로 믿고 있는 구조”를 보존한 채 관측한다는 점에 있다.
5.2 Census 계층에서의 multi-resolution 회수
Census 실험은 BOHM의 multi-resolution 성질을 보여 주는 장면이다. Region 4개, Division 9개, State 51개, PUMA 475개의 네 수준에서 같은 routing state로 attribution을 읽고, ground-truth quality ranking과 Kendall $\tau$를 계산한다. seed-averaged $\tau$는 Division에서 0.722, PUMA에서 0.686으로 보고된다. Region은 노드 수가 4개라 통계적 해석이 제한되지만, 더 세밀한 수준에서는 유의한 ranking recovery가 나타난다.
이 실험은 BOHM이 LLM routing에만 묶이지 않는다는 점도 보여 준다. 계층형 선택과 binary outcome이 있다면 지역, 기업, 기관, 제품군 같은 도메인 계층으로도 확장된다. 물론 이때 품질 신호가 Bernoulli outcome으로 충분히 표현될 수 있어야 하고, hierarchy가 실제 도메인 구조를 담고 있어야 한다. 잘못 설계된 계층에서는 Figure 3처럼 attribution 신호가 약해진다. 따라서 BOHM의 좋은 사용법은 “어떤 계층에도 붙이는 attribution”보다, 운영자가 이미 의미 있다고 믿는 계층의 신뢰 분포를 감시하는 것이다.
| Depth | Level | 노드 수 N | Per-seed $\tau$ | Seed-averaged $\tau$ |
|---|---|---|---|---|
| 1 | Region | 4 | $0.283\pm0.398$ | 0.333 |
| 2 | Division | 9 | $0.417\pm0.177$ | 0.722 |
| 3 | State | 51 | $0.323\pm0.063$ | 0.533 |
| 4 | PUMA | 475 | $0.351\pm0.039$ | 0.686 |
5.3 Multi-driver agentic study에서 드러난 두 질문의 차이
multi-driver study는 논문의 메시지가 가장 선명하게 드러나는 실험이다. 5개 driver와 7개 benchmark 조합에서 driver는 다섯 도구 중 하나를 고른다. 실제 배포 trace를 보면 driver들이 한 도구에 강하게 집중하는 경우가 많다. top-share median은 0.65이고, 35개 cell 중 30개가 top-share 0.50 이상이다. 이런 상황에서 SHAP은 모든 subset menu를 다시 구성해 counterfactual value를 계산하지만, BOHM은 배포 trace에서 driver가 실제로 둔 신뢰를 읽는다. 두 값이 갈라지면 어느 쪽이 틀렸다기보다 서로 다른 질문에 답한 것이다.
논문의 핵심 관찰은 cell-level $\tau(BOHM,SHAP)$가 driver의 top pick이 empirically best tool인지에 의해 크게 설명된다는 것이다. top pick이 best tool과 일치한 9개 cell은 평균 $+0.22$이고, 일치하지 않은 26개 cell은 평균 $+0.01$ 근처다. 어떤 cell에서는 negative correlation도 나온다. 배포된 orchestrator가 성능상 최선이 아닌 도구에 routing mass를 몰아주면, BOHM은 그 과신을 표시하고 SHAP은 counterfactual로 더 유리한 도구를 높게 볼 수 있다. 감사 관점에서는 이 불일치가 바로 조사 대상이다.
| Driver/요약 | CC | LCB | MBPP | BCB | EvP | MMLU | MATH | 평균 |
|---|---|---|---|---|---|---|---|---|
| DeepSeek-V3.2 | +0.20* | +0.20* | +0.40* | -0.40* | +0.20* | +0.20 | -0.20 | +0.09 |
| GLM-5.1-FP8 | -0.40* | +0.40* | -0.40* | -0.20 | +0.20 | +0.80 | 0.00* | +0.06 |
| Qwen3.6-35B-A3B | -0.20* | +0.60 | +0.40 | -0.40* | 0.00* | +0.40* | -0.80* | -0.00 |
| Qwen2.5-32B-Instruct | 0.00* | +1.00* | +0.11* | -0.22 | -0.40* | +0.36* | +0.36* | +0.17 |
| Devstral-Small-2-24B | +0.20* | +0.60* | +0.40 | -0.32* | -0.40* | +0.11* | -0.60* | -0.00 |
| 요약 | Top=best 평균 +0.22 | Top≠best 평균 +0.01 | 별표는 top pick이 best tool이 아닌 cell | 총 35개 cell | driver별 concentration 차이 | subset-conditioned SHAP과 비교 | BOHM은 deployed trust를 표시 | 불일치가 감사 신호 |
Figure 4: Opaque-component attribution with hidden quality parameters.
Figure 4는 component 내부 품질 파라미터를 직접 보지 못하는 opaque setting을 다룬다. 9개 구성요소의 숨은 quality가 있고, BOHM은 binary outcome과 routing update만으로 attribution을 계산한다. 패널들은 time series, hidden quality별 attribution, hierarchy group-level attribution, seed별 분포를 보여 준다. 결과는 component internals에 접근하지 못해도 배포 라우팅 상태가 품질 순위와 정렬될 수 있음을 보여 주며, third-party endpoint 감사 상황과 연결된다.
Figure 5: Per-level attribution trajectories across root and internal routers.
Figure 5는 root weight와 각 group 내부 weight가 서로 다른 속도로 안정화되는 모습을 보여 준다. 상위 level에서는 큰 그룹 간 차이가 먼저 잡히고, lower-level router에서는 같은 그룹 안 component 간 차이가 더 늦게 분리된다. 이 패턴은 BOHM의 multi-resolution 해석에서 중요하다. 운영자가 빠른 조기 경보를 원하면 root 또는 tier 수준을 먼저 보고, 세부 component pruning은 leaf attribution이 충분히 안정화된 뒤 판단하는 편이 안전하다.
Figure 6: Attribution quality as a function of hierarchy depth and number of rounds.
Figure 6은 hierarchy depth가 늘 때 attribution 품질과 수렴 라운드가 어떻게 변하는지 보여 준다. 왼쪽은 branching factor 3에서 최종 Kendall $\tau$를, 오른쪽은 final $\tau$의 90%에 도달하는 데 필요한 round 수를 나타낸다. depth가 깊어질수록 더 많은 round가 필요하지만, 품질이 즉시 붕괴하지는 않는다. 이 결과는 대규모 조직형 시스템에서 BOHM을 적용할 때 level별 안정화 시간을 모니터링해야 함을 시사한다.
6. 추가 분석 및 Ablation Study: 계층, 노이즈, 도메인 전환이 신호를 어떻게 바꾸는가
6.1 Synthetic experiments와 equilibrium property
appendix의 synthetic experiments는 본문 결과를 둘러싼 제어 실험 역할을 한다. ground truth가 있는 환경에서 BOHM의 Kendall $\tau$는 $0.832\pm0.086$으로 보고되고, SHAP cost는 $N=32$일 때 operational round 대비 약 950배까지 커진다. non-stationary setting에서는 median tracking delay가 25 rounds로 제시되며, quality gap이 $\Delta<0.03$으로 작으면 attribution은 near-uniform에 머문다. 저자는 이것을 실패로 보지 않는다. 작은 차이를 억지로 뒤집어 순위를 만드는 대신, 신호가 약할 때 분포가 퍼져 있는 것이 substrate 성질과 맞기 때문이다.
이 synthetic block은 BOHM의 formal property를 경험적으로 확인한다. efficiency는 정의상 1로 합산되는 성질이고, monotonicity와 symmetry, weak suppression은 substrate equilibrium에 기대는 성질이다. worst component attribution이 0.010으로 $1/N$보다 작아지는 결과는 약한 후보가 충분히 억제될 수 있음을 보여 준다. 반대로 품질 격차가 거의 없는 구간에서는 ranking signal이 약하게 남는다. 운영 관점에서는 이 구간을 “모델 간 우열 불명”으로 표시하는 것이 더 적절하다.
| 실험 | 지표 | 보고 결과 | 의미 |
|---|---|---|---|
| Ground truth | Kendall $\tau$ | $0.832\pm0.086$ | 품질 순위가 분명한 synthetic hierarchy에서 attribution이 품질 ranking을 회수한다 |
| Cost scaling | SHAP cost at $N=32$ | $950\times$ operational rounds | component 수가 늘면 coalition 방식의 비용이 빠르게 커진다 |
| Non-stationary | Tracking delay median | 25 rounds | 환경 변화가 있을 때 weight가 일정 지연 후 따라간다 |
| Small gaps | $\Delta<0.03$ | near 0.0 | 아주 작은 품질 차이는 순위화하지 않고 균등에 가깝게 남는다 |
| Weak suppression | worst attribution | 0.010 | 약한 후보는 uniform baseline보다 낮은 mass를 받는다 |
6.2 계층 설계 sensitivity와 external-benchmark tiering
BOHM의 가장 실용적인 위험은 hierarchy design이다. LCB에서 만든 quality tier를 HumanEval에 그대로 쓰면 ranking이 크게 달라질 수 있다. 논문은 external-benchmark tiering ablation으로 이 문제를 확인한다. MMLU measurement가 있는 모델 subset에서 hierarchy construction만 바꾸고 같은 coding benchmark를 평가했을 때, MMLU 기반 tiering은 same-benchmark tiering과 비슷한 seed-averaged $\tau$를 낸다. 이 결과는 “평가 benchmark로 만든 tier라서만 잘 됐다”는 의심을 줄이지만, 모든 domain에 같은 tier가 맞는다는 보증은 아니다.
Domain-conditioned 결과가 이 한계를 더 분명히 보여 준다. Fixed LCB tiering은 HumanEval에서 $\tau=0.105$에 머물고, domain-specific tiering은 0.476으로 오른다. LCB에서는 fixed와 domain-specific 차이가 작지만, Code Synthesis처럼 모델 순위가 뒤바뀌는 영역에서는 계층을 domain에 맞춰 다시 구성해야 한다. BOHM은 주어진 hierarchy를 충실히 반영하므로, 나쁜 계층을 넣으면 나쁜 구조의 신뢰 분포를 정직하게 보여 준다. 이 점은 장점이자 운영 책임이다.
| Tier construction | Mean Kendall $\tau$ | Seed-averaged $\tau$ | 해석 |
|---|---|---|---|
| Same-benchmark tiering | $0.637\pm0.192$ | 0.873 | 평가 benchmark와 같은 기준으로 만든 hierarchy |
| External-benchmark tiering (MMLU) | $0.656\pm0.142$ | 0.930 | 다른 benchmark 기준 hierarchy도 subset에서는 유사한 recovery를 보임 |
| Domain | Benchmark | 문제 수 | Pass-rate 범위 | Fixed $\tau$ | Domain-specific $\tau$ | $\Delta$ |
|---|---|---|---|---|---|---|
| Software Engineering | BCB | 148 | 1.4–32.4% | 0.289 | 0.370 | +0.081 |
| Algorithmic Coding | LCB | 880 | 6.8–80.0% | 0.739 | 0.715 | -0.024 |
| Competitive Programming | CC | 165 | 0.0–40.0% | 0.319 | 0.385 | +0.066 |
| Code Synthesis | HumanEval | 164 | 63.4–100% | 0.105 | 0.476 | +0.371 |
| Basic Programming | MBPP | 257 | 41.6–93.8% | 0.418 | 0.561 | +0.143 |
6.3 노이즈, pruning, context-dependent attribution
Outcome noise 실험은 binary feedback이 오염될 때 BOHM이 얼마나 버티는지 본다. noise probability가 30%까지 올라가도 $\tau$가 0.5 이상을 유지하고, 50%에서는 모든 신호가 사라진다. 이 결과는 직관적이다. feedback이 절반 확률로 뒤집히면 어떤 라우터도 안정적인 품질 차이를 학습할 수 없다. 운영 로그에서는 grader noise, flaky benchmark, 비결정적 tool output이 이 noise에 해당한다. BOHM을 실제 시스템에 붙인다면 attribution chart보다 먼저 feedback channel의 신뢰도를 점검해야 한다.
Pruning 실험은 BOHM attribution을 의사결정에 직접 연결한다. 18개 LLM ensemble에서 attribution이 낮은 모델부터 제거하면, 6개 모델만 남겨도 coverage 87.3%를 유지하고 oracle과 거의 같은 trajectory를 보인다. random pruning이나 inverse BOHM은 훨씬 큰 손실을 만든다. 이 결과는 BOHM이 단순 설명 그래프를 넘어 운영 비용 절감, 후보 모델 축소, routing menu cleaning 같은 작업에 사용될 수 있음을 보여 준다. 다만 이 사용은 attribution이 충분히 안정화된 뒤에만 안전하다.
| Models remaining | BOHM-guided | Oracle | Random | Inverse BOHM |
|---|---|---|---|---|
| 18 (all) | 0.876 | 0.876 | 0.876 | 0.876 |
| 12 | 0.876 | 0.876 | 0.859 | 0.690 |
| 6 | 0.873 | 0.873 | 0.800 | 0.465 |
| 3 | 0.850 | 0.850 | 0.723 | 0.273 |
| 1 | 0.800 | 0.800 | 0.473 | 0.068 |
| AUPC | 0.867 | 0.867 | 0.804 | 0.563 |
Figure 7: Attribution quality versus outcome noise.
Figure 7은 binary outcome이 확률적으로 뒤집힐 때 attribution ranking이 어떻게 degrade되는지 보여 준다. noise가 낮을 때는 error bar가 작고 Kendall $\tau$가 높은 수준을 유지하지만, flip probability가 커질수록 trajectory가 흔들리고 ranking 품질이 떨어진다. 30% noise에서도 신호가 남는 점은 견고성을 보여 주지만, 50%에 가까워지면 feedback channel이 정보를 제공하지 못한다. 따라서 BOHM 적용 전에는 평가기와 로그의 노이즈를 별도 지표로 관리해야 한다.
Figure 8: Context-dependent attribution for text, code, and math contexts.
Figure 8은 text, code, math context에서 서로 다른 quality profile이 활성화되는 상황을 보여 준다. 각 context별 trajectory와 final attribution이 다르기 때문에, 전체 global attribution만 보면 특정 모델의 도메인 전문성이 평균 속에 묻힌다. BOHM은 context를 분할해 별도 routing run 또는 별도 attribution slice를 만들 수 있다. 이 그림은 에이전트 시스템에서 업무 유형별 라우팅 감사가 필요한 이유를 실험적으로 설명한다.
Figure 9: Domain-conditioned attribution across five coding benchmarks.
Figure 9는 BCB, LCB, CC, HumanEval, MBPP 등 coding domain별 attribution과 pass rate, rank heatmap, specialisation index를 함께 보여 준다. 모델은 같은 18개라도 domain에 따라 ranking이 달라지고, 어떤 모델은 특정 benchmark에서만 강하다. BOHM을 하나의 전역 모델 평가표로 쓰면 이런 specialization이 사라진다. 운영자는 domain-specific hierarchy 또는 context-specific slice를 만들어야 라우팅 신뢰와 실제 성능 차이를 같이 볼 수 있다.
Figure 10: Fixed LCB-based tiering versus domain-specific tiering.
Figure 10은 fixed LCB tiering과 domain-specific tiering을 다섯 domain에서 나란히 비교한다. HumanEval에서 domain-specific tiering의 $\tau$가 크게 높아지는 반면, LCB에서는 fixed tier도 잘 맞는다. 이는 hierarchy가 평가 domain의 품질 구조를 반영할수록 BOHM attribution이 좋아진다는 사실을 보여 준다. 배포 환경에서는 초기 tier를 고정해 두기보다, 업무군별 성능 로그에 따라 계층을 재검토하는 운영 절차가 필요하다.
6.4 라우팅 로그를 attribution 데이터로 바꾸기 위한 계측 설계
BOHM을 실제 서비스에 붙인다고 가정하면 가장 먼저 필요한 것은 모델 성능표보다 routing event schema다. 각 라운드에서 어떤 root router가 어떤 child를 몇 퍼센트 확률로 두고 있었는지, 실제 선택은 무엇이었는지, 선택된 component가 만든 산출물은 어떤 평가 신호를 받았는지, 업데이트 이후 weight가 어떻게 바뀌었는지를 한 이벤트 안에 남겨야 한다. 논문은 수학적으로 weight state를 전제하지만, 운영 시스템에서는 이 state가 여러 코드 경로에 흩어져 있을 수 있다. fallback rule, retry, timeout, rate-limit, human override가 라우팅을 바꾸면 그 사유도 별도 field로 남겨야 BOHM attribution을 성능 신호와 운영 정책의 혼합물로 해석할 수 있다.
특히 agentic system에서는 “선택된 tool”만 기록하면 부족하다. 같은 도구라도 invocation mode, prompt template, retrieval depth, sandbox 권한, memory snapshot, verifier 사용 여부에 따라 실질적인 component가 달라진다. BOHM의 leaf를 모델 이름 하나로 두는 대신, 운영 단위에 맞춰 model-tool-template bundle을 leaf로 정의해야 할 수 있다. 이 설계가 너무 세밀하면 leaf 수가 폭증하고, 너무 거칠면 attribution이 원인 분석으로 이어지지 않는다. 논문의 depth scaling 실험은 깊은 hierarchy도 일정 수준까지 견딜 수 있음을 보여 주지만, 실제 시스템에서는 leaf definition과 feedback density 사이의 균형이 더 중요하다.
두 번째 계측 조건은 feedback normalization이다. BOHM 실험은 binary outcome을 사용하지만, 실서비스에는 pass/fail만 있는 경우가 드물다. 코드 에이전트라면 unit test pass, lint warning, human acceptance, rollback 여부, 비용 초과, 보안 정책 위반이 함께 나온다. 이 신호들을 하나의 Bernoulli outcome으로 압축할지, task type별 별도 BOHM run을 만들지, 또는 multi-objective weight update로 확장할지 결정해야 한다. 단순 평균 reward로 합치면 안전 위반이 성능 향상에 묻힐 수 있고, 엄격한 fail gate로 만들면 작은 형식 오류가 모델 신뢰를 과하게 깎을 수 있다. 논문이 제시한 context-dependent attribution은 이런 분리를 위한 출발점이다.
세 번째 조건은 time window다. BOHM attribution은 현재 weight state를 읽기 때문에, 어떤 기간의 운영 경험이 그 state에 들어갔는지가 중요하다. 너무 짧은 window는 탐색 노이즈에 민감하고, 너무 긴 window는 모델 업데이트나 도구 버전 변경 이후의 현실을 늦게 반영한다. 논문의 non-stationary 실험에서 median tracking delay가 25 rounds로 보고된 것은 이 trade-off를 수치화한다. 서비스에서는 rolling window, exponential decay, release boundary reset을 조합해 “이 attribution은 어느 버전의 어떤 traffic mix에서 나온 값인가”를 명확히 표시해야 한다.
마지막 조건은 visualization이다. BOHM의 출력은 tree이므로 단순 bar chart 하나로는 충분하지 않다. root-level mass, internal node spread, leaf ranking, time trajectory, BOHM-SHAP gap, confidence interval을 따로 보되, 서로 클릭으로 연결되어야 한다. 예를 들어 root tier에서 weak group attribution이 갑자기 오르면 그 group 내부 어떤 leaf가 weight를 끌어올렸는지, 그 변화가 어떤 benchmark family와 feedback event에서 생겼는지 추적할 수 있어야 한다. 이 구성이 갖춰지면 BOHM은 논문 속 수식에서 끝나지 않고, 실제 LLMOps dashboard의 신뢰 계층으로 들어갈 수 있다.
| 계측 항목 | 필수 필드 | BOHM 해석에 필요한 이유 |
|---|---|---|
| Routing state | router id, child weights, selected child, update timestamp | 경로 곱 attribution의 직접 입력이며, 업데이트 전후 비교가 가능해야 한다 |
| Outcome | pass/fail, score, safety flag, human decision, latency, cost | 가중치 변화가 어떤 품질 신호에 의해 생겼는지 설명한다 |
| Context | task type, benchmark family, prompt template, tool mode | global attribution과 domain-specific attribution을 분리하는 기준이 된다 |
| Override | fallback, retry, rate-limit, manual approval, policy block | 라우터 신뢰와 운영 제약이 뒤섞인 사건을 분리해 해석한다 |
6.5 BOHM-SHAP gap을 운영 이벤트로 다루기
논문에서 가장 실무적으로 가져갈 만한 아이디어는 BOHM과 SHAP의 불일치를 실패가 아닌 event로 취급하는 것이다. BOHM이 높고 SHAP이 낮은 component는 배포 라우터가 실제 성능 기여보다 더 많이 믿는 후보일 수 있다. 반대로 SHAP이 높고 BOHM이 낮은 component는 counterfactual로는 유용하지만 현재 orchestrator가 충분히 쓰지 못하는 후보일 수 있다. 이 두 경우는 대처가 다르다. 전자는 driver prompt, routing prior, exploration rate, fallback policy를 점검해야 하고, 후자는 후보 노출 부족, cold-start bias, cost penalty, context classifier 오류를 의심해야 한다.
이 gap은 단일 숫자보다 quadrant chart로 볼 때 유용하다. x축에 BOHM attribution, y축에 SHAP 또는 offline oracle contribution을 두면 네 영역이 생긴다. 둘 다 높은 component는 안정적인 핵심 후보이고, 둘 다 낮은 component는 제거 또는 낮은 우선순위 후보가 된다. BOHM만 높은 component는 over-trusted candidate, SHAP만 높은 component는 under-used candidate로 볼 수 있다. 여기에 latency와 cost를 색으로 입히면 “성능은 좋은데 비싸서 라우터가 피하는 모델”과 “비싸고 기여도 낮은데 과거 성공 때문에 계속 쓰이는 모델”을 구분할 수 있다.
multi-driver study의 GLM-5.1-FP8/LCB 예시는 이런 dashboard가 왜 필요한지 보여 준다. GLM driver가 DeepSeek-V3.2에 routing mass를 크게 몰아주었지만, gpt-oss-120b가 empirical performance 측면에서 더 강한 상황이라면 BOHM은 deployed trust를, SHAP은 counterfactual contribution을 다르게 제시한다. 운영자는 이 차이를 보고 driver prompt를 수정할지, exploration을 늘릴지, tool menu ordering을 바꿀지 결정할 수 있다. 단순 평균 accuracy만 보면 이런 편향은 late-stage regression으로만 드러난다.
이 gap을 자동화하려면 confidence와 sample size를 함께 관리해야 한다. 작은 traffic slice에서 BOHM이 높은 component를 곧바로 과신으로 판정하면 false alarm이 늘어난다. 논문이 seed distribution과 error bar를 반복해서 보여 주는 이유도 여기에 있다. 각 component별 attribution에는 window 내 라운드 수, context coverage, feedback noise estimate, 최근 버전 변경 여부를 함께 붙이는 편이 좋다. 그런 보조 정보가 있어야 BOHM-SHAP gap이 진짜 driver bias인지, 아직 수집이 부족한 early signal인지 분리할 수 있다.
궁극적으로 BOHM-SHAP gap은 모델 선택을 넘어 agent safety에도 쓸 수 있다. 어떤 tool이 success rate는 높지만 policy violation을 자주 만들면, performance SHAP은 높고 safety-conditioned BOHM은 낮게 나와야 한다. 반대로 안전하지만 느린 도구는 safety slice에서는 높고 latency-aware slice에서는 낮을 수 있다. 논문은 주로 binary success와 coding benchmark를 다루지만, 같은 tree 구조를 여러 outcome slice에 대해 나란히 계산하면 복합 시스템의 품질, 비용, 안전, 신뢰성을 한 계층에서 비교할 수 있다.
6.6 논문의 수치를 읽을 때 주의할 세부 지점
BOHM의 LiveCodeBench 결과에서 $\tau=0.928$이라는 수치는 seed-averaged attribution 기준이다. per-seed 값은 더 흔들리고, Table 1의 $0.739\pm0.079$처럼 라우팅 순서와 탐색에 따른 변동성이 있다. 따라서 이 논문을 인용할 때 “BOHM이 항상 SHAP과 거의 같다”고 단순화하면 위험하다. 충분한 round, 적절한 hierarchy, 안정적인 feedback, seed averaging이 합쳐졌을 때 높은 alignment가 나온다. 반대로 traffic이 적은 신규 도구나 품질 차이가 작은 모델군에서는 attribution이 균등하거나 불안정하게 남을 수 있다.
또한 SHAP 비용 비교는 cached pass matrix에서의 lookup 비용을 기준으로 한다. 실제 agentic deployment에서는 tool generation, driver re-prompting, verifier call, sandbox execution까지 포함되어 비용 차이가 더 커질 수 있다. 하지만 cached setting에서는 SHAP이 정보적으로 매우 유리한 것도 사실이다. SHAP은 모든 모델의 pass outcome을 알고 있고, BOHM은 배포 라우팅이 본 선택 경로와 feedback에 기반해 weight를 조정한다. 이 정보 접근성 차이를 인정해야 BOHM의 성격이 분명해진다. BOHM은 full-information oracle과 구분되는, 운영 trace 기반 low-marginal-cost attribution이다.
Census와 S&P 500 같은 비LLM hierarchy는 논문의 범용성을 보여 주지만, 동시에 평가 대상이 synthetic binary sampling으로 변환되어 있다는 점도 봐야 한다. mean income-to-poverty ratio나 회사 품질 지표를 Bernoulli probability로 rank-normalize하는 것은 계층 회수 능력을 보기 위한 실험 설계다. 실제 정책 분석에서 그 attribution을 곧바로 사회경제적 인과로 해석하면 안 된다. 이 실험은 BOHM의 multi-level ranking recovery를 검증하는 장치이지, Census 지역 간 원인 관계를 설명하는 연구가 아니다.
Domain-conditioned attribution 결과는 “한 번 만든 모델 tier를 계속 쓰면 된다”는 해석을 막는다. LCB 기반 tier가 HumanEval에서 거의 신호를 잃는 장면은, 모델 라우팅에서 benchmark family가 얼마나 중요한지 잘 보여 준다. 실제 제품에서 coding, summarization, retrieval, tool planning, visual reasoning을 같은 모델 hierarchy로 처리하면 특정 domain에서 BOHM attribution이 왜곡될 수 있다. 실무 적용 시에는 task taxonomy를 먼저 만들고, 각 taxonomy node마다 BOHM state를 분리하거나 최소한 domain-specific diagnostic을 추가하는 것이 좋다.
6.7 기존 에이전트 리뷰들과의 연결
Shepherd가 실행 trace를 조작 가능한 런타임 객체로 만든 논문이었다면, BOHM은 그보다 좁고 가벼운 telemetry object를 정의한다. Shepherd식 trace는 fork, replay, branch comparison에 강하지만 비용과 구현 복잡도가 있다. BOHM은 routing weights만 있으면 바로 계산되지만, 왜 그런 weight가 생겼는지에 대한 사건 기록은 별도로 필요하다. 두 접근을 결합하면 좋은 구조가 된다. Shepherd류 runtime이 trace provenance를 제공하고, BOHM이 그 trace가 누적된 trust distribution을 계층적으로 요약하는 식이다.
LongSeeker와 Workspace-Bench 같은 장기 에이전트 논문과도 연결된다. 장기 작업에서는 context 관리, 검색 경로, 파일 의존성, tool call 실패가 누적되며, 최종 성공 하나로 모든 component를 평가하기 어렵다. BOHM은 이런 장기 실행 안에서 “어떤 sub-agent 또는 tool family가 반복적으로 선택되고 있는가”를 추적하는 데 쓸 수 있다. 다만 장기 에이전트의 outcome은 지연되고 sparse하므로, 중간 verifier signal이나 step-level feedback을 어떻게 routing update에 반영할지 추가 설계가 필요하다. 이 부분은 BOHM 논문이 직접 풀지는 않지만, 다음 세대 agent observability 연구와 맞닿아 있다.
Task-aware LLM routing 계열과 비교하면 BOHM은 학습 전과 학습 후의 차이를 담당한다. task-aware router는 query profile을 보고 어떤 모델을 선택할지 예측한다. BOHM은 그 선택 정책이 실제 traffic을 거치며 어떤 trust distribution으로 굳어졌는지 보여 준다. 하나는 policy learning이고, 다른 하나는 policy audit이다. 이 둘을 같이 쓰면 cold-start 단계에서는 synthetic task prior로 router를 시작하고, 운영 후에는 BOHM으로 실제 traffic에서 생긴 편향과 domain mismatch를 점검할 수 있다.
Sequence-level expert routing과도 흥미로운 대조가 있다. Path-Lock Expert처럼 response 시작 시 expert path를 고정하는 방식은 재현성과 auditability를 높인다. BOHM은 더 상위 수준에서 계층형 router의 선택 신뢰를 읽는다. 만약 sequence-level route가 장기적으로 weight state에 누적된다면, BOHM은 어떤 reasoning mode나 expert path가 어느 task type에서 신뢰받는지 보여 줄 수 있다. 반대로 token-level dynamic MoE처럼 매 입력마다 gate가 달라지는 구조에서는 BOHM의 stateful substrate 전제가 약해진다. 이 구분은 논문 적용 범위를 판단할 때 중요하다.
6.8 배포 시스템에 넣을 때의 단계별 rollout 절차
BOHM을 바로 production routing decision에 연결하기보다, 처음에는 shadow attribution으로 시작하는 편이 안전하다. 라우터의 실제 선택은 그대로 두고, 각 라운드의 weight state와 outcome만 저장해 BOHM tree를 offline으로 계산한다. 이 단계에서는 attribution을 사용자 트래픽에 반영하지 않고, 기존 성능 지표와 얼마나 일관되는지, 특정 component가 과도하게 높거나 낮게 나오는 구간이 어디인지, domain별로 불안정한 leaf가 있는지 확인한다. 최소 한두 번의 모델 업데이트와 traffic shift를 거치며 attribution이 어떤 속도로 따라오는지 봐야 한다.
두 번째 단계는 human-in-the-loop audit이다. BOHM이 over-trusted candidate나 under-used candidate를 표시하면, 운영자는 해당 구간의 trace sample을 직접 열어 본다. 예를 들어 특정 tool이 높은 attribution을 받지만 실제 오류 보고가 많다면, 그 tool이 쉬운 query만 많이 받는지, retry가 성공으로 기록되는지, grader가 느슨한지 확인해야 한다. 반대로 attribution이 낮은 모델이 offline evaluation에서는 강하다면, router prior나 cost penalty가 지나치게 보수적인지 볼 수 있다. 이 단계에서 BOHM은 자동 조정기라기보다 조사 대상을 줄여 주는 필터다.
세 번째 단계에서야 제한적인 policy action을 붙일 수 있다. 낮은 attribution component를 즉시 제거하기보다, pruning candidate list를 만들고 holdout replay나 canary traffic으로 검증한다. 높은 attribution component는 더 많은 traffic을 받게 할 수 있지만, cost와 latency가 함께 증가하는지 봐야 한다. BOHM이 multi-resolution tree를 주기 때문에 action도 level별로 나눌 수 있다. root tier weight가 불안정하면 큰 policy를 바꾸지 말고 exploration을 늘리고, 특정 leaf만 지속적으로 낮으면 해당 모델 또는 tool template을 교체하는 식으로 작게 움직인다.
마지막 단계는 governance다. attribution chart가 의사결정에 쓰이기 시작하면, BOHM 결과 자체도 감사 대상이 된다. 어떤 기간의 데이터로 계산했는지, weight update rule은 언제 바뀌었는지, hierarchy version은 무엇인지, 제외된 traffic slice가 있는지 기록해야 한다. 논문은 BOHM이 zero marginal cost라고 말하지만, 이것은 계산 비용에 대한 표현이다. 조직 안에서 신뢰할 수 있는 운영 지표로 만들려면 logging, schema, dashboard, review protocol, rollback policy라는 관리 비용이 붙는다. 이 비용을 인정하는 쪽이 BOHM을 더 오래 쓸 수 있다.
6.9 이 논문을 재현하거나 확장할 때 확인할 구현 포인트
재현 관점에서 먼저 확인할 부분은 model output cache의 정의다. LiveCodeBench 실험은 18개 모델의 pass matrix를 전제로 하기 때문에, pass/fail 판정 기준과 문제별 샘플링 순서가 결과에 영향을 준다. 동일한 880문제를 쓰더라도 모델 버전, decoding setting, evaluator version이 바뀌면 empirical pass rate와 hierarchy tier가 달라진다. BOHM attribution은 routing state에서 계산되지만, 그 state를 만든 outcome이 바뀌면 결과도 변한다. 따라서 재현 패키지는 단순 코드보다 problem list, model snapshot, grader, seed schedule을 함께 고정해야 한다.
확장 실험에서는 multi-armed bandit과 router update rule을 바꿔 보는 것이 중요하다. 논문은 특정 adaptive routing substrate의 equilibrium 성질을 활용한다. 만약 softmax temperature, EXP3 exploration, Thompson sampling, UCB-style bonus처럼 다른 업데이트를 쓰면 BOHM의 path product 정의 자체는 유지되지만 monotonicity와 weak suppression의 수렴 양상이 달라질 수 있다. 이때 BOHM을 method name으로 유지하려면 “어떤 substrate에서 어떤 성질을 보장하는가”를 명시해야 한다. routing rule이 달라졌는데도 같은 attribution 해석을 붙이면 수식과 운영 의미가 어긋난다.
또 하나의 확장 축은 non-binary outcome이다. 코드 문제의 pass/fail은 깔끔하지만, 검색 agent나 문서 작성 agent는 품질이 연속 점수나 다중 rubric으로 나온다. 이때 weight update를 성공 확률로 정규화할지, reward distribution의 평균과 분산을 함께 쓸지, safety violation을 hard constraint로 둘지 결정해야 한다. BOHM의 tree extraction은 weight만 있으면 되므로 표면상 간단하지만, 그 weight를 만드는 feedback mapping이 실험의 핵심이 된다. 후속 연구는 BOHM 공식보다 feedback-to-weight interface를 더 자세히 비교해야 한다.
마지막으로, hierarchy 자체를 학습하는 접근과 BOHM을 결합할 수 있다. 논문은 natural grouping과 random grouping의 차이를 보여 주지만, 어떤 계층이 좋은지 자동으로 찾는 문제는 깊게 다루지 않는다. 모델 임베딩, benchmark profile, cost profile, safety profile을 사용해 후보 hierarchy를 만들고, BOHM attribution stability와 downstream pruning 성능으로 선택하는 절차를 설계할 수 있다. 다만 hierarchy를 결과에 맞춰 계속 바꾸면 감사 가능성이 떨어지므로, 학습된 계층도 version을 고정하고 변경 사유를 남겨야 한다. 이것이 BOHM을 연구 실험에서 운영 지표로 옮길 때 필요한 균형이다.
7. 한계점 및 향후 연구 방향: 좋은 계층과 안정적인 피드백이 먼저다
BOHM의 첫 번째 한계는 적용 범위다. 논문은 BOHM이 flat ensemble, 입력 feature attribution, 일반적 epistemic trust score를 대체하지 않는다고 명확히 말한다. stateful adaptive routing hierarchy가 없다면 BOHM이 읽을 weight state도 없다. 단순히 여러 모델의 평균을 내는 앙상블, token마다 바뀌는 표준 MoE gate, prompt-conditioned one-shot router는 논문의 기본 가정과 다르다. 이 차이를 무시하면 BOHM이라는 이름으로 attention weight나 임시 routing score를 설명처럼 쓰는 오용이 생길 수 있다.
두 번째 한계는 feedback 품질이다. BOHM은 binary outcome에서 routing weights가 학습된다고 가정한다. Grader가 불안정하거나 benchmark가 작거나, tool output의 성공/실패가 context에 강하게 의존하면 attribution이 흔들린다. 논문은 outcome noise와 small gap 실험으로 이 문제를 일부 다루지만, 실제 서비스에서는 failure label의 정의, partial credit, human review, delayed outcome, 안전 위반 같은 다중 신호가 섞인다. 향후 연구는 binary feedback을 넘어 다차원 reward와 delayed feedback에서 hierarchical attribution이 어떻게 안정화되는지 봐야 한다.
세 번째 한계는 hierarchy design이다. BOHM은 구조를 만들어 주지 않는다. 운영자가 모델을 어떤 tier와 subgroup에 넣는지, 지역이나 조직 계층을 어떤 기준으로 자르는지에 따라 attribution 품질이 달라진다. 논문은 natural grouping이 random grouping보다 좋고, domain-specific tiering이 fixed tiering보다 나을 수 있음을 보여 준다. 그러나 자동 계층 학습, 계층 변경 시 attribution continuity, 잘못된 hierarchy를 감지하는 진단은 아직 열린 문제로 남아 있다. BOHM을 실무에 붙일 때는 계층 자체를 versioned artifact로 관리해야 한다.
네 번째 한계는 causal interpretation의 유혹이다. BOHM attribution은 deployed trust assignment이지 causal effect 추정치가 아니다. 어떤 모델의 attribution이 높다는 말은 현재 라우터가 그 모델을 많이 통과시킨다는 뜻이고, 그 모델을 제거하면 전체 성능이 정확히 그만큼 떨어진다는 보장은 없다. pruning 실험처럼 BOHM이 좋은 의사결정 신호가 될 수는 있지만, 시스템 변경 전에는 holdout evaluation이나 counterfactual replay로 검증해야 한다. 이 점에서 BOHM은 감사 dashboard의 첫 번째 레이어이고, 최종 rollout decision은 추가 실험과 함께 이뤄져야 한다.
- 적용 전제: stateful adaptive routing hierarchy와 관측 가능한 feedback이 있어야 한다.
- feedback 품질: noisy grader와 flaky benchmark는 attribution을 직접 흔든다.
- 계층 설계: domain mismatch가 크면 좋은 모델도 낮은 attribution을 받을 수 있다.
- 해석 범위: BOHM은 trust assignment를 보여 주며 causal effect나 윤리적 신뢰 점수가 아니다.
- 향후 방향: multi-signal reward, delayed outcome, hierarchy revision, counterfactual replay 결합이 중요하다.
8. 내 해석: 약점 1 + 후속 제안 1
나는 BOHM의 가장 큰 강점이 “현실적인 배포 상태를 설명한다”는 점이라고 보지만, 동시에 가장 걸리는 부분도 그 지점에 있다. 논문은 stateful adaptive routing substrate를 명확히 두고 실험을 설계한다. 그런데 실제 LLM agent stack에서는 routing state가 그렇게 깔끔하게 한 곳에 모이지 않는 경우가 많다. 일부 선택은 prompt 안의 자연어 규칙에서 나오고, 일부는 비용 제한, rate limit, fallback, 사람 승인, retriever cache hit, tool schema failure 같은 운영 조건에서 결정된다. 이런 선택들을 모두 하나의 weight vector로 정규화하지 못하면 BOHM이 읽는 trust assignment와 실제 시스템의 routing reason 사이에 간격이 생긴다. 즉 논문이 해결한 문제는 매우 선명하지만, 많은 프로덕션 시스템은 먼저 “BOHM이 읽을 수 있는 routing substrate로 자기 자신을 계측하는 작업”을 해야 한다.
이전에 리뷰한 Shepherd의 meta-agent runtime substrate와 연결하면 후속 방향이 보인다. Shepherd는 task, effect, scope, execution trace를 형식화해 에이전트 실행을 replay 가능한 대상으로 만들었다. BOHM은 훨씬 가벼운 방식으로 routing weight만 읽지만, 왜 어떤 weight가 변했는지에 대한 provenance는 상대적으로 얇다. 내가 이 논문을 확장한다면 BOHM attribution tree의 각 edge에 “어떤 trace event와 feedback이 weight update를 만들었는가”를 붙이는 작업부터 해볼 것 같다. 그러면 BOHM은 단지 신뢰 분포를 보여 주는 chart를 넘어, 특정 도구 과신이 어느 benchmark, 어느 실패 유형, 어느 driver prompt에서 누적됐는지 추적하는 감사 로그가 된다.
또 하나의 후속 제안은 dual dashboard다. 논문은 BOHM과 SHAP이 다른 질문에 답한다고 설명하고, multi-driver study에서 둘의 불일치를 진단 신호로 본다. 실무에서는 이 불일치를 자동 알림으로 만들 수 있다. 예를 들어 BOHM attribution은 높은데 SHAP marginal contribution이 낮은 도구는 “라우터가 과신하는 후보”로 표시하고, SHAP은 높지만 BOHM이 낮은 도구는 “배포 라우터가 충분히 활용하지 못하는 후보”로 표시한다. 여기에 latency, cost, safety violation, human escalation rate를 붙이면 단순 모델 성능판보다 훨씬 운영적인 라우팅 감사판이 된다. BOHM 단독보다 BOHM-SHAP gap을 제품 지표로 만드는 쪽이 실제 의사결정에 더 빨리 연결될 가능성이 크다.
로컬 위키의 Task-Type-Aware Routing, Cold-Start LLM Routing, Sequence-Level Expert Routing과 비교하면 BOHM의 위치가 더 분명해진다. 기존 라우팅 글들이 어떤 policy를 학습하거나 어떤 control signal로 expert path를 정할지에 초점을 뒀다면, BOHM은 policy가 일정 기간 작동한 뒤 남긴 신뢰 잔상을 읽는다. 그래서 신규 라우터를 설계하는 팀에는 BOHM이 사후 관측 지표이고, 이미 모델/도구 라우팅을 운영하는 팀에는 regression test와 비용 절감 도구다. 이 차이를 분리해서 받아들이면, BOHM은 explainability 논문이면서 동시에 LLMOps 계측 논문으로 읽힌다.
9. 결론: BOHM은 라우터의 현재 신뢰 구조를 계층형으로 읽는 감사 계층이다
BOHM은 복합 AI 시스템의 attribution 문제를 입력 feature 설명에서 component trust 감사로 이동시킨다. 논문이 정의한 leaf attribution은 root-to-leaf path weight의 곱이고, level attribution은 중간 depth의 노드까지 같은 방식으로 얻는다. 이 단순한 정의 덕분에 BOHM은 모든 level의 attribution을 동시에 제공하며, operational rounds 이후 별도 coalition evaluation 없이 계산된다. SHAP과 비교했을 때 BOHM은 counterfactual marginal contribution을 직접 추정하지 않지만, 배포된 라우터가 현재 어떤 component를 신뢰하는지 그대로 보여 준다.
실험 결과는 이 구분을 지지한다. LiveCodeBench 18 LLM 실험에서는 BOHM이 empirical pass rate와 높은 Kendall $\tau$를 보이고, cached SHAP보다 약간 낮은 ranking quality를 훨씬 낮은 marginal cost로 얻는다. Census hierarchy에서는 외부 제도적 계층에서도 multi-resolution recovery가 가능함을 보인다. multi-driver agentic study에서는 driver가 best tool을 top pick으로 둘 때 BOHM과 SHAP이 가까워지고, suboptimal tool을 과신할 때 둘이 멀어진다. 이 불일치는 failure로 취급하기보다 deployed trust와 counterfactual value의 차이를 보여 주는 감사 신호다.
다만 BOHM은 좋은 계층과 안정적인 feedback에 의존한다. hierarchy가 domain을 제대로 반영하지 않으면 attribution 품질이 떨어지고, outcome noise가 높으면 routing state가 품질 차이를 학습하기 어렵다. 따라서 BOHM을 적용하려는 팀은 먼저 routing state를 명시적으로 기록하고, feedback label을 관리하며, domain별 hierarchy를 versioning해야 한다. 이 준비가 되어 있다면 BOHM은 모델·도구·조직 계층을 하나의 trust map으로 읽어 비용 절감, pruning, driver 과신 탐지, agent audit에 활용할 수 있다.
10. 요약 정리
- BOHM은 계층형 라우터의 weight state를 루트-리프 경로 곱으로 읽어 leaf와 중간 level attribution을 동시에 만든다.
- SHAP은 coalition value의 counterfactual marginal contribution을 계산하고, BOHM은 deployed router가 형성한 current trust assignment를 읽는다.
- LiveCodeBench 18 LLM 실험에서 BOHM은 pass rate ranking과 높은 Kendall $\tau$를 보이며, cached SHAP 대비 약 $9{,}000\times$ 적은 전용 평가 비용을 제시한다.
- Census hierarchy 실험은 BOHM이 연구자가 만든 모델 tier및 외부 제도적 계층에서도 multi-resolution attribution을 회수할 수 있음을 보여 준다.
- Multi-driver agentic study에서는 driver top pick이 empirically best tool일 때 BOHM과 SHAP이 가까워지고, 잘못된 도구를 과신하면 둘의 ranking이 갈라진다.
- Hierarchy design은 핵심 변수다. natural grouping과 domain-specific tiering은 attribution 품질을 높이고, random 또는 mismatched grouping은 신호를 약하게 만든다.
- Outcome noise와 작은 quality gap은 attribution 안정성을 제한하므로, 실제 적용 전에는 평가기와 feedback channel의 품질을 먼저 관리해야 한다.
- 운영 활용은 모델 pruning, 도구 과신 탐지, domain별 라우팅 감사, BOHM-SHAP gap dashboard로 이어질 수 있다.
- 한계는 BOHM이 causal effect나 일반적 신뢰 점수와 구분되는 stateful adaptive routing hierarchy 기반 신뢰 분포라는 점이다.