[논문 리뷰]/[최신 논문] / [arXiv 2502.15145] 프로젝션 최적화: 다목적 및 다그룹 RLHF를 위한 통합 프레임워크.md

[arXiv 2502.15145] 프로젝션 최적화: 다목적 및 다그룹 RLHF를 위한 통합 프레임워크

조회

Projection Optimization: A General Framework for Multi-Objective and Multi-Group RLHF

https://arxiv.org/abs/2502.15145

Nuoya Xiong, Aarti Singh | Carnegie Mellon University | arXiv:2502.15145 | 2025년 2월 | ICML 2025 게재 확정


1. 서론: 인간 선호 정렬의 다목적 최적화 문제

인간 피드백을 통한 강화학습(Reinforcement Learning with Human Feedback, RLHF)은 대형 언어 모델(LLM)을 인간의 가치와 선호에 맞추어 정렬하는 데 널리 사용되는 미세조정 기법이다. 표준적인 RLHF 파이프라인은 인간이 두 개의 모델 출력 사이에서 전반적인 선호를 표현하고, 이를 기반으로 단일 보상 함수를 학습하여 최적화하는 구조를 따른다. 그러나 현실 세계에서 인간의 선호는 단일 차원으로 환원되기 어려우며, 안전성(safety), 유용성(helpfulness), 유머(humor), 정확성(correctness) 등 다양한 목적 함수가 동시에 고려되어야 한다. 예를 들어, 두 편의 논문을 전반적으로 비교하는 것보다 참신성, 명확성, 정확성 등 개별 기준에 따라 비교하는 것이 훨씬 용이하다. 마찬가지로, 여행 도시를 추천할 때 음식, 밤문화, 안전성 등의 개별 기준으로 비교하는 것이 전체적으로 비교하는 것보다 자연스럽다.

이러한 관찰에 기반하여 다목적 RLHF(Multi-Objective RLHF, MORLHF)가 등장하였으며, 각 목적별 선호 피드백을 활용하여 파레토 최적(Pareto optimal) 정책을 달성하는 것을 목표로 한다. 기존의 거의 모든 MORLHF 연구는 개별 보상 함수를 선형 집계(linear aggregation), 즉 $r(x, y) = \sum_{i=1}^{m} \alpha_i r_i(x, y)$ 형태로 결합하여 최적화한다. 이 접근법은 구현이 간편하고 이론적 분석이 용이하다는 장점이 있지만, 특정 목적을 우선시하는 정책이나 최악의 목적 성능을 극대화하는 공정한 정책을 표현하는 데 본질적인 한계를 가진다.

사회 선택 이론(social choice theory)에서는 단조성(monotonicity), 대칭성(symmetry), 스케일 불변성(scale invariance) 등의 자연스러운 공리를 만족하는 보다 일반적인 집계 함수 클래스로 가중 p-norm 집계를 제시한다. 이는 $r(x, y) = \left(\sum_{i=1}^{m} \alpha_i r_i^p(x, y)\right)^{1/p}$로 정의되며, $p \leq 1$일 때 여러 목적 사이의 공정성을 촉진한다. 그러나 비선형 집계를 다루는 기존 연구는 Zhong et al.(2024)의 PNB 알고리즘이 유일하며, 이 방법은 보상 기반(reward-based) 접근법의 높은 계산 비용과 집계 매개변수 변경 시 재훈련의 필요성이라는 심각한 실용적 한계를 안고 있다.

본 논문(Xiong & Singh, Carnegie Mellon University)은 이러한 한계를 극복하기 위해 프로젝션 최적화(Projection Optimization)라는 새로운 알고리즘 프레임워크를 제안한다. 이 연구는 ICML 2025에 게재가 확정되었으며, 다목적 RLHF의 이론적 토대를 크게 강화하는 기여를 한다. 논문은 NSF AI Institute for Societal Decision Making(IIS2229881) 및 ONR(N000142212363)의 지원을 받았다. 핵심 아이디어는 비선형 집계 최대화 문제를 일련의 하위 문제(sub-problem)로 변환하는 것인데, 각 하위 문제는 선형 집계만을 포함하므로 기존의 효율적인 알고리즘으로 해결할 수 있다. 이 프레임워크는 다목적 문제뿐 아니라, 서로 다른 선호 가중치를 가진 다수의 사용자 그룹이 존재하는 다그룹(multi-group) 시나리오로 자연스럽게 확장되며, 합의(consensus) 달성과 집계 목적 최적화라는 두 가지 목표를 모두 다룬다. 이론적으로 제안된 프레임워크가 부분선형(sublinear) 리그렛을 달성함을 보이고, 실증적으로는 개별 목적의 최적 정책이 주어지면 거의 훈련이 필요 없는(training-free) 알고리즘을 도출한다.

2. 배경 및 관련 연구: RLHF에서 사회 선택 이론까지

2.1 표준 RLHF 프레임워크

RLHF의 기본 구조를 이해하기 위해 표준적인 단일 목적 설정을 먼저 살펴본다. 프롬프트 공간 $\mathcal{X}$와 응답 공간 $\mathcal{Y}$가 주어졌을 때, 정책 $\pi: \mathcal{X} \to \Delta(\mathcal{Y})$는 프롬프트 $x$에 대한 응답 분포를 생성하는 LLM을 나타낸다. RLHF에서는 지도 학습으로 사전 훈련된 참조 정책(reference policy) $\pi_{\text{ref}}$가 주어지며, 이를 인간 선호에 맞추어 미세조정하는 것이 목표이다. 인간 선호는 Bradley-Terry(BT) 모델로 모형화되며, 보상 함수 $r^*(x, y)$에 의해 두 응답 $y_1, y_2$에 대한 선호 확률이 다음과 같이 결정된다.

$$P(y_1 \succ y_2 \mid x) = \sigma(r^*(x, y_1) - r^*(x, y_2))$$

여기서 $\sigma(z) = \frac{1}{1+\exp(-z)}$는 시그모이드 함수이다. 주어진 보상 함수 $r$에 대해 최적 정책 $\pi_r$은 참조 정책으로부터의 이탈을 방지하는 KL 발산 정규화 항을 포함한 기대 보상을 최대화한다.

$$\pi_r = \arg\max_\pi J(\pi) = \arg\max_\pi \mathbb{E}_{x \sim \rho} \mathbb{E}_{y \sim \pi(\cdot|x)} [r^*(x, y) - \beta D_{\text{KL}}(\pi \| \pi_{\text{ref}})]$$

이 최적화 문제는 보상 기반 접근법과 보상 자유(reward-free) 접근법으로 나뉜다. 보상 기반 RLHF는 먼저 BT 가정 하에서 보상 모델을 추출한 후 PPO 등의 RL 알고리즘으로 이를 최적화하는 반면, DPO(Direct Preference Optimization)로 대표되는 보상 자유 접근법은 명시적 보상 모형화를 우회하고 선호 손실을 정책의 함수로 직접 정식화하여 지도 학습으로 해결한다. 보상 자유 접근법은 더 안정적이고 계산 효율적인 것으로 알려져 있다.

2.2 다목적 RLHF의 기존 접근법

다목적 RLHF(MORLHF)는 안전성, 유용성, 유머 등 복수의 목적에 대해 LLM을 동시에 정렬하는 문제를 다룬다. 이 분야의 기존 연구들은 대부분 보상 또는 모델을 개별 구성 요소의 가중합으로 집계하는 방식을 채택한다. MORLHF(Wu et al., 2023)는 집계된 보상을 PPO로 직접 최적화하고, MODPO(Zhou et al., 2023)는 경량화된 보상 자유 대안을 제공한다. RS(Rewarded Soups, Rame et al., 2024)는 개별 모델을 가중 평균하여 결합하며, MOD(Shi et al., 2024)는 선형 집계된 보상에 대한 최적 정책의 닫힌 형태 해(closed-form solution)를 유도하여 훈련 없는 알고리즘을 제시한다.

MOD의 핵심 결과를 구체적으로 살펴보면, $p = 1$인 선형 집계에서 최적 정책 $\pi_r$은 $\pi_r(y \mid x) \propto \pi_{\text{ref}}(y \mid x) \cdot \exp\left(\frac{1}{\beta} r(x, y)\right)$로 표현되며, 선형 집계 $r(x, y) = \sum_{i=1}^{m} \alpha_i r_i(x, y)$와 $\sum_{i=1}^{m} \alpha_i = 1$ 조건에 의해 $\pi_r(y \mid x) \propto \prod_{i=1}^{m} \pi_{r_i}(y \mid x)^{\alpha_i}$가 성립한다. 이는 각 목적별 최적 정책을 DPO로 학습한 후, 이들의 가중 곱으로 전체 최적 정책을 계산할 수 있음을 의미한다. 그러나 이 유도는 선형 집계의 구조에 강하게 의존하며, 일반적인 $p \leq 1$ 비선형 집계에서는 보상의 비선형 구조로 인해 성립하지 않는다.

비선형 집계를 다루는 유일한 기존 연구인 PNB(Zhong et al., 2024)는 각 목적에 대해 보상 함수를 먼저 학습하고, 이를 비선형으로 집계한 새로운 보상을 직접 최적화한다. 그러나 이 접근법은 보상 기반 RLHF의 계산 비용이 높고, 집계 방식이 변경될 때마다 전체 정책을 재훈련해야 한다는 근본적인 한계를 가진다. 본 논문은 이 기술적 격차를 해소하는 것을 핵심 목표로 삼는다.

2.3 다원적 정렬과 사회 선택 이론

최근에는 다양한 가치관과 관점을 반영하는 다원적 정렬(pluralistic alignment)에 대한 연구가 활발히 진행되고 있다. Chakraborty et al.(2024)은 최악의 그룹 손실을 최적화하여 모든 그룹에서 합리적인 성능을 달성하는 max-min RLHF를 제안하였고, Park et al.(2024)과 Sorensen et al.(2024)은 사회 선택 이론과 투표 이론을 활용한 선호 집계 방법론을 탐구하였다. Ge et al.(2024)은 BTL 모델이 사회 선택 이론의 잘 알려진 기준을 만족하지 않음을 기술적으로 증명하고 규칙 기반 보상 학습 접근법을 제안하였으며, Chen et al.(2024)은 이상점 모델(ideal point model)을 통해 다양한 그룹을 더 잘 수용하는 일반화된 BTL 모델을 도입하였다.

사회 선택 이론에서 영감을 받은 복지 함수(welfare function) 개념은 본 논문의 핵심 토대를 형성한다. Cousins(2021)은 단조성, 대칭성, 스케일 불변성 등의 공리를 만족하는 집계 함수 클래스가 가중 p-norm으로 귀결됨을 보였으며, 본 논문은 이 결과를 MORLHF 문맥에서 활용하여 다양한 공정성 수준을 표현할 수 있는 일반적인 프레임워크를 구축한다. 또한, 각 그룹의 불만족 수준을 집계하는 말페어 함수(malfare function) 개념을 도입하여 다그룹 설정에서의 목적 함수를 정의한다.

3. 방법론: 프로젝션 기반 다목적 최적화 프레임워크

3.1 가중 p-norm 집계와 목표 집합

본 논문의 핵심 아이디어를 이해하기 위해 먼저 가중 p-norm 집계의 정의와 그 의미를 살펴본다. $m$개의 목적이 있고 각 목적 $i$에 대한 보상 함수가 $r_i(x, y) \in [0, B]$일 때, 집계된 보상은 다음과 같이 정의된다.

$$r(x, y) = \left(\sum_{i=1}^{m} \alpha_i r_i^p(x, y)\right)^{1/p}, \quad p \leq 1$$

여기서 $\alpha \in \Delta_{m-1}$은 목적들의 가중치이며, $p$는 공정성의 정도를 조절하는 매개변수이다. $p = 1$일 때는 전통적인 선형 집계로 환원되고, $p$가 감소할수록 성능이 낮은 목적에 더 높은 가중치를 부여하여 공정성을 강화한다. 특히 $p = -\infty$인 극단적 경우에는 최악의 목적 성능을 최대화하는 max-min 최적화와 동치가 된다.

본 논문은 집계된 보상의 최대화 문제를 현재 보상 벡터와 목표 집합(target set) 사이의 거리를 최소화하는 문제로 변환한다. 목표 집합 $W_{p,c}^\alpha \subset \mathbb{R}^m$은 다음과 같이 정의되는 볼록 집합이다.

$$W_{p,c}^\alpha = \left\{z \in \mathbb{R}_{\geq 0}^m : \left(\sum_{i=1}^{m} \alpha_i z_i^p\right)^{1/p} \geq c\right\}$$

여기서 $\alpha$는 인간이 목적에 부여하는 가중치, $p$는 공정성의 정도, $c$는 인간의 요구 수준을 반영한다. 이 목표 집합의 정의는 목적들의 집계된 보상이 사전에 정의된 상수 $c$ 이상이어야 함을 의미한다. 또한 기대 보상 벡터 $S(\pi) \in \mathbb{R}^m$을 $(S(\pi))_i = \mathbb{E}_\pi[r_i^*(x, y) - \beta D_{\text{KL}}(\pi \| \pi_{\text{ref}})]$로 정의한다. 이는 KL 발산 정규화 항을 포함한 정책 $\pi$의 기대 보상을 나타낸다. 이제 최적화 목표는 다음과 같이 재정식화된다.

$$\pi^* = \arg\min_\pi D(\pi) := d(S(\pi), W_{p,c}^\alpha)$$

여기서 $d(\cdot, \cdot)$는 유클리드 거리를 나타낸다. $c$를 $d(S(\pi), W_{p,c}^\alpha) = 0$을 만족하는 정책 $\pi$가 존재하는 최대값으로 선택하면, 이 정책은 원래의 집계된 보상 최대화 문제의 최적 정책이 된다. 따라서 이 정식화는 원래의 최적화 문제와 동치이면서도, 프로젝션 기반 알고리즘의 적용을 가능하게 하는 대안적 관점을 제공한다.

3.2 p 값에 따른 집계 방식의 다양성

논문은 $p$ 값의 선택에 따라 다양한 최적화 목표를 표현할 수 있음을 구체적인 예시를 통해 보여준다. 이 유연성은 본 프레임워크의 핵심적인 강점 중 하나이다.

선형 집계($p = 1$)의 경우: 목표 집합이 $W_{1,c}^\alpha$이고 $c \geq \max_\pi \sum_{i=1}^{m} \alpha_i \mathbb{E}_\pi[r_i^*(x, y)]$일 때, 목적 함수는 다음과 같이 단순화된다.

$$D(\pi) = d(S(\pi), W_{1,c}^\alpha) = \frac{c - \sum_{i=1}^{m} \alpha_i \mathbb{E}_\pi[r_i^*(x, y)] + \beta D_{\text{KL}}(\pi \| \pi_{\text{ref}})}{\sqrt{\sum_{i=1}^{m} \alpha_i^2}}$$

이는 기존의 선형 집계 MORLHF와 동치임을 보여주며, 본 프레임워크가 기존 방법론을 특수한 경우로 포함함을 확인시켜준다.

최악 경우 보상($p = -\infty$)의 경우: 목표 집합은 $W_{-\infty, c}^\alpha = \{z \in \mathbb{R}_{\geq 0}^m : \min_i z_i \geq c\}$가 되며, 이는 모든 목적에서 최소한의 성능 수준을 보장하려는 요구를 반영한다. 논문은 정리 3.3(Theorem 3.3)을 통해 이 설정과 max-min RLHF(Chakraborty et al., 2024) 사이의 연결을 공식적으로 확립한다. 구체적으로, max-min 값을 $c^* = \max_\pi[\min_i \mathbb{E}_\pi[r_i^*] - \beta D_{\text{KL}}(\pi \| \pi_{\text{ref}})]$로 정의할 때, $c$가 $c^*$에 가까이 선택되면 결과 정책도 $c^*$에 가까운 max-min 값을 달성한다.

$$\min_i \mathbb{E}_\pi[r_i^*(x, y) - D_{\text{KL}}(\pi \| \pi_{\text{ref}})] \geq c^* - (\sqrt{m} + 1)|c^* - c|$$

이 정리는 본 프레임워크가 선형 집계뿐 아니라 max-min 최적화까지 통합적으로 다룰 수 있음을 이론적으로 보장한다. $p$를 $-\infty$에서 1 사이에서 조절함으로써, 공정성과 효율성 사이의 연속적인 스펙트럼 위에서 원하는 트레이드오프를 선택할 수 있다.

3.3 다그룹 학습: 합의와 말페어 함수

현실 세계에서는 성별, 정치적 견해, 결혼 여부 등에 따라 서로 다른 선호를 가진 다수의 사용자 그룹이 존재한다. 본 논문은 이러한 다그룹(multi-group) 설정으로 프레임워크를 확장한다. $N$개의 그룹과 $m$개의 목적이 있을 때, 각 그룹 $n \in [N]$은 고유한 가중치 $\alpha^{(n)} \in \Delta_{m-1}$을 가지며, 그룹 $n$의 보상은 다음과 같이 정의된다.

$$r^{(n)}(x, y) = \left(\sum_{i=1}^{m} \alpha_i^{(n)} (r_i(x, y))^{p^{(n)}}\right)^{1/p^{(n)}}, \quad p^{(n)} \leq 1$$

여기서 각 목적의 보상 함수 $\{r_i(x, y)\}_{i \in [m]}$는 모든 그룹에 걸쳐 고정되지만, 가중치 $\alpha$와 매개변수 $p$는 그룹마다 다를 수 있다. 이는 보상이 본질적인(inherent) 가치를 나타내고, 중요도 가중치가 각 그룹의 주관적인 부분을 반영한다는 직관을 포착한다. 각 그룹 $n$에 대한 목표 집합 $W^{(n)}$은 해당 그룹의 매개변수 $c^{(n)}, p^{(n)}, \alpha^{(n)}$로 정의된다.

논문은 다그룹 문제에 대해 두 가지 최적화 목표를 제시한다. 첫 번째는 합의(consensus)로, 모든 그룹의 목표 집합의 교집합에 대한 거리를 최소화하는 것이다.

$$\pi^* = \arg\min_\pi d\left(S(\pi), \bigcap_{n=1}^{N} W^{(n)}\right)$$

이 목표는 투표 이론에서 영감을 받은 것으로, LLM이 모든 그룹의 요구사항을 가능한 한 동시에 충족해야 함을 나타낸다. 두 번째는 말페어 함수 최소화(malfare function minimization)로, 각 그룹의 불만족 수준을 집계하여 최소화하는 것이다.

$$\pi^* = \arg\min_\pi \left(\sum_{n=1}^{N} \zeta_n \left(d^2(S(\pi), W^{(n)})\right)^q\right)^{1/q}, \quad q \geq 1$$

여기서 $\zeta_n > 0$은 그룹 가중치이고 $\sum_{n=1}^{N} \zeta_n = 1$이다. 이 목표는 사회 선택 이론에서 영감을 받은 것으로, 그룹 간의 불만족 수준을 공정하게 집계하여 전체적인 정렬 품질을 최적화한다. $q$가 증가할수록 가장 불만족한 그룹에 더 큰 가중치가 부여되어 공정성이 강화된다.

3.4 선형 집계를 위한 다목적 프로젝션 알고리즘(MOP)

본 논문의 알고리즘 프레임워크에서 핵심적인 하위 절차(sub-procedure)는 다목적 프로젝션(Multi-Objective Projection, MOP) 알고리즘이다. 이 알고리즘은 보상 함수가 선형 집계 $r(x, y) = \sum_{i=1}^{m} d_i r_i^*(x, y)$ 형태일 때의 최적화를 다루며, 여기서 $d \in \mathbb{R}^m$은 방향(direction)이라 불린다. 선형 집계는 보상 벡터를 특정 방향 $d$로 프로젝션하는 것으로 해석할 수 있으며, 이후 비선형 집계를 위한 최종 알고리즘의 핵심 하위 문제가 된다.

목적 $i$에 대한 데이터셋 $D_i = \{x_j, (y_j^w, y_j^l)\}_{j \in [M]}$이 주어졌을 때, MOP는 각 목적에 대한 선호 데이터의 음의 로그 우도 손실 $L_i(\theta_i) = -\sum_{(x, y_w, y_l) \in D_i} \log(\sigma(r_i^{\theta_i}(x, y_w) - r_i^{\theta_i}(x, y_l)))$을 최소화하면서 탐색 항을 추가한다. 오프라인과 온라인 설정에 따라 비관주의(pessimism)와 낙관주의(optimism) 원칙이 각각 적용된다.

오프라인 설정에서의 매개변수 추정은 다음과 같다.

$$\theta_{\text{offline}} = \arg\max_{\theta_1, \ldots, \theta_m} \left(-\max_\pi J(r_\theta, d, \pi) - \sum_{i=1}^{m} \eta L_i(\theta_i)\right)$$

온라인 설정에서의 매개변수 추정은 탐색을 장려하기 위해 부호가 반전된다.

$$\theta_{\text{online}} = \arg\max_{\theta_1, \ldots, \theta_m} \left(\max_\pi J(r_\theta, d, \pi) - \sum_{i=1}^{m} \eta L_i(\theta_i)\right)$$

그러나 MOP의 보상 기반 버전(MOP-RB)은 다수의 보상 함수를 직접 학습하고 공동 최적화 절차를 수행해야 하므로 계산 비용이 높다. 이를 해결하기 위해 논문은 보상 자유(reward-free) 변형인 MOP-RF를 제시한다. Cen et al.(2024)의 유도를 따르면, 최적 정책은 $\pi_\theta \propto \pi_{\text{ref}}(y \mid x) \cdot \prod_{i=1}^{m} (\pi_{\theta_i}(y \mid x))^{d_i}$로 표현되며, DPO 스타일의 손실 함수로 변환된다.

$$\theta = \arg\min_\theta \left\{\beta \mathbb{E}_{\pi_{\text{base}}} \log \pi_\theta(y \mid x) - \eta \sum_{i=1}^{m} \ell(D_i, \theta_i)\right\}$$

여기서 $\ell(D_i, \theta_i) = \sum_{(x, y_w, y_l) \in D_i} \log \sigma\left(\beta \log \frac{\pi_{\theta_i}(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_{\theta_i}(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)$는 보상 자유 손실 함수이다. 이 변형은 명시적 보상 모형화를 우회하면서도 동일한 최적화 목표를 달성하며, DPO의 안정성과 효율성을 계승한다.

3.5 비선형 집계를 위한 MOPO 알고리즘

본 논문의 핵심 알고리즘인 다목적 프로젝션 최적화(Multi-Objective Projection Optimization, MOPO)는 경쟁적 RL에서의 Blackwell 접근성(Blackwell approachability) 문헌(Yu et al., 2021)에서 영감을 받아 설계되었다. MOPO의 핵심 통찰은 비선형 집계 최대화 문제를 일련의 선형 집계 하위 문제로 분해하되, 각 반복에서의 프로젝션 방향을 동적으로 업데이트하여 보상 벡터를 목표 집합을 향해 효과적으로 안내하는 것이다.

MOPO-오프라인 알고리즘(Algorithm 3)의 구체적인 작동 과정은 다음과 같다. 오프라인 데이터셋 $D = \{D_i\}_{i \in [m]}$과 목표 집합 $\{W^{(n)}\}_{n \in [N]}$이 주어진다. 알고리즘은 $T$번의 반복을 수행하며, 각 반복 $t$에서 다음 단계를 거친다.

  • 이전 반복에서 계산된 방향 $d^t \in \mathbb{R}^m$을 사용하여 선형 집계 $r(x, y) = \sum_{i=1}^{m} d_i^t r_i(x, y)$를 정의한다.
  • MOP-RB 또는 MOP-RF를 하위 절차로 호출하여 추정된 매개변수 $\theta^t$와 대응하는 정책 $\pi^t = \pi_{\theta^t}$를 얻는다.
  • 추정된 기대 보상 벡터 $V^t \in \mathbb{R}^m$을 $(V^t)_i = \mathbb{E}_{\pi^t}[r_i^{\theta^t}(x, y) - D_{\text{KL}}(\pi^t \| \pi_{\text{ref}})]$로 계산하고, 평균 보상 벡터 $\bar{V}^t = \frac{1}{t} \sum_{j=1}^{t} V^j$를 업데이트한다.
  • 평균 보상 벡터 $\bar{V}^t$를 목표 집합에 프로젝션하여 새로운 방향 $d^{t+1}$을 계산하고, 이를 정규화하여 $d^{t+1} = d^{t+1} / \|d^{t+1}\|_1$로 설정한다.

방향 계산은 알고리즘의 핵심 구성 요소이다. 직관적으로, 알고리즘은 기대 보상 벡터를 목표 집합 방향으로 가능한 한 효과적으로 안내하기 위한 방향을 계산한다. 합의 문제의 경우, 프로젝션 방향은 다음과 같이 계산된다.

$$d^{t+1} = \text{Proj}\left(\bigcap_{n=1}^{N} W^{(n)}, \bar{V}^t\right) = \frac{\Pi_W(\bar{V}^t) - \bar{V}^t}{\|\Pi_W(\bar{V}^t) - \bar{V}^t\|}$$

여기서 $\Pi_W(\bar{V}^t)$는 $\bar{V}^t$의 목표 집합 $W$에 대한 유클리드 프로젝션이다. 말페어 함수 최소화 문제의 경우, 각 목표 집합에 대한 프로젝션을 계산한 후 이를 가중 집계한다.

$$d^{t+1} = \sum_{n=1}^{N} \text{Proj}(W^{(n)}, \bar{V}^t) \cdot \frac{\zeta_n \|W^{(n)} - \bar{V}^t\|_2^{2q-1}}{\left(\sum_{n=1}^{N} \zeta_n \|W^{(n)} - \bar{V}^t\|_2^{2q}\right)^{\frac{2q-1}{2q}}}$$

중요한 점은, MOPO를 $p = 1$인 선형 집계에 적용하면 기존의 MORLHF 알고리즘으로 환원된다는 것이다. 이는 $c$가 충분히 클 때 방향 $d^t = \text{Proj}(V^t, W_{1,c}^\alpha) = \alpha$가 모든 $t$에 대해 상수가 되기 때문이다. 그러나 $p \neq 1$인 비선형 집계에서는 방향이 반복마다 동적으로 변화하면서 비선형 구조를 포착한다. 이것이 MOPO가 비선형 집계를 선형 하위 문제의 시퀀스로 효과적으로 분해하는 메커니즘이다.

3.6 온라인 알고리즘과 가중치 학습

MOPO의 온라인 버전(Algorithm 4)은 오프라인 설정과 유사한 구조를 따르되, 두 가지 주요 차이점을 가진다. 첫째, 비관주의 원칙 대신 낙관주의 원칙을 채택하여 탐색을 장려한다. 둘째, 데이터셋이 온라인으로 점진적으로 수집되며, 목적의 중요도 가중치 $\alpha$를 데이터로부터 추정한다.

기존 연구들은 대부분 목적 가중치 $\{\alpha_i\}$가 사전에 알려져 있다고 가정한다. 그러나 현실에서 이 가중치는 보통 미지이다. 논문은 목적의 가중치가 인간이 선호 피드백에서 해당 목적을 얼마나 자주 보고하는지에 의해 학습될 수 있다는 관찰을 활용한다. 구체적으로, 각 라운드 $t$에서 프롬프트 $x^t$와 두 응답 $y_1, y_2$가 주어지면, 각 그룹 $n$은 가장 큰 차이를 보이는 목적 $I^{t,(n)} \in [m]$을 식별하고 해당 목적에 대한 선호 피드백을 제공한다. 목적 선택 모델은 소프트맥스 분포를 따른다.

$$P(I \mid \alpha, r^*, x, y_w, y_l) \propto \exp(\alpha_i \cdot |r_i^*(x, y_w) - r_i^*(x, y_l)|)$$

이 모델은 직관적으로 중요한 목적(높은 $\alpha_i$)에서 큰 보상 차이가 나는 경우 해당 목적이 보고될 확률이 높다는 가정을 반영한다. 예를 들어, 안전성에 높은 가중치를 부여하는 사용자 그룹은 두 응답 사이에서 안전성 차이가 가장 두드러진 경우 안전성 관련 피드백을 제공할 가능성이 높다. 이러한 모형화는 인간의 주의(attention)가 자연스럽게 가장 눈에 띄는 차이점에 집중된다는 인지심리학적 통찰과도 부합한다. 가중치 추정은 최대 우도 추정(MLE)으로 수행된다.

$$\hat{\alpha}^{t,(n)} = \arg\max_{\alpha \in \Delta_{m-1}} L(\alpha, D^{(n)}, \tilde{\theta}^t)$$

추정된 가중치는 이동 평균 $\alpha^{t,(n)} = \frac{t-1}{t} \alpha^{t-1,(n)} + \frac{1}{t} \hat{\alpha}^{t,(n)}$으로 안정화된다. 이 학습 패러다임은 목적 가중치를 데이터로부터 자동으로 추정하여 사전 지식이 불완전한 현실 시나리오에 대응할 수 있게 한다.

3.7 실용적 버전: 훈련 자유 MOPO

이론적 알고리즘의 통찰을 활용하여, 논문은 실용적인 훈련 자유(training-free) 버전인 Algorithm 5를 제안한다. 이 알고리즘은 MOPO의 오프라인 버전을 실행하되, MOD(Shi et al., 2024)를 각 라운드에서 선형 집계 최대화를 위한 하위 절차로 사용한다. MOD는 개별 목적의 최적 정책들이 주어지면 닫힌 형태로 선형 집계의 최적 정책을 계산하므로, 전체 알고리즘은 개별 목적의 최적 정책이 한 번 얻어지면 추가 훈련 없이 작동한다.

실용적 버전의 주요 변경 사항은 보상 벡터의 평균 대신 방향의 평균 $\bar{d}^t = \frac{1}{t} \sum_{j=1}^{t} \frac{d^j}{\|d^j\|_1}$을 사용한다는 점이다. 이는 더 안정적인 결과를 유도하는 것으로 관찰되었다. 또한, 기대 보상 벡터 $V^t$를 계산하기 위해 훈련 샘플 100개에 대한 기대값을 취하며, 더 많은 샘플을 사용하면 성능이 향상될 수 있다고 논문은 서술한다. 반복 횟수는 계산 효율성과 성능 사이의 균형을 위해 7회로 설정되었다.

4. 알고리즘 상세 구조: 5개 알고리즘의 설계 원리

4.1 Algorithm 1: MOP-RB (보상 기반 선형 집계)

MOP-RB(Multi-Objective Projection - Reward Based)는 방향 $d$와 데이터셋 $\{D_i\}_{i \in [m]}$을 입력으로 받아, 선형 집계된 보상 $r(x, y) = \sum_{i=1}^{m} d_i r_i^*(x, y)$에 대한 최적 정책을 학습하는 하위 절차이다. 알고리즘의 핵심 단계는 오프라인 또는 온라인 설정에 따라 비관적 또는 낙관적 추정을 수행한 후, 탐욕적(greedy) 정책 $\pi_\theta = \arg\max_\pi J(r^\theta, d, \pi)$를 실행하여 응답을 생성하고 선호 피드백을 수집하는 것이다. 이 알고리즘의 계산 비용은 주로 다수의 보상 함수를 직접 학습하는 공동 최적화 단계에 집중되어 있으며, 이것이 보상 자유 변형을 개발하는 동기가 된다.

4.2 Algorithm 2: MOP-RF (보상 자유 선형 집계)

MOP-RF는 MOP-RB의 보상 자유 변형으로, 명시적 보상 모형화를 우회한다. 핵심 통찰은 Cen et al.(2024)과 Rafailov et al.(2024)의 유도를 결합하여, 보상 기반 목적 함수를 정책의 로그 비율로 직접 표현하는 것이다. 이를 통해 각 목적별 DPO 스타일의 손실 함수를 사용할 수 있으며, 보상 모델 학습과 PPO 기반 정책 최적화라는 두 단계를 단일 지도 학습 문제로 통합한다. 온라인 버전에서는 학습된 정책으로 두 응답을 생성하고 인간 피드백을 수집하여 데이터를 점진적으로 확장한다.

4.3 Algorithm 3-5: MOPO 프레임워크의 세 가지 인스턴스

MOPO 프레임워크의 세 가지 인스턴스는 각각 다른 실용적 요구사항을 충족하도록 설계되었다. Algorithm 3(MOPO-오프라인)은 사전 수집된 데이터에서 MOP-RB 또는 MOP-RF를 하위 절차로 반복 호출하며, 완전한 이론적 보장을 제공한다. Algorithm 4(VPO-온라인)는 데이터를 온라인으로 수집하면서 가중치까지 추정하는 가장 일반적인 버전으로, 탐색-활용 트레이드오프를 자동으로 관리한다. Algorithm 5(MOPO-실용적)는 MOD를 하위 절차로 사용하여 각 반복에서 추가 경사 계산 없이 닫힌 형태의 정책을 직접 계산하므로, 사전 훈련된 개별 정책만 있으면 거의 즉각적으로 다양한 집계 설정에 대한 최적 정책을 생성할 수 있다. 실용적 버전에서의 한 가지 기술적 변경은 보상 벡터 $V^t$가 아닌 방향 $d^t$를 평균화한다는 점인데, 이는 방향의 평균이 보상 벡터의 평균보다 수치적으로 더 안정적이기 때문이라고 논문은 설명한다.

5. 이론적 분석: 수렴 보장과 리그렛 경계

5.1 오프라인 설정의 수렴 보장

논문은 MOPO 프레임워크에 대한 포괄적인 이론적 분석을 제공한다. 먼저 오프라인 설정에서의 합의 문제에 대한 수렴 보장(Theorem 5.1)을 살펴본다. 학습률 $\eta = 1/\sqrt{M}$으로 설정하고, 목적 $i$에 대한 데이터의 경험적 공분산 행렬을 $\Sigma_{D_i} = \frac{1}{M} \sum_{(x, y_w, y_l) \in D_i} (\phi(x, y_w) - \phi(x, y_l))(\phi(x, y_w) - \phi(x, y_l))^\top$으로 정의할 때, 확률 $1 - \delta$ 이상으로 다음이 성립한다.

$$D(\tilde{\pi}_T) - D(\pi^*) \leq \frac{m^{3/2}\sqrt{d}}{\sqrt{M}} \cdot \tilde{O}\left(\text{poly}\left(e^{B'}, \left(\min_i \lambda_{\min}(\Sigma_{D_i}) + \frac{1}{M}\right)^{-1}\right)\right) + \tilde{O}\left(\frac{B\sqrt{m}}{\sqrt{T}}\right)$$

이 정리가 의미하는 바를 상세히 분석해보면, 반환된 정책의 최종 격차는 두 가지 주요 요인에 의존한다. 첫째, 오프라인 데이터셋의 커버리지 항 $\min_i \lambda_{\min}(\Sigma_{D_i})$으로, 이는 각 목적에 대한 데이터가 충분히 다양하게 분포해야 함을 나타낸다. 데이터의 최소 고유값이 클수록 더 좋은 수렴을 보장한다. 둘째, 반복 횟수 항 $\tilde{O}(1/\sqrt{T})$로, 반복이 증가함에 따라 0으로 수렴한다. $T$가 증가하면 전체 수렴 속도는 $\tilde{O}(1/\sqrt{M})$에 도달하며, 이는 기존 오프라인 RL 알고리즘(Jin et al., 2021; Liu et al., 2020)의 표준적인 수렴 속도와 일치한다.

말페어 함수 최소화에 대한 수렴 보장(Theorem 5.2)도 유사한 구조를 가진다. 정수 지수 매개변수 $q \in \mathbb{N}^+$에 대해, 다음이 성립한다.

$$D_q(\tilde{\pi}_T) - D_q(\pi^*) \leq \frac{Nm^{3/2}\sqrt{d}}{\sqrt{M}} \cdot \tilde{O}\left(\text{poly}\left(e^{B'}, \min_i \lambda_{\min}\left(\Sigma_{D_i} + \frac{1}{M}\right)^{-1}, (\min_{n \in [N]} \zeta_n)^{-1/2q}\right)\right) + \tilde{O}\left(B\sqrt{m} T^{-1/2q}\right)$$

여기서 주목할 점은 반복 횟수에 대한 수렴 속도가 $\tilde{O}(T^{-1/2q})$라는 것이다. $q$가 클수록 수렴이 느려지는데, 이는 직관적으로 $q$가 클수록 말페어 함수가 가장 불만족한 그룹에 더 민감해져 최적화가 더 어려워짐을 반영한다. 또한 그룹 가중치의 최솟값 $\min_{n \in [N]} \zeta_n$에 대한 의존성은 모든 그룹이 최소한의 영향력을 가져야 함을 시사한다.

5.2 온라인 설정의 수렴 보장

온라인 설정에서의 이론적 보장은 가중치 추정의 불확실성까지 통합하여 분석한다. 분석을 위해 최적 정책 $\pi^*$과 참조 정책 $\pi_{\text{ref}}$ 사이에 보상 격차가 존재한다는 가정(Assumption 5.3)이 필요하다. 구체적으로, 상수 $\gamma > 0$이 존재하여 $\min_{i \in [m]} \mathbb{E}_{x \sim \rho, y_1 \sim \pi^*, y_2 \sim \pi_{\text{ref}}} |r_i^*(x, y_1) - r_i^*(x, y_2)| \geq \gamma$가 성립한다고 가정한다. 이 가정은 미세조정 후 기대 보상이 향상되어야 한다는 합리적인 요구사항을 반영한다.

합의 문제에 대한 온라인 수렴 보장(Theorem 5.4)은 다음과 같다. 학습률 $\eta = 1/\sqrt{T}$로 설정할 때, 확률 $1 - \delta$ 이상으로 다음이 성립한다.

$$D(\tilde{\pi}_T) - D(\pi^*) \leq \gamma^{-1} \text{poly}(\exp(1/\beta), m, N, e^B, d, \log(1/\delta), \kappa, (\min_{n \in [N]} p^{(n)})^{-1}, B_1) \cdot \tilde{O}(1/\sqrt{T})$$

여기서 $\kappa = \sup_{x,y} \frac{\pi_{\text{base}}(y|x)}{\pi_{\text{ref}}(y|x)}$이고 $B_1 = 2\sqrt{m}(B + \max_n c^{(n)})$는 상수이다. 이 결과는 가중치를 데이터로부터 동시에 추정하면서도 $\tilde{O}(1/\sqrt{T})$의 부분선형 리그렛을 달성함을 보여준다. 가중치 추정 오차는 $\gamma^{-1}$ 항을 통해 전체 수렴 속도에 영향을 미치며, 보상 격차 $\gamma$가 클수록 가중치 추정이 용이하고 수렴이 빨라진다.

말페어 함수 최소화에 대한 온라인 수렴 보장(Theorem 5.5)도 유사하게 확립되며, 수렴 속도는 $\tilde{O}(T^{-1/2q})$이다. 이러한 이론적 결과들은 제안된 프레임워크가 오프라인과 온라인 양쪽 설정에서 모두 이론적으로 건전한 최적화를 수행할 수 있음을 보장한다.

5.3 가중치 추정의 수렴

논문의 중요한 이론적 기여 중 하나는 목적 가중치 $\alpha$의 추정에 대한 수렴 보장(Theorem B.4)이다. Algorithm 4를 실행할 때, Assumption 5.3 하에서 각 $t \in [T]$에 대해 확률 $1 - \delta$ 이상으로 다음이 성립한다.

$$\|\alpha^* - \alpha^t\|_\infty \leq \frac{1}{t} \sum_{k=1}^{t} \|\alpha^* - \hat{\alpha}^k\|_\infty \leq \gamma^{-1} \cdot \tilde{O}\left(\text{poly}(m, e^B, \exp(1/\beta), d, \log(1/\delta))\right) \cdot \frac{1}{\sqrt{t}}$$

이 결과는 가중치 추정이 $\tilde{O}(1/\sqrt{t})$의 속도로 참값에 수렴함을 보여주며, 이는 온라인 학습의 표준적인 수렴 속도와 일치한다. 수렴 속도는 보상 격차 $\gamma$에 반비례하며, 이는 직관적으로 목적들 사이의 보상 차이가 클수록 어떤 목적이 중요한지를 더 쉽게 식별할 수 있음을 반영한다. 이 결과는 사전에 가중치를 알 필요 없이 데이터로부터 자동으로 학습할 수 있다는 실용적 의의를 가진다.

5.4 보상 자유 알고리즘으로의 적응

MOPO의 또 다른 이론적 강점은 보상 자유 알고리즘으로 쉽게 적응할 수 있다는 점이다. 현재 보상 벡터 $V^t$는 명시적 보상 함수 없이도 정책만으로 계산될 수 있음을 논문은 보인다. 구체적으로, $(V^t)_i = \mathbb{E}_{\pi^t}[r_i^{\theta^t}(x, y) - \beta D_{\text{KL}}(\pi^t \| \pi_{\text{ref}})]$는 다음과 같이 정책의 로그 비율로만 표현된다.

$$(V^t)_i = C - \beta \mathbb{E}_{y \sim \pi_{\text{base}}} \left[\log \frac{\pi_{\theta_i^t}(y \mid x)}{\pi_{\text{ref}}(y \mid x)}\right] + \beta \mathbb{E}_{y \sim \pi^t} \left[\log \frac{\pi_{\theta_i^t}(y \mid x)}{\pi^t(y \mid x)}\right]$$

이 유도는 DPO에서의 보상과 정책 사이의 관계를 활용한 것으로, 별도의 보상 모델 학습 없이도 프로젝션 방향 계산에 필요한 모든 정보를 정책으로부터 추출할 수 있음을 의미한다. 이는 보상 기반 접근법에 비해 계산 비용을 크게 절감하면서도 동일한 이론적 보장을 유지할 수 있게 한다.

6. 실험 설정: 모델, 데이터, 베이스라인

6.1 데이터셋 및 보상 모델

실험에서는 MOPO의 실용적 버전(Algorithm 5)을 오프라인 모드로 실행하며, 각 라운드에서 선형 집계 최대화를 위한 하위 절차로 MOD(Shi et al., 2024)를 사용한다. 실험 기반 모델과 데이터셋 구성은 다음과 같다. 먼저 LLaMA-2-7B 모델을 Anthropic-HH 데이터셋(Ouyang et al., 2022)에서 미세조정하여 참조 정책 $\pi_{\text{ref}}$를 얻는다. 이후 세 가지 기성(off-the-shelf) 보상 모델을 활용하여 각 목적에 대한 최적 정책 $\pi_i$를 PPO 방식으로 훈련한다.

  • Harmlessness(안전성): Ray2333/gpt2-large-harmless-reward_model (HuggingFace)
  • Helpfulness(유용성): Ray2333/gpt2-large-helpful-reward_model (HuggingFace)
  • Humor(유머): mohameddhiab/humor-no-humor (HuggingFace)

이 세 가지 목적은 서로 다른 차원의 LLM 성능을 측정하며, 특히 안전성과 유용성 사이, 안전성과 유머 사이의 트레이드오프를 탐구하는 데 적합하다. 안전성과 유용성은 실무에서 가장 흔히 마주하는 트레이드오프로, 지나치게 안전한 모델은 유용한 정보 제공을 거부하는 경향이 있고, 지나치게 유용한 모델은 잠재적으로 유해한 정보를 제공할 위험이 있다. 안전성과 유머의 조합은 보다 특수한 시나리오를 반영하는데, 유머러스한 응답은 때로 사회적으로 민감한 내용을 포함할 수 있어 안전성과 충돌할 수 있다. 논문은 실험에서 목적 쌍(Harmless, Helpful)과 (Harmless, Humor)를 주로 사용하여 다양한 집계 설정에서의 성능을 평가한다.

실험에서 사용된 보상 모델들은 모두 GPT-2 Large 아키텍처 기반으로, HuggingFace 모델 허브에서 공개적으로 이용 가능하다. 이러한 기성 보상 모델의 활용은 실험의 재현성을 보장하고, 보상 모델 학습 자체의 불확실성을 배제하여 MOPO 프레임워크의 효과를 보다 순수하게 평가할 수 있게 한다. 각 목적에 대한 최적 정책 $\pi_i$는 PPO(Proximal Policy Optimization) 알고리즘을 사용하여 해당 보상 모델을 최적화함으로써 얻어지며, 이 과정은 MOPO의 사전 처리 단계에 해당한다.

6.2 구현 세부사항

MOPO는 반복적 알고리즘이므로, 반복 횟수가 많을수록 계산 비용이 증가한다. 논문은 이를 완화하기 위해 두 가지 전략을 제시한다. 첫째, 반복 횟수를 7회로 제한하여 계산 효율성과 성능 사이의 균형을 잡는다. 둘째, Guo et al.(2024)의 방법처럼 반복당 단일 경사 업데이트만 수행하는 방식을 고려할 수 있다. 기대 보상 벡터 $V^t$의 계산에는 100개의 훈련 샘플에 대한 기대값을 사용하며, 더 많은 샘플을 사용하면 성능이 향상될 수 있다고 논문은 서술한다.

실용적 버전(Algorithm 5)의 초기 방향은 $d^0 = (\frac{1}{m}, \ldots, \frac{1}{m})^\top$으로 균등하게 설정된다. 이는 초기에 모든 목적을 동등하게 취급한 후, 반복이 진행됨에 따라 비선형 집계의 구조를 점진적으로 반영하도록 방향이 조정되는 전략이다.

6.3 베이스라인

실험에서 비교 대상으로 사용된 베이스라인 알고리즘들은 다음과 같다.

  • RS(Rewarded Soups, Rame et al., 2024): 개별 목적에 대해 미세조정된 모델들을 가중 평균으로 보간하는 방법으로, 선형 집계($p=1$)에 기반하며 보상 자유 및 훈련 자유 특성을 가진다.
  • MOD(Shi et al., 2024): 선형 집계에서 최적 정책의 닫힌 형태 해를 활용하는 디코딩 시간 알고리즘으로, 보상 자유 및 훈련 자유 특성을 가진다.
  • AR(Aggregated Reward): 비선형 집계를 직접 적용하여 보상을 집계하는 기본 베이스라인으로, 비음수 보상을 요구하므로 $\max\{r_i, 0\}$으로 대체하여 사용한다.
  • Max-Min RLHF(Chakraborty et al., 2024): 최악의 그룹/목적 성능을 최대화하는 접근법으로, $p = -\infty$ 설정에서의 비교 대상으로 사용된다.

성능 지표는 기대 보상 벡터와 목표 집합 사이의 유클리드 거리로, 값이 작을수록 목표 집합에 더 가깝다는 것을 의미하며 따라서 더 좋은 성능을 나타낸다. 이 지표는 비선형 집계의 최적화 품질을 직접적으로 반영한다. 거리가 0인 경우 보상 벡터가 목표 집합 내에 위치하여 모든 집계 요구사항을 완전히 충족함을 의미하고, 거리가 양수인 경우 해당 값만큼 요구사항에 미달함을 나타낸다. 이 지표의 선택은 논문의 문제 정식화와 자연스럽게 일치하며, 다양한 $p$ 값과 $c$ 값에 따른 비교를 공정하게 수행할 수 있게 한다.

7. 주요 실험 결과: 다목적 및 다그룹 성능 비교

7.1 기존 방법론과의 체계적 비교

논문은 먼저 기존 MORLHF 방법론들과의 체계적인 비교를 제시한다. Table 1은 집계 방식, 보상 자유 여부, 훈련 자유 여부, 다그룹 지원 여부 등 네 가지 차원에서 기존 방법론과 제안된 알고리즘을 비교한다. 이 비교에서 본 논문의 알고리즘이 가지는 차별적 강점이 명확히 드러난다.

Table 1: MORLHF 기존 연구 비교. 매개변수 p는 Eq.(1)의 지수를 의미한다.
알고리즘 집계 방식 보상 자유 훈련 자유 다그룹
MORLHF (Wu et al., 2023) p = 1 X X X
RS (Rame et al., 2024) p = 1 O O X
MOD (Shi et al., 2024) p = 1 O O X
PNB (Zhong et al., 2024) p ≤ 1 X X X
Algorithm 3 & 4 (본 논문) p ≤ 1 O X O
Algorithm 5 (본 논문) p ≤ 1 X O O

Table 1에서 확인할 수 있듯이, 기존의 RS, MOD는 선형 집계($p=1$)만 지원하고 다그룹 설정을 다루지 못한다. PNB는 비선형 집계를 지원하지만 보상 자유도 훈련 자유도 아니며 다그룹도 지원하지 않는다. 본 논문의 이론적 알고리즘(Algorithm 3 & 4)은 비선형 집계, 보상 자유, 다그룹 지원을 동시에 달성하는 유일한 방법이며, 실용적 알고리즘(Algorithm 5)은 보상 자유 대신 훈련 자유 특성을 제공하여 실제 적용에서의 계산 비용을 최소화한다.

7.2 비선형 집계에서의 단일 그룹 실험 결과 (p = 0.5)

$p = 0.5$의 비선형 집계 설정에서, MOPO를 RS, MOD(선형 집계 사용), AR(직접 비선형 집계) 베이스라인과 비교한 결과를 살펴본다. Table 2는 목적 쌍 (Harmless, Helpful)에 대한 결과를, Table 3은 (Harmless, Humor)에 대한 결과를 보여준다. 성능 지표는 보상 벡터와 목표 집합 사이의 거리이며, 값이 작을수록 더 좋은 성능을 나타낸다.

Table 2: MORLHF 비교 (p = 0.5, c = 0.5, 목적: Harmless & Helpful). 거리 기반 점수로, 작을수록 좋다.
$\alpha$ Ours (MOPO) RS MOD AR
(0.1, 0.9) 0.229 0.971 0.808 0.555
(0.3, 0.7) 0.051 0.666 0.079 1.459
(0.5, 0.5) 0.015 0.078 0.103 1.314
(0.7, 0.3) 0.067 0.707 0.800 1.004
(0.9, 0.1) 0.184 1.153 1.137 1.526

Table 2의 결과를 상세히 분석하면, MOPO가 모든 가중치 설정 $(0.1, 0.9)$부터 $(0.9, 0.1)$까지에서 일관되게 가장 낮은 거리를 달성함을 확인할 수 있다. 특히 균등 가중치 $(0.5, 0.5)$에서 MOPO는 0.015의 극히 낮은 거리를 달성하여, 거의 목표 집합에 도달하는 수준의 성능을 보여준다. 이에 비해 RS는 대부분의 설정에서 0.6 이상의 높은 거리를 보이며, MOD도 가중치가 극단적인 경우 성능이 크게 저하된다. AR은 모든 설정에서 가장 나쁜 성능을 보이는데, 이는 보상이 음수일 때 $\max\{r_i, 0\}$으로 대체하는 과정에서 경사 소실(vanishing gradient) 문제가 발생하기 때문이라고 논문은 분석한다.

Table 3: MORLHF 비교 (p = 0.5, c = 1.3, 목적: Harmless & Humor). 거리 기반 점수로, 작을수록 좋다.
$\alpha$ Ours (MOPO) RS MOD AR
(0.1, 0.9) 0.335 0.362 0.337 1.767
(0.3, 0.7) 0.578 0.678 0.572 2.011
(0.5, 0.5) 0.720 0.882 0.723 1.970
(0.7, 0.3) 0.630 0.860 0.722 2.411
(0.9, 0.1) 0.217 0.391 0.396 2.068

Table 3에서는 Harmless와 Humor 목적 쌍에 대한 결과를 보여준다. 이 설정에서 MOPO의 우위가 더욱 명확하게 드러나는데, 특히 가중치가 극단적인 경우($\alpha = (0.9, 0.1)$)에서 MOPO는 0.217의 거리를 달성하는 반면, RS와 MOD는 각각 0.391과 0.396을 기록한다. 흥미로운 점은 $(0.3, 0.7)$ 설정에서 MOD가 0.572로 MOPO의 0.578보다 근소하게 앞선다는 것인데, 이는 해당 가중치 설정에서 선형 집계가 비선형 집계와 유사한 해를 가질 수 있음을 시사한다. 전반적으로 MOPO는 다양한 가중치 설정에 걸쳐 안정적이고 우수한 성능을 보이며, AR은 경사 소실 문제로 인해 일관되게 가장 나쁜 성능을 기록한다.

7.3 최악 경우 집계 실험 결과 (p = -∞)

$p = -\infty$ 설정에서 MOPO를 max-min RLHF(Chakraborty et al., 2024)와 비교한 결과를 Table 4에서 확인할 수 있다. 이 실험에서는 목적 쌍 (Harmless, Humor)에 대해 $W_{-\infty, 1.5}^\alpha$를, (Harmless, Helpful)에 대해 $W_{-\infty, 0.5}^\alpha$를 목표 집합으로 설정하였다. 평가 지표는 보상 벡터의 각 성분값이며, 최솟값이 큰 쪽이 더 좋은 성능을 나타낸다.

Table 4: Max-min RLHF와의 비교. 숫자 쌍은 보상 벡터를 나타내며, 최솟값이 큰 쪽이 좋다.
목적 쌍 Ours (MOPO) Max-Min RLHF
(Harmless, Humor) (1.097, 1.297) (1.530, 1.146)
(Harmless, Helpful) (0.034, 0.497) (-0.135, 0.393)

Table 4의 결과는 MOPO가 $p = -\infty$ 설정, 즉 최악 경우 성능 보장이 요구되는 시나리오에서 max-min RLHF보다 더 균형 잡힌 보상 벡터를 달성함을 보여준다. 이 실험은 본 논문의 프레임워크가 선형 집계($p = 1$)와 비선형 집계($p = 0.5$)뿐 아니라, 극단적인 $p = -\infty$ 설정에서도 효과적으로 작동함을 실증하는 중요한 결과이다. (Harmless, Humor) 목적 쌍에서 MOPO의 보상 벡터 (1.097, 1.297)의 최솟값은 1.097인 반면, max-min RLHF의 (1.530, 1.146)의 최솟값은 1.146으로 근소하게 높다. 그러나 (Harmless, Helpful) 목적 쌍에서는 차이가 더 극명하게 드러난다. MOPO는 (0.034, 0.497)으로 두 목적 모두 양수의 보상을 달성하는 반면, max-min RLHF는 (-0.135, 0.393)으로 Harmless 보상이 음수가 된다. 이는 max-min RLHF가 최악의 목적을 최대화하려는 과정에서 다른 목적의 성능을 과도하게 희생시킬 수 있음을 시사한다. MOPO는 목표 집합 기반 접근법을 통해 보다 안정적이고 균형 잡힌 최적화를 달성한다.

7.4 다그룹 다목적 실험 결과

다그룹 설정에서의 실험은 $N = 2$개의 그룹이 존재하는 시나리오를 다룬다. 논문은 두 가지 목적 쌍에 대해 실험을 수행한다. 첫 번째 실험에서는 Harmless와 Humor 목적 쌍을 사용하며, 한 그룹은 $W_{0.5, 1.3}^\alpha$, 다른 그룹은 $W_{-\infty, 1}^\alpha$의 목표 집합을 가진다. 이는 한 그룹은 p-norm 집계를 선호하고 다른 그룹은 최악 경우 성능을 중시하는 현실적인 시나리오를 반영한다. 두 번째 실험에서는 Harmless와 Helpful 목적 쌍을 사용하며, 목표 집합은 $W_{0.5, 0.5}^\alpha$와 $W_{-\infty, 0}^\alpha$이다.

비교 대상으로는 max-min RLHF의 변형이 사용되었다. 이 변형에서는 $\min\{r_1, r_2, \alpha_1 \cdot (\max\{r_1, 0\})^{0.5} + \alpha_2 \cdot (\max\{r_2, 0\})^{0.5}\}$를 보상으로 사용하여 두 그룹의 요구를 동시에 반영하려 한다. 이 설계는 한 그룹의 max-min 요구($\min\{r_1, r_2\}$)와 다른 그룹의 p-norm 요구($\alpha_1 \cdot r_1^{0.5} + \alpha_2 \cdot r_2^{0.5}$)를 최솟값 연산으로 결합한 것으로, 두 그룹 중 더 불만족한 쪽의 요구를 우선시하려는 직관을 반영한다. 그러나 이러한 수동 설계는 그룹의 수나 집계 방식이 변경될 때마다 보상 함수를 재설계하고 정책을 재훈련해야 하므로, 확장성이 근본적으로 제한된다.

Table 5: 다그룹 설정 비교 (목적: Harmless & Humor). 거리 기반 점수로, 작을수록 좋다.
$\alpha$ Ours (MOPO) Max-Min RLHF (변형)
(0.1, 0.9) 0.408 0.992
(0.3, 0.7) 0.577 1.171
(0.5, 0.5) 0.708 0.429
(0.7, 0.3) 0.619 1.342
(0.9, 0.1) 0.406 0.208

Table 5의 결과는 MOPO와 max-min RLHF 변형의 흥미로운 대비를 보여준다. MOPO는 다섯 가지 가중치 설정 중 세 곳에서 우세하며, 특히 가중치가 극단적인 경우($\alpha = (0.1, 0.9)$와 $(0.3, 0.7)$)에서 현저한 성능 차이를 보인다. MOPO가 0.408인 반면 max-min RLHF 변형은 0.992로 두 배 이상의 거리를 기록한다. 반면 max-min RLHF 변형은 $(0.5, 0.5)$와 $(0.9, 0.1)$에서 MOPO보다 우수한 성능을 보인다. 그러나 전체적으로 max-min RLHF 변형의 성능은 극도로 불안정하여 가중치에 따라 0.208에서 1.342까지 큰 변동을 보이는 반면, MOPO는 0.406에서 0.708의 범위에서 상대적으로 안정적인 성능을 유지한다.

Table 6: 다그룹 설정 비교 (목적: Harmless & Helpful). 거리 기반 점수로, 작을수록 좋다.
$\alpha$ Ours (MOPO) Max-Min RLHF (변형)
(0.1, 0.9) 0.230 1.073
(0.3, 0.7) 0.052 0.123
(0.5, 0.5) 0.015 0.261
(0.7, 0.3) 0.067 0.204
(0.9, 0.1) 0.184 0.121

Table 6에서는 Harmless와 Helpful 목적 쌍에 대한 다그룹 실험 결과를 보여준다. 이 설정에서 MOPO의 우위가 더욱 두드러진다. 다섯 가지 가중치 설정 중 네 곳에서 MOPO가 더 나은 성능을 보이며, 특히 $(0.1, 0.9)$에서 MOPO는 0.230인 반면 max-min RLHF 변형은 1.073으로 약 4.7배의 차이를 보인다. $(0.5, 0.5)$ 설정에서의 차이도 극적인데, MOPO가 0.015인 반면 max-min RLHF 변형은 0.261이다. 유일하게 $(0.9, 0.1)$ 설정에서만 max-min RLHF 변형이 0.121로 MOPO의 0.184보다 근소하게 앞선다.

Table 5와 Table 6의 결과를 종합적으로 분석하면, MOPO가 다그룹 설정에서 특히 강력한 이유를 이해할 수 있다. MOPO는 각 그룹의 목표 집합을 명시적으로 정의하고, 이들의 교집합을 향해 프로젝션을 수행하므로, 서로 다른 집계 방식($p = 0.5$와 $p = -\infty$)을 가진 그룹들을 자연스럽게 통합할 수 있다. 반면 max-min RLHF 변형은 두 그룹의 요구사항을 하나의 스칼라 보상으로 결합하는 과정에서 정보 손실이 발생하며, 이로 인해 가중치에 따른 성능 변동이 크다. 또한 MOPO의 목표 집합 기반 접근법은 그룹이 추가되거나 그룹의 선호가 변경될 때 해당 목표 집합만 업데이트하면 되므로, 프레임워크의 모듈성(modularity)이 높다는 실용적 장점도 있다.

이러한 다그룹 실험 결과에서 특히 주목할 점은 max-min RLHF 변형이 그룹의 집계 방식이 변경될 때마다 전체 정책을 재훈련해야 한다는 것이다. 반면 MOPO는 개별 목적의 최적 정책이 한 번 학습되면, 그룹 구성이 변경되더라도 추가 훈련 없이 새로운 합의를 계산할 수 있어 실제 응용에서 큰 이점을 제공한다.

8. 추가 분석: 알고리즘 구조와 계산 효율성

8.1 알고리즘 변형 간의 관계

논문은 다섯 가지 알고리즘을 제시하며, 이들 사이의 관계를 체계적으로 정리한다. Algorithm 1(MOP-RB)Algorithm 2(MOP-RF)는 선형 집계를 위한 보상 기반 및 보상 자유 하위 절차이다. MOP-RB는 직접적으로 보상 함수를 학습하고 최적 정책을 추출하는 반면, MOP-RF는 DPO 스타일의 손실 함수를 통해 보상 모형화를 우회한다. 이 두 알고리즘은 MOPO 프레임워크에서 각 반복의 선형 최적화 하위 문제를 해결하는 데 사용된다.

Algorithm 3(MOPO-오프라인)Algorithm 4(VPO-온라인)은 이론적 보장을 가진 전체 프레임워크 알고리즘이다. Algorithm 3은 사전 수집된 오프라인 데이터에서 작동하며, Algorithm 4는 온라인으로 데이터를 수집하면서 가중치도 동시에 추정한다. Algorithm 5(MOPO-실용적)는 MOD를 하위 절차로 사용하여 훈련 자유 특성을 달성하는 실용적 버전이다. 이 세 알고리즘 모두 비선형 집계를 선형 하위 문제의 시퀀스로 분해하는 동일한 핵심 원리를 공유한다.

8.2 계산 효율성 분석

계산 효율성은 본 논문의 핵심 기여 중 하나이다. 기존의 비선형 집계 방법인 PNB(Zhong et al., 2024)는 보상 기반 접근법의 높은 계산 비용에 더하여, 집계 매개변수($\alpha, p$)가 변경될 때마다 전체 정책을 처음부터 재훈련해야 한다. 이에 비해 MOPO의 실용적 버전(Algorithm 5)은 다음과 같은 계산 효율성 이점을 제공한다.

  • 일회성 사전 훈련: 각 개별 목적에 대한 최적 정책 $\pi_i$를 한 번만 훈련하면 되며, 이후 다양한 집계 설정에 대해 재사용할 수 있다.
  • 훈련 자유 반복: MOD를 하위 절차로 사용하여 각 반복에서 추가 훈련 없이 닫힌 형태의 정책 계산만 수행한다.
  • 소수의 반복: 실험에서 7회의 반복만으로도 우수한 성능을 달성하며, 각 반복의 계산 비용은 기대값 계산과 프로젝션 연산에 국한된다.
  • 집계 변경 무비용: 가중치나 $p$ 값이 변경되어도 사전 훈련된 개별 정책을 그대로 사용하며 프로젝션 방향만 재계산하면 된다.

이러한 효율성은 현실 세계의 응용에서 특히 중요하다. 예를 들어, 사용자 그룹의 구성이 동적으로 변하거나, A/B 테스트를 통해 다양한 집계 설정을 탐색해야 하는 경우, PNB는 매번 재훈련이 필요한 반면 MOPO는 즉각적으로 새로운 정책을 생성할 수 있다.

8.3 증명 기법의 핵심 요소

논문의 이론적 분석에서 사용된 핵심 증명 기법을 살펴보면, 몇 가지 주요 기술적 요소를 식별할 수 있다. 첫째, 귀납법(induction)이 수렴 보장의 증명에서 중심적인 역할을 한다. 오프라인 합의 문제의 증명(Theorem 5.1)에서, $d(\bar{V}^t, W^*) \leq D(\pi^*) + \frac{\eta}{T} \sum_{t=1}^{T} \|d^t\|_1 \sum_{i=1}^{m} (L_i(\theta^t) - L_i(\theta^*)) + 2B\sqrt{m}/\sqrt{t}$라는 경계를 귀납법으로 확립한다. 기저 단계($t=1$)에서는 $d(\bar{V}^1, W^*) - D(\pi^*) \leq d(\bar{V}^1, S(\pi^*)) \leq 2B$가 성립하고, 귀납 가정을 $t-1$에서 $t$로 전달하기 위해 프로젝션의 비확장(non-expansive) 성질과 방향 계산의 정의를 결합한다.

둘째, 리그렛 분해 기법이 사용된다. 전체 리그렛 $D(\tilde{\pi}_T) - D(\pi^*)$를 보상 함수의 근사 오차(항 A)와 정책 최적화의 리그렛(항 B)로 분해하며, 각 항을 독립적으로 경계화한다. 보상 근사 오차는 오프라인 데이터의 공분산 행렬의 최소 고유값에 의존하고, 정책 최적화 리그렛은 로그 우도 손실의 볼록성(convexity)을 활용하여 경계화된다. 셋째, 말페어 함수 최소화의 증명(Theorem 5.2)에서는 $2q$-norm의 삼각 부등식과 코시 부등식을 결합하여, 그룹별 거리의 집계에 대한 귀납적 경계를 확립한다. 이 과정에서 수렴 속도가 $\tilde{O}(T^{-1/2q})$로 $q$에 의존하게 되는데, 이는 높은 차수의 norm에서의 수렴이 본질적으로 더 어렵다는 사실을 반영한다.

8.4 Blackwell 접근성 이론과의 연결

MOPO의 이론적 기반은 Blackwell 접근성(Blackwell approachability) 이론에 있다. 이 이론은 반복적인 게임에서 플레이어가 특정 목표 집합에 수렴할 수 있는 조건과 전략을 다룬다. Yu et al.(2021)은 다목적 경쟁적 RL에서 Blackwell 접근성을 활용한 알고리즘을 제안하였으며, 본 논문은 이 아이디어를 RLHF 맥락으로 확장한다.

구체적으로, MOPO에서의 프로젝션 방향 계산은 Blackwell 접근성 전략의 RLHF 버전으로 해석될 수 있다. 각 반복에서 현재의 평균 보상 벡터 $\bar{V}^t$를 목표 집합에 프로젝션하여 다음 방향 $d^{t+1}$을 결정하는 것은, Blackwell 접근성 전략에서 현재 상태의 목표 집합에 대한 프로젝션을 기반으로 다음 행동을 선택하는 것과 동일한 원리이다. 이 연결은 MOPO의 수렴 보장에 대한 이론적 분석을 자연스럽게 도출할 수 있게 한다.

그러나 기존의 Blackwell 접근성 이론은 목표 집합이 접근 가능(approachable)하다는 가정을 필요로 하는데, MOPO는 이 가정을 완화하여 목표 집합이 접근 불가능한 경우에도 최적 정책에 대한 리그렛 경계를 제공한다. 이는 현실에서 목표 집합의 요구 수준 $c$가 달성 불가능하게 높을 수 있는 시나리오를 다루기 위한 중요한 일반화이다.

8.5 보상 자유 변형의 경사 계산

MOP-RF(Algorithm 2)의 실용적 구현에서 핵심적인 기술적 사항은 경사 계산의 효율성이다. 최적화 목적 함수 Eq.(8)은 $m$개의 매개변수 $\theta_1, \ldots, \theta_m$에 대한 공동 최적화를 포함하므로, 단순 구현 시 계산 비용이 높을 수 있다. 논문은 부록 E에서 경사 하강 업데이트 규칙이 스코어 함수의 기대값이 이용 가능하면 효율적으로 계산될 수 있음을 보인다.

구체적으로, 각 목적 $i$에 대한 경사 $\nabla_{\theta_i}$는 독립적으로 계산될 수 있으며, 목적들 사이의 상호작용은 방향 $d$를 통한 가중합에서만 나타난다. 이는 병렬 계산을 가능하게 하고, 기존의 단일 목적 DPO 구현을 최소한의 수정으로 다목적 설정에 적응시킬 수 있음을 의미한다. 또한, 전체 정책 $\pi_\theta \propto \pi_{\text{ref}}(y \mid x) \cdot \prod_{i=1}^{m} (\pi_{\theta_i}(y \mid x))^{d_i}$의 계산은 로그 공간에서 선형 연산으로 환원되므로, 수치적 안정성도 보장된다.

9. 실험 결과의 종합적 해석

9.1 선형 대 비선형 집계의 성능 격차

실험 결과를 종합적으로 해석하면, 비선형 집계의 필요성과 MOPO의 효과가 명확하게 드러난다. Table 2와 Table 3에서 선형 집계 기반의 RS와 MOD는 $p = 0.5$ 설정에서 체계적으로 열등한 성능을 보이는데, 이는 선형 집계가 비선형 목표 집합의 형태를 정확히 포착하지 못하기 때문이다. 선형 집계는 등고선이 초평면(hyperplane)인 반면, $p = 0.5$의 비선형 집계는 등고선이 곡면을 형성한다. MOPO는 프로젝션 방향을 동적으로 조정하여 이 곡면 구조에 적응하므로, 다양한 가중치 설정에서 일관되게 작은 거리를 달성한다. 이 결과는 단순한 선형 가중합이 다목적 최적화의 복잡성을 충분히 포착하지 못함을 실증적으로 확인해준다.

9.2 가중치 민감도와 안정성 분석

가중치 $\alpha$에 따른 성능 변화 패턴을 분석하면, MOPO의 안정성이 두드러진다. Table 2에서 MOPO의 거리는 가중치가 변함에 따라 0.015에서 0.229까지 변동하여 최대-최소 비율이 약 15배인 반면, RS는 0.078에서 1.153까지 약 15배, MOD는 0.079에서 1.137까지 약 14배의 변동을 보인다. 그러나 절대적인 거리 값에서 MOPO가 모든 설정에서 현저히 낮다는 점이 핵심이다. 특히 극단적인 가중치((0.1, 0.9)나 (0.9, 0.1))에서 MOPO와 베이스라인의 성능 격차가 더 벌어지는데, 이는 비선형 집계가 극단적인 가중치에서 선형 집계와 가장 크게 다른 행태를 보이기 때문이라고 해석할 수 있다. 다그룹 설정(Table 5, 6)에서는 max-min RLHF 변형의 불안정성이 더욱 극적으로 나타나며, 이는 다수 그룹의 이질적인 요구사항을 단일 스칼라 보상으로 결합하는 것의 근본적 한계를 시사한다.

10. 한계점 및 향후 연구 방향: 이론과 실용의 간극

10.1 이론적 가정의 제약

본 논문의 이론적 분석은 몇 가지 제한적인 가정에 의존한다. 첫째, 선형 보상 구조 가정 $r_i(x, y) = \theta_i^\top \phi_i(x, y)$는 이론적 분석을 가능하게 하지만, 실제 LLM에서의 보상 함수가 신경망으로 매개변수화되는 현실과 괴리가 있다. 논문은 실용적 알고리즘(Algorithm 5)이 이 가정에 의존하지 않는다고 명시하지만, 이론적 보장의 실용적 적용에는 여전히 간극이 존재한다.

둘째, Bradley-Terry 모델 가정은 인간 선호의 이행성(transitivity)을 전제하지만, 실제 인간 선호는 종종 비이행적이다. Ge et al.(2024)이 지적했듯이, BTL 모델은 사회 선택 이론의 여러 공리를 위반할 수 있으며, 이는 비이행적 선호 모델(Stochastic Transitivity model)에 대한 추가 연구의 필요성을 시사한다. 셋째, 온라인 설정에서의 보상 격차 가정(Assumption 5.3)은 최적 정책과 참조 정책 사이에 충분한 보상 차이가 있어야 한다는 것으로, 보상 함수가 매우 유사한 목적들에 대해서는 가중치 추정의 수렴이 느려질 수 있다.

10.2 실험 규모의 제한

실험적 검증에는 몇 가지 제한이 있다. 실험은 LLaMA-2-7B 모델에서만 수행되었으며, 더 큰 규모의 모델(13B, 70B 이상)이나 다른 모델 패밀리(Mistral, Qwen 등)에서의 성능은 검증되지 않았다. 또한 실험에서 사용된 목적의 수가 최대 3개(Harmless, Helpful, Humor)로 제한되어 있어, 10개 이상의 목적이 존재하는 현실적인 시나리오에서의 확장성은 아직 확인되지 않았다. 기대 보상 벡터 계산에 100개의 샘플만 사용한 점도 추정의 정확도에 한계를 줄 수 있다.

다그룹 실험에서도 $N = 2$개의 그룹만 고려하였으며, 그룹 수가 증가할 때 합의 문제의 실행 가능성이나 말페어 함수 최소화의 효과는 추가 연구가 필요하다. 특히 그룹 수가 많아지면 목표 집합의 교집합이 공집합이 될 수 있으며, 이 경우 합의 문제는 본질적으로 해결 불가능해진다.

10.3 논문이 제시하는 향후 연구 방향

논문은 여러 가지 향후 연구 방향을 제시한다. 첫째, 집계 함수의 매개변수 $p$를 데이터로부터 학습하는 방법에 대한 연구가 필요하다. 현재 $p$는 사전에 주어지는 것으로 가정하지만, Pardeshi et al.(2024)의 사회 복지 함수 학습 방법론을 활용하여 선호 피드백으로부터 $p$를 자동 추정하는 것이 가능할 수 있다.

둘째, 본 논문의 아이디어를 토큰 수준 MORLHF로 확장하는 연구가 의미 있다. Zeng et al.(2024)의 토큰 수준 DPO 연구를 기반으로, 응답 수준이 아닌 개별 토큰 수준에서 다목적 최적화를 수행하면 더 세밀한 정책 제어가 가능할 것이다.

셋째, BTL 모델 대신 확률적 이행성(Stochastic Transitivity) 모델(Fishburn, 1973)에서의 다자간 선호 집계를 연구하는 것이 흥미로운 방향이다. BTL 모델의 이행성 가정은 현실의 인간 선호를 충분히 포착하지 못할 수 있으며, 확률적 이행성 모델은 이를 일반화한다. 또한, 사회 선택 이론의 왜곡(distortion) 부정적 결과(Anshelevich et al., 2021)와의 관계를 추가적으로 탐구할 필요가 있다.

10.4 실용적 한계와 개선 가능성

실용적 측면에서도 몇 가지 개선 가능성이 존재한다. 현재 MOPO의 실용적 버전은 기대 보상 벡터의 계산에 몬테카를로 추정을 사용하며, 샘플 수(100개)가 제한적이다. 더 많은 샘플이나 중요도 샘플링(importance sampling)과 같은 분산 감소 기법을 적용하면 추정 정확도가 향상될 수 있다. 또한, 반복 횟수(7회)와 관련하여, 적응적 종료 조건(예: 방향의 수렴 여부)을 도입하면 불필요한 반복을 줄이면서도 충분한 성능을 보장할 수 있을 것이다.

목표 집합의 요구 수준 $c$의 선택도 실용적 과제이다. 논문은 $c$가 인간에 의해 제공되거나 매개변수 튜닝으로 선택될 수 있다고 서술하지만, 적절한 $c$ 값의 범위를 사전에 파악하기 어려울 수 있다. 너무 높은 $c$는 달성 불가능한 목표를 설정하여 알고리즘의 효과를 감소시키고, 너무 낮은 $c$는 과도하게 쉬운 목표를 설정하여 최적화의 이점을 살리지 못한다. 적응적으로 $c$를 조정하는 메커니즘이 향후 연구에서 개발될 필요가 있다.

목표 집합의 교집합이 공집합이 되는 경우에 대한 대처 방법도 흥미로운 연구 주제이다. 현재 프레임워크는 교집합이 비어 있지 않다고 암묵적으로 가정하지만, 그룹들의 요구사항이 상충하여 동시에 만족시킬 수 없는 상황도 현실에서 빈번하게 발생한다. 이런 경우 합의 문제의 목표를 완화하여, 가장 가까운 근사 합의를 달성하는 정책을 찾거나, 말페어 함수 최소화 목표로 자동 전환하는 적응적 메커니즘을 개발하는 것이 유용할 것이다.

마지막으로, 논문의 프레임워크는 양수 보상을 가정하는데($r_i(x, y) \in [0, B]$), 실제 보상 모델의 출력은 음수를 포함할 수 있다. AR 베이스라인에서 관찰된 것처럼, 음수 보상을 $\max\{r_i, 0\}$으로 대체하면 경사 소실 문제가 발생한다. 보상의 스케일링이나 시프트를 통해 양수 범위로 변환하는 전처리 방법의 영향에 대한 체계적인 분석도 향후 연구 주제가 될 수 있다.

11. 결론: 프로젝션 최적화의 의의와 전망

본 논문은 다목적 및 다그룹 RLHF를 위한 프로젝션 최적화(Projection Optimization) 프레임워크를 제안하였다. 이 프레임워크의 핵심적인 기여는 비선형 집계 최대화 문제를 일련의 선형 집계 하위 문제로 변환하는 원리적인 방법을 제시한 것이다. 비선형 집계의 구조를 목표 집합의 정의에 포함시키고, 프로젝션 방향을 동적으로 업데이트함으로써, 기존의 효율적인 선형 집계 알고리즘을 하위 절차로 활용할 수 있게 된다.

이론적으로, 오프라인과 온라인 설정 모두에서 부분선형 리그렛을 달성하는 수렴 보장을 제공하였다. 특히 온라인 설정에서는 목적의 중요도 가중치를 데이터로부터 동시에 추정하면서도 이론적 보장을 유지하는 학습 패러다임을 확립하였다. 프레임워크는 보상 자유 알고리즘으로 자연스럽게 적응될 수 있어, DPO 기반의 안정적이고 효율적인 최적화가 가능하다.

실증적으로, 이론적 통찰을 활용하여 개별 목적의 최적 정책과 보상 함수가 주어지면 거의 추가 훈련 없이 작동하는 실용적 알고리즘을 도출하였다. LLaMA-2-7B 모델에서의 실험은 MOPO가 다양한 집계 설정과 가중치 구성에 걸쳐 기존 방법론보다 일관되게 우수하거나 경쟁적인 성능을 달성함을 보여주었다. 특히 기존 방법론이 불안정한 성능을 보이는 비선형 집계와 다그룹 설정에서 MOPO의 강점이 두드러진다.

MOPO 프레임워크의 또 다른 주목할 만한 특성은 기존 방법론과의 호환성이다. $p = 1$의 선형 집계 설정에서 MOPO는 기존의 MORLHF 알고리즘과 동치가 되므로, 기존 시스템에 대한 하위 호환성을 자동으로 보장한다. 이는 실무자가 기존의 선형 집계 파이프라인에서 비선형 집계로 점진적으로 전환할 수 있음을 의미한다. 또한, 개별 목적의 최적 정책을 재사용할 수 있는 구조는 조직 내에서 이미 훈련된 모델 자산을 활용할 수 있게 하여, 전체적인 개발 비용을 절감한다.

이 연구는 RLHF의 범위를 단일 목적, 단일 그룹의 단순한 설정에서 다목적, 다그룹의 현실적인 설정으로 확장하는 데 의미 있는 기여를 한다. 사회 선택 이론의 개념(p-norm 집계, 말페어 함수)을 RLHF에 통합함으로써, AI 정렬 연구와 사회 선택 이론 사이의 이론적 교량을 구축하였다. 향후 매개변수 $p$의 학습, 토큰 수준 확장, 비BTL 선호 모델로의 일반화 등 여러 연구 방향이 열려 있으며, 이러한 방향의 진전은 다양한 사용자 그룹의 복잡한 선호를 보다 공정하고 효과적으로 반영하는 AI 시스템의 개발에 기여할 것이다. 특히 AI 시스템이 점점 더 광범위한 사용자 기반을 갖게 됨에 따라, 단일 선호 프로파일이 아닌 다양한 그룹의 이질적 선호를 동시에 수용하는 능력은 AI 정렬 연구의 핵심적 도전 과제가 될 것이며, 본 논문의 프레임워크는 이 도전에 대한 원칙적이고 확장 가능한 접근법을 제시하였다.

12. 요약 정리

  • 본 논문은 다목적 RLHF에서 비선형 집계(가중 p-norm, $p \leq 1$)를 효율적으로 최적화하는 프로젝션 최적화(MOPO) 프레임워크를 제안하며, 비선형 집계 문제를 일련의 선형 집계 하위 문제로 분해하는 것이 핵심이다.
  • 사회 선택 이론의 가중 p-norm 집계를 RLHF에 도입하여, $p = 1$(선형)부터 $p = -\infty$(max-min)까지 공정성의 정도를 연속적으로 조절할 수 있는 통합적 프레임워크를 구축하였다.
  • 보상 벡터와 목표 집합(target set) 사이의 거리 최소화로 문제를 재정식화하고, Blackwell 접근성 이론에 기반한 프로젝션 방향 업데이트를 통해 비선형 구조를 포착한다.
  • 다그룹 설정으로 프레임워크를 확장하여 합의(consensus) 달성과 말페어 함수 최소화라는 두 가지 목표를 통합적으로 다루며, 서로 다른 선호를 가진 사용자 그룹을 동시에 수용한다.
  • 오프라인과 온라인 설정 모두에서 부분선형 리그렛을 달성하는 이론적 수렴 보장을 제공하며, 온라인 설정에서는 목적 가중치를 데이터로부터 동시에 추정하는 학습 패러다임을 확립하였다.
  • 프레임워크는 보상 자유 알고리즘으로 자연스럽게 적응 가능하며, 실용적 버전은 개별 목적의 최적 정책이 주어지면 추가 훈련 없이 작동하는 훈련 자유 알고리즘이다.
  • LLaMA-2-7B 기반 실험에서 MOPO는 $p = 0.5$와 $p = -\infty$ 설정 모두에서 RS, MOD, AR, Max-Min RLHF 등 기존 방법론보다 일관되게 우수하거나 경쟁적인 성능을 달성하였다.
  • 다그룹 실험에서 MOPO는 다양한 가중치 설정에 걸쳐 안정적인 성능을 보인 반면, max-min RLHF 변형은 가중치에 따라 성능이 크게 변동하는 불안정성을 드러냈다.
  • 향후 연구 방향으로 매개변수 $p$의 데이터 기반 학습, 토큰 수준 MORLHF 확장, 확률적 이행성 모델로의 일반화 등이 제시되었다.

댓글

홈으로 돌아가기

검색 결과

"" 검색 결과입니다.