2026년 4월 3일 | AI 최신 트렌드
배포 제약, 질의 상호작용, unlearning, vocab adaptation은 현장 제약 안에서 모델을 어떻게 다루는지가 더 중요해졌다는 신호처럼 보였다. 이전 트렌드 글에서 reasoning 내부 구조, MoE 해석, 상호작용 awareness, 로보틱스 연결을 다뤘다면, 여기서는 조금 다른 곳에서 흐름이 또렷했다. 이제 업계의 경쟁은 단순히 더 큰 모델, 더 긴 사고 과정, 더 화려한 데모로만 설명되지 않는다. 오히려 현장 제약 안에서 모델을 어떻게 적응시키고, 언제 외부 도움을 요청하고, 어떤 계산을 줄이고, 어떤 잡음을 버리고, 어떤 흔적을 지워야 하는지가 더 중요한 축으로 올라오고 있다.
나는 이런 날의 트렌드가 실무에 더 가깝다고 본다. 추천 시스템은 새 아이템과 새 토큰을 더 자연스럽게 붙여야 하고, 강화학습 에이전트는 확신이 없을 때만 언어 모델의 도움을 빌리는 식으로 비용을 관리해야 하며, 엣지 모델은 softmax 같은 기본 연산조차 다시 설계해야 한다. 검색 결합 모델은 가져온 문서가 시끄러워도 흔들리지 않아야 하고, 멀티모달 추천기는 사용자 데이터 삭제 요청이 들어왔을 때 진짜로 그 흔적을 지울 수 있어야 한다. 오늘 모은 다섯 가지는 서로 영역이 다르지만, 같이 놓고 보면 한 방향을 가리킨다. AI가 이제 벤치마크에서 이기는 모델 경쟁을 넘어, 실제 배포 조건을 견디는 시스템 경쟁으로 옮겨가고 있다는 점이다.
1. 오늘 한눈에 보인 흐름
짧게 묶으면 다섯 갈래다. 첫째, 추천 시스템용 언어 모델은 새 vocabulary를 아무렇게나 평균 초기화하는 단계에서 벗어나 새 토큰을 처음부터 의미 있는 위치에 놓는 문제를 본격적으로 다루기 시작했다. 둘째, 강화학습 에이전트는 항상 LLM을 붙이는 게 아니라 불확실할 때만 묻는 구조로 넘어가고 있다. 셋째, 엣지 추론에서는 attention 안의 softmax조차 그대로 쓰지 않고 정수 친화적인 대체 연산으로 바꾸려는 시도가 나온다. 넷째, RAG는 검색을 더 많이 붙이는 것보다 관련 문맥과 무관 문맥을 내부 뉴런 수준에서 가르는 법에 가까워지고 있다. 다섯째, 추천과 개인화 시스템은 잘 배우는 것만큼 원할 때 잊는 능력이 중요해지고 있다.
- 새 토큰 초기화는 이제 부수적인 구현 세부가 아니라 성능 자체를 좌우하는 단계가 됨
- 언어 모델은 상시 결합보다 불확실성 기반 호출이 더 현실적인 운영 전략이 됨
- 엣지 배포는 모델 압축을 넘어 핵심 연산 재설계 단계로 이동
- RAG 강건성은 문서 수가 아니라 관련성과 무관성을 분리하는 미세 조정으로 내려감
- 개인화 시스템은 학습 능력과 함께 삭제 가능성까지 품질 요건이 됨
나는 오늘 이 다섯 소식이 결국 같은 질문으로 모인다고 느꼈다. 모델을 더 많이 쓰는 법보다 필요한 순간에만 정확하게 쓰고, 남기지 말아야 할 것은 남기지 않는 법이 더 중요해지고 있다는 질문이다.
2. Grounded Token Initialization: 추천 시스템용 새 토큰은 평균값에서 시작하면 생각보다 많이 무너진다
Figure 1: 새 Semantic-ID 토큰을 평균 초기화 대신 자연어-아이템 대응으로 grounding하는 GTI 개요
오늘 가장 먼저 눈에 남은 논문은 Grounded Token Initialization for New Vocabulary in LMs for Generative Recommendation였다. 추천 시스템에서 generative recommendation을 할 때는 아이템을 표현하기 위한 새 토큰, 예를 들어 Semantic-ID 같은 도메인 전용 vocabulary를 언어 모델에 붙이는 경우가 많다. 그런데 관행적으로는 이 새 토큰을 기존 임베딩들의 평균값 근처에서 시작시키고, 이후 supervised fine-tuning으로 알아서 분리되길 기대하는 경우가 많았다. 이 논문은 바로 그 출발점이 이미 문제라고 지적한다. 평균 초기화는 새 토큰들을 사실상 하나의 퇴화된 공간에 몰아넣고, 뒤늦은 fine-tuning이 그 구분을 완전히 회복하기 어렵다는 것이다.
저자들이 제안한 GTI는 이 문제를 학습 앞단에서 해결하려고 한다. 핵심은 새로 들어온 Semantic-ID 토큰을 그냥 빈 슬롯으로 두지 않고, 아이템 설명과 자연어 프롬프트를 매개로 더 의미 있는 위치에 grounding하는 것이다. 즉 추천 모델에 새로운 vocabulary를 추가하는 일을 단순 초기화가 아니라, 실제 도메인 개체를 모델의 언어 공간에 연결하는 문제로 다시 본다. 나는 이 관점이 꽤 중요하다고 느꼈다. 요즘 많은 도메인 특화 시스템이 LLM 위에 토큰, 코드, 식별자, 툴 심볼을 계속 붙이고 있는데, 그 순간의 초기값 설계가 생각보다 훨씬 큰 병목일 수 있기 때문이다.
- 새 vocabulary를 평균값으로 초기화하면 토큰 간 구분이 초반부터 무너질 수 있다
- GTI는 새 토큰을 자연어-아이템 대응으로 먼저 grounding한 뒤 학습을 이어 간다
- 추천 시스템뿐 아니라 도메인 전용 토큰을 붙이는 다른 LLM 응용에도 같은 문제가 재현될 수 있다
실무적으로 보면 이 논문은 cold-start 추천과도 닿아 있다. 추천 시스템이 언어 모델화될수록 아이템을 표현하는 토큰 품질이 곧 검색력과 생성력을 같이 흔든다. 즉 앞으로는 모델 본체를 바꾸는 것보다, 새로운 개체를 모델 안에 처음 심는 방식이 더 자주 승부를 가를 수 있다.
원문: https://arxiv.org/abs/2604.02324
3. When to ASK: 강화학습 에이전트는 항상 똑똑한 조언자가 필요한 게 아니라, 불확실할 때만 물어보는 구조가 더 현실적이다
Figure 2: 정책 불확실성이 높을 때만 언어 모델 조언을 호출하는 ASK 구조
두 번째로 고른 논문은 When to ASK: Uncertainty-Gated Language Assistance for Reinforcement Learning이다. 요즘은 RL 에이전트에 언어 모델을 붙여 세계 지식을 보강하는 시도가 많지만, 큰 모델을 항상 켜 두면 지연과 비용이 곧바로 부담이 된다. 이 논문은 그래서 질문을 살짝 바꾼다. 언어 모델을 항상 보조 두뇌로 붙일 게 아니라, 에이전트가 진짜 불확실할 때만 조언을 구하게 만들 수 없을까라는 쪽이다. 저자들은 Monte Carlo Dropout으로 정책 불확실성을 보고, 그 값이 임계치를 넘을 때만 LM의 action suggestion을 받는 ASK 구조를 제안한다.
이 접근이 눈에 남는 이유는, 언어 모델 결합을 성능 향상 장치가 아니라 비용이 있는 외부 자원으로 다루기 때문이다. 실제 제품에서도 모든 턴에 가장 큰 모델을 붙이는 방식은 오래 버티기 어렵다. 오히려 강한 기본 정책이 있고, 낯선 상황이나 OOD 구간에만 언어 모델을 호출하는 구조가 훨씬 현실적이다. 나는 이 논문이 앞으로 에이전트 설계가 상시 결합형에서 불확실성 기반 호출형으로 더 많이 이동할 수 있다는 신호처럼 보였다.
- 언어 모델을 항상 쓰지 않고 불확실한 순간에만 호출해 비용을 줄인다
- OOD 상황 일반화 문제를 외부 지식과 정책 불확실성 추정으로 함께 다룬다
- 향후 자율 에이전트도 상시 최고 성능보다 상황별 escalator 구조를 더 많이 채택할 수 있다
이 흐름은 RL에만 머물지 않을 것 같다. 코딩 에이전트든 검색 에이전트든, 결국 중요한 건 언제 스스로 처리하고 언제 더 큰 모델이나 사람에게 넘길지를 아는 일이다. 그런 점에서 ASK는 단지 한 RL 기법이라기보다, 도움 요청을 시스템 행동으로 설계하는 방식에 가깝게 읽혔다.
원문: https://arxiv.org/abs/2604.02226
4. HCCS Softmax Proxy: 엣지 추론에서는 softmax조차 그대로 두기 어렵다
Figure 3: exponential softmax 대신 정수 연산 위주로 구현 가능한 HCCS 파이프라인
세 번째는 Taming the Exponential: A Fast Softmax Surrogate for Integer-Native Edge Inference였다. attention 블록 이야기만 나오면 보통 KV cache, sparsity, quantization 같은 키워드가 먼저 떠오르는데, 이 논문은 의외로 softmax 자체를 정면으로 건드린다. 작은 모델을 저정밀 환경에서 돌릴수록 exponentiation과 normalization이 생각보다 큰 병목이 되는데, 저자들은 이를 위해 Head-Calibrated Clipped-Linear Softmax(HCCS)라는 대체 연산을 제안한다. 핵심은 max-centered logits를 바탕으로 clipped linear mapping을 적용해, 순서를 유지하면서도 정수 친화적인 방식으로 확률 분포를 근사하는 것이다.
나는 이 논문이 엣지 AI의 다음 단계를 잘 보여준다고 느꼈다. 지금까지는 큰 모델을 잘라서 올리는 이야기가 많았지만, 실제 디바이스 배포로 가면 모델 압축만으로 끝나지 않는다. 연산 primitive 자체를 하드웨어 친화적으로 다시 설계해야 하는 순간이 온다. 특히 정수 네이티브 추론, LUT 최소화, 벡터 연산 중심 최적화 같은 이야기는 앞으로 소형 on-device 모델 시장에서 훨씬 자주 보게 될 가능성이 크다.
- softmax 병목을 단순 구현 최적화가 아니라 함수 대체 관점에서 해결하려 한다
- 정수 친화적 attention 연산은 소형 모델 엣지 배포의 핵심 병목을 직접 건드린다
- 향후 엣지 LLM 경쟁은 파라미터 수보다 연산 구성 재설계가 더 중요해질 수 있다
이건 단순히 속도를 조금 더 올리는 팁이 아니다. 모델 아키텍처가 같아 보여도, 실제 배포 가능한지는 마지막 연산 몇 개가 좌우할 때가 많다. 그래서 오늘 이 논문은 엣지 시대의 모델 품질은 알고리즘과 하드웨어 언어를 동시에 알아야 나온다는 사실을 다시 보여줬다.
원문: https://arxiv.org/abs/2604.02292
5. Neuro-RIT: RAG 강건성은 결국 관련 문맥과 잡음 문맥을 얼마나 정교하게 나누느냐의 문제다
Figure 4: 관련 문맥과 무관 문맥에 민감한 뉴런을 분리해 선택적으로 조정하는 Neuro-RIT 프레임워크
네 번째로 묶은 건 Neuro-RIT: Neuron-Guided Instruction Tuning for Robust Retrieval-Augmented Language Model이다. RAG 시스템은 검색이 항상 깔끔하지 않다. 관련 없는 문서가 섞이거나, 절반만 맞는 문맥이 들어오거나, 중요 정보가 주변 잡음에 묻히는 순간이 잦다. 기존 강건성 개선은 레이어나 모듈 단위의 거친 조정이 많았는데, 이 논문은 거기서 더 내려가 관련 문맥에 반응하는 뉴런과 무관 문맥에 반응하는 뉴런을 attribution 기반으로 나눠 각각 다르게 다룬다. 즉 RAG 문제를 검색 품질만이 아니라 내부 표현의 분리 문제로 다시 본다.
나는 이 방향이 꽤 자연스럽다고 봤다. 대형 모델은 본래 희소하게 작동하는 측면이 강하고, 실제 실패도 모든 파라미터가 같이 잘못되기보다 특정 경로가 잘못 활성화되면서 생기는 경우가 많다. 그런 점에서 Neuro-RIT는 RAG robustness를 더 많은 데이터나 더 무거운 alignment로 푸는 대신, 무엇이 관련 정보이고 무엇이 방해 신호인지 내부 회로 수준에서 다시 가르치는 방식에 가깝다. 검색 모델이 강해질수록 앞으로는 retrieval 품질뿐 아니라, retrieval 결과를 받아들이는 언어 모델의 미세한 선택성이 더 중요해질 수 있다.
- RAG 잡음 문제를 뉴런 수준 선택적 조정으로 해결하려는 접근이다
- 관련 문맥과 무관 문맥을 다르게 처리하는 내부 구조를 명시적으로 학습한다
- 향후 robust RAG는 검색 엔진 개선과 모델 내부 filtering 설계가 같이 가야 할 가능성이 크다
요즘은 RAG를 붙이면 다 해결될 것처럼 말할 때가 있지만, 실제로는 검색된 문서를 모델이 어떻게 받아들이는지가 훨씬 중요하다. 그래서 오늘 이 논문은 RAG의 다음 경쟁이 검색량이 아니라 문맥 선별 감각으로 넘어갈 수 있다는 쪽을 또렷하게 보여줬다.
원문: https://arxiv.org/abs/2604.02194
6. TRU: 개인화 시스템 시대에는 잘 추천하는 것만큼, 요청받으면 정확히 잊는 것도 중요하다
Figure 5: ranking gate, branch-wise scaling, layer selection으로 삭제 요청의 영향을 더 정확히 제거하는 TRU 구조
마지막으로 남긴 건 TRU: Targeted Reverse Update for Efficient Multimodal Recommendation Unlearning이다. 멀티모달 추천기는 사용자-아이템 상호작용 그래프와 이미지·텍스트 같은 풍부한 콘텐츠 표현이 단단하게 얽혀 있어서, 한 번 배운 사용자 신호를 나중에 제거하기가 생각보다 어렵다. 이 논문은 바로 그 점을 정면으로 다룬다. 기존 approximate unlearning이 모델 전체에 거의 균일한 reverse update를 적용하는 경향이 있었다면, 저자들은 실제 삭제 영향이 랭킹 동작, modality branch, 네트워크 레이어마다 불균일하게 퍼진다고 보고, 이에 맞춰 ranking gate, branch-wise scaling, layer selection을 결합한 TRU를 제안한다.
나는 이 주제가 앞으로 더 자주 올라올 거라고 본다. 생성형 AI에서 개인정보와 저작권, 데이터 삭제 요구가 계속 늘고 있는데, 개인화 추천 시스템은 그 압력을 가장 먼저 받는 영역 중 하나다. 여기서 중요한 건 단순히 요청을 수락했다고 말하는 게 아니라, 어디에 남아 있는 흔적을 어떤 강도로 얼마나 제거할 것인지를 기술적으로 설명할 수 있어야 한다는 점이다. 그런 면에서 TRU는 unlearning을 법적 체크리스트가 아니라 모델 설계 문제로 끌고 온다.
- 멀티모달 추천기에서 삭제 영향은 균일하지 않으므로 표적형 역업데이트가 필요하다
- 개인화 시스템의 다음 품질 기준은 정확도와 함께 제거 가능성까지 포함할 수 있다
- 향후 recommendation AI는 학습 파이프라인 못지않게 unlearning 파이프라인도 핵심 자산이 될 가능성이 크다
결국 개인화 시스템은 더 잘 기억하는 엔진이 아니라, 기억해야 할 것과 지워야 할 것을 구분하는 엔진이 되어야 한다. 오늘 이 논문은 그 당연해 보이는 요구가 실제로는 꽤 깊은 모델 구조 문제라는 걸 잘 보여줬다.
원문: https://arxiv.org/abs/2604.02183
7. 오늘 소식을 한 줄로 묶어 보면
오늘 모은 다섯 가지는 recommendation vocabulary, uncertainty-gated RL assistance, edge softmax surrogate, robust RAG, multimodal unlearning이라서 얼핏 보면 서로 멀다. 그런데 같이 놓고 보면 공통점은 꽤 선명하다. AI가 이제 같은 모델을 더 크게 돌리는 경쟁보다, 새로운 개체를 제대로 붙이고, 필요할 때만 외부 도움을 부르고, 작은 장치 위에서도 연산을 버티고, 시끄러운 문맥 속에서 흔들리지 않고, 필요할 때는 정확히 잊는 방향으로 진화하고 있다는 점이다.
나는 이 흐름이 앞으로 더 강해질 것 같다. 이유는 간단하다. 실제 서비스는 항상 제약 속에서 돌아가기 때문이다. 새 아이템은 계속 들어오고, 에이전트는 항상 확신할 수 없고, 디바이스 전력은 제한돼 있고, 검색 문맥은 지저분하며, 데이터 삭제 요구는 늘어난다. 그래서 오늘 트렌드를 한 줄로 적으면 이렇다. 이제 중요한 건 AI가 무엇을 더 할 수 있느냐보다, 어떤 제약 속에서도 무엇을 언제 하고 언제 하지 않을지 아는가다.
- grounded token initialization
- uncertainty-gated language assistance
- integer-native edge attention
- neuron-guided robust RAG
- targeted multimodal unlearning
내일 트렌드를 볼 때도 나는 당분간 이런 질문을 같이 보게 될 것 같다. 모델이 더 똑똑해졌는가보다, 새로운 대상을 얼마나 자연스럽게 받아들이는지, 모를 때 도움을 청할 줄 아는지, 작은 하드웨어에서도 버틸 수 있는지, 잡음을 걸러낼 줄 아는지, 지워야 할 정보를 남기지 않는지가 더 중요해지고 있기 때문이다.