'LLM' 태그의 글 목록

[논문 리뷰]/[최신 논문] • 2026. 5. 7. 14:33

[arXiv 2605.03596] Workspace-Bench 1.0: 대규모 파일 의존성으로 에이전트 업무 능력을 재는 벤치마크

Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencieshttps://arxiv.org/abs/2605.03596Zirui Tang, Xuanhe Zhou, Yumou Liu, Linchun Li, Weizheng Wang, Hongzhang Huang, Jun Zhou, Jiachen Song, Shaoli Yu, Jinqi Wang, Zihang Zhou, Hongyi Zhou, Yuting Lv, Jinyang Li, Jiashuo Liu, Ruoyu Chen, Chunwei Liu, GuoLiang Li, Jihua Kang, Fan Wu | Shanghai Jiao Tong Un..

[논문 리뷰]/[최신 논문] • 2026. 5. 6. 01:11

[arXiv 2605.02572] 장기 지평 LLM 에이전트 학습: Horizon Length가 만드는 훈련 병목

On Training Large Language Models for Long-Horizon Tasks: An Empirical Study of Horizon Lengthhttps://arxiv.org/abs/2605.02572Sunghwan Kim, Junhee Cho, Beong-woo Kwak, Taeyoon Kwon, Liang Wang, Nan Yang, Xingxing Zhang, Furu Wei, Jinyoung Yeo | Department of Artificial Intelligence, Yonsei University; Microsoft Research | arXiv:2605.02572 | 2026년 5월 | ICML 20261. 서론: 긴 상호작용이 LLM 에이전트 학습을 흔드는 이유1..

[논문 리뷰]/[최신 논문] • 2026. 5. 6. 01:10

[arXiv 2605.00817] LLM이 절차 수행을 멈출 때: 정답률 너머의 단계 실행 진단

When LLMs Stop Following Steps: A Diagnostic Study of Procedural Execution in Language Models원문: https://arxiv.org/abs/2605.00817 / HTML: https://arxiv.org/html/2605.00817v1저자/소속: Sailesh Panda, Pritam Kadasi, Mayank Singh | Indian Institute of Technology Gandhinagar; Abhishek Upperwal | Soket AI / arXiv 제출일: 2026년 5월 1일1. 서론: 정답을 맞히는 모델과 절차를 끝까지 실행하는 모델 사이1.1 문제의 출발점: 최종 답안 정확도만으로는 보이지 않는 실패이 논..

[논문 리뷰]/[최신 논문] • 2026. 5. 6. 01:10

[arXiv 2604.27201] Path-Lock Expert: 하이브리드 사고의 reasoning mode를 아키텍처로 분리하기

Path-Lock Expert: Separating Reasoning Mode in Hybrid Thinking via Architecture-Level SeparationarXiv 링크: abs | HTML | GitHubShouren Wang, Wang Yang, Chuang Ma, Debargha Ganguly, Vikash Singh, Chaoda Song, Xinpeng Li, Xianxuan Long, Vipin Chaudhary, Xiaotian Han | Case Western Reserve University, NII LLMC Japan, Michigan State University | arXiv:2604.27201 | 2026년 4월 29일 제출1. 서론: 하이브리드 사고에서 직접 답..

[논문 리뷰]/[최신 논문] • 2026. 5. 2. 14:33

[arXiv 2604.27283] Learning When to Remember: LLM 코딩 에이전트가 기억을 거절하는 방법

Learning When to Remember: Risk-Sensitive Contextual Bandits for Abstention-Aware Memory Retrieval in LLM-Based Coding Agentshttps://arxiv.org/abs/2604.27283Mehmet Iscan | PythaLab, Yildiz Technical University | arXiv:2604.27283 | 2026년 5월핵심 문제. Mehmet Iscan의 Learning When to Remember는 LLM 기반 코딩 에이전트가 과거 디버깅 메모리를 언제 써야 하고 언제 거절해야 하는지를 다룬다. 논문은 메모리 검색을 단순한 top-k 랭킹으로 보지 않고, 현재 실패와 과거 실패의 구조적 호환성,..

[논문 리뷰]/[최신 논문] • 2026. 5. 1. 14:33

[arXiv 2604.28182] 탐색 해킹: LLM은 강화학습 후학습에 저항할 수 있는가

Exploration Hacking: Can LLMs Learn to Resist RL Training?https://arxiv.org/abs/2604.28182Eyon Jang, Damon Falck, Joschka Braun, Nathalie Kirch, Achu Menon, Perusha Moodley, Scott Emmons, Roland S. Zimmermann, David Lindner | MATS, UC San Diego, Anthropic, Google DeepMind | arXiv:2604.28182 | 2026년 4월1. 서론: RL 후학습이 모델 자신의 탐색에 의존할 때 생기는 취약점대규모 언어 모델의 후학습에서 강화학습은 이제 성능을 조금 더 다듬는 보조 절차를 넘어, 추론 능력, ..

[개발 공부] • 2026. 4. 28. 18:38

MLA KV Cache, 긴 문맥에서 먼저 줄어드는 병목

2026년 4월 28일 | 개발 공부MLA(Multi-Head Latent Attention)는 긴 문맥 추론에서 key/value cache를 토큰마다 그대로 쌓는 대신, attention에 필요한 정보를 더 작은 latent 표현으로 압축해 저장하는 방식이다. 나는 처음에 이걸 “attention을 줄이는 기법” 정도로만 읽었는데, 조금 더 들여다보니 포인트가 달랐다. attention을 없애는 게 아니라, 긴 문맥에서 제일 먼저 메모리를 잡아먹는 KV Cache의 저장 형태를 바꾸는 쪽에 가깝다.긴 컨텍스트 모델 이야기를 할 때 보통은 “몇 토큰까지 읽느냐”를 먼저 본다. 64K, 128K, 1M 같은 숫자가 워낙 눈에 잘 들어온다. 그런데 실제로 서버에 올려 보는 관점에서는 숫자보다 먼저 걸리는 ..

[AI 최신 트렌드] • 2026. 4. 21. 07:46

AI 트렌드 | 4월 21일 : Gemini 크롬 확장, Fortnite AI 캐릭터, AI 동료 복제, Spark 2.0, 출력 다양성 붕괴

2026년 4월 21일 | AI 최신 트렌드2026년 4월 21일 메모 | 모델 점수표보다 브라우저·게임·회사·웹 3D·후학습처럼 AI가 실제 표면과 부딪히는 장면들만 골랐다.4월 21일 후보군을 다시 훑어보니 공통축이 꽤 또렷했다. Google은 Gemini를 크롬 안으로 더 넓게 밀어 넣고 있었고, Epic Games는 게임 안 캐릭터를 대화형 AI로 바꾸는 실험을 본격화하고 있었다. 회사 안쪽으로 들어가면 더 날카롭다. 중국 테크 업계에서는 동료의 업무 스타일을 AI 스킬로 증류하려는 분위기가 기사로 올라왔고, 웹 그래픽 쪽에서는 World Labs의 Spark 2.0이 브라우저에서 초대형 3D 장면을 스트리밍하는 길을 열고 있었다.연구 쪽에서 눈에 들어온 건 후학습 이후 출력 다양성 붕괴를 추적한..

[논문 리뷰]/[최신 논문] • 2026. 4. 19. 14:35

[arXiv 2604.15267] CoopEval: 사회적 딜레마에서 LLM 협력을 유지시키는 제도는 무엇인가

CoopEval: Benchmarking Cooperation-Sustaining Mechanisms and LLM Agents in Social Dilemmashttps://arxiv.org/abs/2604.15267Emanuel Tewolde, Xiao Zhang, David Guzman Piedrahita, Vincent Conitzer, Zhijing Jin | Carnegie Mellon University, Foundations of Cooperative AI Lab (FOCAL), Jinesis Lab, University of Toronto & Vector Institute, EuroSafeAI, ETH Zurich, Max Planck Institute for Intelligent Sys..

[논문 리뷰]/[최신 논문] • 2026. 4. 17. 14:33

[arXiv 2604.14267] 기여도 가중 GRPO로 LLM 검색 에이전트를 더 잘 훈련시키는 방법

Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimizationhttps://arxiv.org/abs/2604.14267Junzhe Wang, Zhiheng Xi, Yajie Yang, Hao Luo, Shihan Dou, Tao Gui, Qi Zhang | Fudan University, Shanghai Artificial Intelligence Laboratory, Shanghai Key Laboratory of Intelligent Information Processing | arXiv:2604.14267 | 2026년 4월 15일 | ACL 2026 Main Conference1. 서론: 검색..

[논문 리뷰]/[최신 논문] • 2026. 4. 15. 14:35

[arXiv 2604.13016] 온폴리시 증류 재해석: 생각 패턴 정합성과 새 지식이 가르는 LLM 후학습의 성패

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipehttps://arxiv.org/abs/2604.13016 | CodeYaxuan Li, Yuxin Zuo, Bingxiang He, Jinqian Zhang, Chaojun Xiao, Cheng Qian, Tianyu Yu, Huan-ang Gao, Wenkai Yang, Zhiyuan Liu, Ning Ding | Tsinghua University, ShanghaiTech University, University of Illinois Urbana-Champaign, Renmin University of China | arXiv:2..

[논문 리뷰]/[최신 논문] • 2026. 4. 13. 14:48

[arXiv 2604.08401] Verify Before You Commit: 행동 커밋 전 belief 검증으로 LLM 에이전트 추론의 faithfulness를 확보하는 SAVeR

Verify Before You Commit: Towards Faithful Reasoning in LLM Agents via Self-Auditing논문 링크: https://arxiv.org/abs/2604.08401Wenhao Yuan, Chenchen Lin, Jian Chen, Jinfeng Xu, Xuehe Wang, Edith Cheuk Han Ngai | The University of Hong Kong, Sun Yat-sen University | ACL 2026 main accepted원제는 Verify Before You Commit: Towards Faithful Reasoning in LLM Agents via Self-Auditing이며, 핵심 문제의식은 단순하다. 에이전트가 출..

[논문 리뷰]/[최신 논문] • 2026. 4. 13. 14:47

[arXiv 2604.09377] 태스크 인식 LLM 라우팅: 콜드스타트 환경을 위한 다단계 태스크 프로파일 기반 데이터 합성

Task-Aware LLM Routing with Multi-Level Task-Profile-Guided Data Synthesis for Cold-Start Scenarioshttps://arxiv.org/abs/2604.09377Hui Liu, Bin Zou, Kecheng Chen, Jie Liu, Wenya Wang, Haoliang Li | City University of Hong Kong, The University of Hong Kong, Nanyang Technological University | arXiv:2604.09377 | 2026년 4월 | ACL 2026 Main 채택1. 서론: 콜드스타트 LLM 라우팅이 왜 지금 중요한가이 논문은 LLM 라우팅이라는 이미 익숙한 문제를 다..

[논문 리뷰]/[핵심 논문] • 2026. 4. 6. 13:46

[arXiv 2106.09685] LoRA: 거대 언어모델 적응 비용을 뒤집은 저랭크 업데이트의 표준 설계

LoRA: Low-Rank Adaptation of Large Language Modelshttps://arxiv.org/abs/2106.09685Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen · Microsoft · 2021 · ICLR 2022이 논문은 거대 언어모델 적응의 비용 구조를 다시 정의한 연구로 읽힌다. 핵심 제안은 사전학습 가중치 $W_0$를 동결한 채, 다운스트림 과업에서 필요한 변화만 저랭크 행렬 곱으로 표현하는 것이다. 완전 미세조정이 모델 전체를 다시 학습하는 반면, LoRA는 변화량 $\Delta W$를 직접 두지 않고 $BA$ 형태의 작..

[AI 최신 트렌드] • 2026. 4. 6. 12:09

4월 6일 AI 최신 트렌드: 신뢰도, 인용, 암기, 공급망

2026년 4월 6일 | AI 최신 트렌드신뢰도, 인용, 암기, 공급망을 같이 묶어 보면 모델 성능표 바깥의 신뢰성 계층 문제가 더 크게 보인다. 자신감 있게 틀리는 답변, 실제로 존재하지 않는 인용 링크, 훈련 데이터를 은근히 드러내는 생성 패턴, 검증 없이 퍼지는 에이전트 스킬 생태계처럼, 이제 많은 병목은 모델 성능표 바깥의 신뢰성 계층에서 터지고 있었다.나는 이 흐름이 중요하다고 본다. 요즘은 웬만한 모델이 얼핏 보면 다 그럴듯해 보이기 때문이다. 그래서 실제 제품과 업무에서는 "잘 맞히는가" 못지않게 "모를 때 멈출 수 있는가", "근거 링크가 실제로 존재하는가", "학습 데이터를 새어 나오게 하지 않는가", "확장 기능이 시스템 전체를 오염시키지 않는가"가 더 직접적인 품질 문제가 된다. 오늘..

[AI 최신 트렌드] • 2026. 4. 5. 12:08

4월 5일 AI 최신 트렌드: 도움 요청 정책, 시각화 해석 연산, 범용 하이퍼네트워크, 오픈 AI 워크스페이스

2026년 4월 5일 | AI 최신 트렌드도움 요청 정책, 시각화 해석 연산, 범용 하이퍼네트워크, 오픈 AI 워크스페이스를 같이 놓고 보니 모델 바깥에서 판단 구조를 어떻게 바꾸는지가 더 선명했다. 최근 AI는 더 큰 모델을 만드는 경쟁만으로 설명되지 않고, 모를 때 누구에게 물을지, 사람이 차트를 읽는 과정을 얼마나 연산처럼 다룰 수 있을지, 서로 다른 모델을 하나의 생성기로 얼마나 묶을 수 있을지, 실제 팀이 여러 LLM을 얹어 일할 수 있는 오픈 플랫폼이 어디까지 올라왔는지 같은 쪽으로 빠르게 넓어지고 있었다.나는 이런 흐름이 꽤 중요하다고 본다. 이유는 단순하다. 실제 제품과 운영 환경에서는 모델 하나가 모든 일을 직접 잘하는 순간보다, 불확실할 때 도움을 요청하는 순간, 복잡한 정보를 사람이 ..

[논문 리뷰]/[최신 논문] • 2026. 4. 4. 16:36

[arXiv 2604.02319] 샘플 다양성 라우팅: 질의마다 최적 언어모델을 고르는 방법

No Single Best Model for Diversity: Learning a Router for Sample Diversityhttps://arxiv.org/abs/2604.02319Yuhan Liu, Fangyuan Xu, Vishakh Padmakumar, Daphne Ippolito, Eunsol Choi | New York University, Stanford University, Carnegie Mellon University | arXiv:2604.02319 | 2026년 4월 | under review at COLM 2026오픈엔디드 질문에 대한 언어모델 응답을 평가할 때, 대개는 가장 그럴듯한 단일 답 하나를 얼마나 잘 생성하는가에 초점이 맞춰진다. 그러나 실제 서비스에서 사용자는 ..

[논문 리뷰]/[최신 논문] • 2026. 4. 4. 10:40

[arXiv 2604.02047] Goose: 훈련 없는 speculative decoding을 위한 이방성 추론 트리 설계

Goose: Anisotropic Speculation Trees for Training-Free Speculative Decodinghttps://arxiv.org/abs/2604.02047Tao Jin, Phuong Minh Nguyen, Naoya Inoue | arXiv:2604.02047 | 2026년 4월 | Training-free speculative decoding, anisotropic tree, context match, token recyclingGoose는 speculative decoding의 속도 향상을 단순히 더 많은 후보를 제안하는 문제로 보지 않고, 서로 다른 수용률을 가진 후보를 어떤 트리 구조로 검증할 것인가라는 문제로 다시 정리한다. 논문은 문맥 매칭 기반 후보와 t..

[개발 공부] • 2026. 4. 4. 09:04

Speculative Decoding, 작은 모델의 초안이 큰 모델의 속도로 이어지는 방식

2026년 4월 4일 | 개발 공부Speculative Decoding은 작은 보조 모델이 먼저 여러 토큰 초안을 빠르게 써 두고, 큰 메인 모델이 그 초안을 한 번에 검증하면서 가능한 구간은 그대로 받아들이는 추론 가속 기법이다. 이름만 보면 복잡해 보이지만, 내가 이해한 핵심은 단순했다. 큰 모델이 매 토큰마다 처음부터 전부 계산하는 대신, 작은 모델이 먼저 길을 몇 칸 앞서 보고 큰 모델이 맞는지 확인하는 구조라는 점이다. 그래서 이 개념은 단순히 속도를 높이는 트릭이라기보다, "초안 작성"과 "검수"를 분리한 생성 파이프라인으로 읽는 편이 훨씬 덜 헷갈렸다.처음에는 나도 이걸 그냥 추론 최적화 옵션 중 하나로만 봤다. KV cache를 켜고, 배치 크기를 조절하고, 양자화를 적용하는 것처럼 엔진 ..

[AI 최신 트렌드] • 2026. 4. 3. 18:07

2026년 4월 3일 AI 최신 트렌드: 배포 제약, 질의 상호작용, unlearning, vocab adaptation

2026년 4월 3일 | AI 최신 트렌드배포 제약, 질의 상호작용, unlearning, vocab adaptation은 현장 제약 안에서 모델을 어떻게 다루는지가 더 중요해졌다는 신호처럼 보였다. 이전 트렌드 글에서 reasoning 내부 구조, MoE 해석, 상호작용 awareness, 로보틱스 연결을 다뤘다면, 여기서는 조금 다른 곳에서 흐름이 또렷했다. 이제 업계의 경쟁은 단순히 더 큰 모델, 더 긴 사고 과정, 더 화려한 데모로만 설명되지 않는다. 오히려 현장 제약 안에서 모델을 어떻게 적응시키고, 언제 외부 도움을 요청하고, 어떤 계산을 줄이고, 어떤 잡음을 버리고, 어떤 흔적을 지워야 하는지가 더 중요한 축으로 올라오고 있다.나는 이런 날의 트렌드가 실무에 더 가깝다고 본다. 추천 시스템은..