[논문 리뷰]/[최신 논문]

[arXiv 2605.05191] LongSeeker: 장기 검색 에이전트를 위한 탄력적 컨텍스트 오케스트레이션

LongSeeker: Elastic Context Orchestration for Long-Horizon Search AgentsarXiv: https://arxiv.org/abs/2605.05191Yijun Lu, Rui Ye, Yuwen Du, Jiajun Wang, Songhua Liu, Siheng Chen | Shanghai Jiao Tong University | arXiv:2605.05191 | 2026년 5월1. 서론: 장기 검색 에이전트의 컨텍스트 병목LongSeeker 논문은 장기 검색 에이전트의 병목을 단순한 모델 크기나 검색 엔진 품질보다 먼저 작업 컨텍스트의 성장 방식에서 찾는다. ReAct 계열 에이전트는 reasoning trace, tool call, observation을 ..

[AI 실험실]/[개인 프로젝트] GraphRAG

GraphRAG | Same-status stale queue 추가

시리즈: GraphRAG 구축기 #12이전: 11편 | 목록 | 다음: 13편2026년 5월 6일 | 개발 일기GraphRAG profile_eval에 queue를 하나 더 얹었다. 이름은 글에서는 same-status stale queue라고 부르지만, 실제 산출물 파일은 history-stale-origin.json이다. 전 단계에서 만든 stale status queue가 오래 반복되는 non-pass profile을 잡아 줬다면, 이번에는 그 안에서도 처음부터 같은 상태로 굳어 있던 profile만 다시 따로 뺐다.작업 자체는 크지 않았다. 그래도 붙이고 나니 summary를 읽는 순서가 꽤 달라졌다. 예전에는 WARNx6나 HARD-FAILx6를 보면 곧장 trace diff를 다시 열었다. 그..

[논문 리뷰]/[최신 논문]

[arXiv 2604.27283] Learning When to Remember: LLM 코딩 에이전트가 기억을 거절하는 방법

Learning When to Remember: Risk-Sensitive Contextual Bandits for Abstention-Aware Memory Retrieval in LLM-Based Coding Agentshttps://arxiv.org/abs/2604.27283Mehmet Iscan | PythaLab, Yildiz Technical University | arXiv:2604.27283 | 2026년 5월핵심 문제. Mehmet Iscan의 Learning When to Remember는 LLM 기반 코딩 에이전트가 과거 디버깅 메모리를 언제 써야 하고 언제 거절해야 하는지를 다룬다. 논문은 메모리 검색을 단순한 top-k 랭킹으로 보지 않고, 현재 실패와 과거 실패의 구조적 호환성,..

[AI 실험실]/[개인 프로젝트] GraphRAG

GraphRAG | History stale status queue 추가

시리즈: GraphRAG 구축기 #10이전: 9편 | 목록 | 다음: 11편2026년 5월 1일 | 개인 프로젝트 GraphRAGHistory status streak를 붙이고 나니, 숫자는 보이는데 다음 행동은 아직 손으로 골라야 했다. `PASSx3`, `WARNx3`, `HARD-FAILx3`가 한 줄에 같이 나오면 처음에는 꽤 시원해 보인다. 그런데 막상 다음 실험을 잡으려고 보면, 나는 다시 summary를 훑으면서 “그래서 어떤 profile부터 열어야 하지?”를 묻고 있었다. 이건 지표가 부족하다기보다, 지표를 작업 큐로 접는 단계가 하나 빠진 상태에 가까웠다.이번 GraphRAG 반복에서는 그 빈칸을 작게 메웠다. `profile_eval`에 history stale status queue..

[개발 공부]

MRR과 nDCG, 첫 정답과 전체 순서를 분리해서 보기

2026년 5월 1일 | 개발 공부MRR@k와 nDCG@k는 둘 다 검색 결과의 순서를 점수로 읽는 랭킹 평가 지표다. MRR은 Mean Reciprocal Rank, 그러니까 첫 번째 정답이 몇 번째에 나왔는지를 역수로 평균낸 값이고, nDCG는 normalized Discounted Cumulative Gain, 즉 여러 정답의 유용도를 순위가 내려갈수록 할인해 더한 뒤 이상적인 순서와 비교해 정규화한 값이다. 나는 처음에 이 둘을 그냥 “검색 점수” 한 묶음으로 봤는데, GraphRAG 쪽 평가 로그를 계속 만지다 보니 둘은 꽤 다른 질문에 답한다는 걸 뒤늦게 느꼈다.특히 RAG나 GraphRAG처럼 상위 몇 개 문서를 LLM 문맥에 넣는 구조에서는 “정답 문서가 있느냐”만으로는 부족하다. 정답이 ..

[개발 일기]

GraphRAG | History 상태 반복 횟수 추가

시리즈: GraphRAG 구축기 #9이전: 8편 | 목록 | 다음: 10편2026년 5월 1일 | 개발 일기GraphRAG profile_eval의 history 줄은 점점 길어지고 있었다. 처음에는 실행 결과를 한 번 더 저장해 두는 정도였는데, 어느 순간부터는 quality gate, history transition, baseline mismatch, namespace, scope growth queue까지 붙었다. 기능이 늘어난 건 좋은데, 내가 실제로 summary를 볼 때 제일 먼저 알고 싶은 건 더 단순했다. 이 profile이 지금 막 바뀐 건지, 아니면 같은 상태로 계속 버티고 있는지였다.그래서 이번에는 점수를 올리는 쪽이 아니라, 상태가 몇 run째 반복되는지를 보여 주는 작은 필드를 ..

[AI 최신 트렌드]

AI 트렌드 | 4월 29일 : Claude 창작 커넥터, VibeVoice, 유튜브 AI 검색, 에이전트 결제, 국방 AI, 표 검색 견고성

2026년 4월 29일 | AI 최신 트렌드2026년 4월 29일 기준으로 내가 고른 흐름은 창작 도구에 직접 붙는 Claude, 오픈소스 음성 모델 VibeVoice, YouTube의 안내형 AI 검색, 에이전트 결제 인증, 국방 목적 AI 계약, 표 검색 견고성 논문이다. 선정 기준은 새 모델 이름보다 실행 권한, 사용자 접점, 검증 장치가 어디까지 내려왔는지였다.겉으로는 제품 뉴스, 오픈소스 저장소, 보안 표준, 정책 논란, 논문이 따로 움직이는 것처럼 보인다. 그런데 한 칸 뒤로 물러나면 전부 같은 방향을 가리킨다. AI가 텍스트 답변을 잘하는 단계를 지나, 실제 앱을 조작하고, 영상을 골라 주고, 결제를 대신하고, 고위험 조직의 업무 표면으로 들어가며, 검색 시스템 내부의 표현 안정성까지 건드리..

[AI 실험실]/[개인 프로젝트] GraphRAG

GraphRAG | History mismatch 리포트 추가

시리즈: GraphRAG 구축기 #5이전: 4편 | 목록 | 다음: 6편2026년 4월 27일 | 프로젝트history-baseline-mismatches.json 파일 하나를 따로 만들고 나니, GraphRAG 실험 history를 읽는 순서가 조금 더 안전해졌다. 지난번에는 query set이나 quality gate 기준선이 달라진 run을 history delta 계산에서 빼는 guard를 붙였다. 그때도 `history_warning=baseline-mismatch(...)`가 보이기는 했지만, 막상 다음에 다시 열어 보려면 어떤 profile에서 어떤 과거 run이 빠졌는지를 다시 summary 안에서 찾아야 했다. 이번에는 그 빠진 run 자체를 별도 리포트로 모으는 쪽을 먼저 붙였다.나는 ..

[논문 리뷰]/[최신 논문]

[arXiv 2604.18509] MASS-RAG: 검색 근거를 요약·추출·추론으로 다시 조립하는 멀티에이전트 RAG

MASS-RAG: Multi-Agent Synthesis Retrieval-Augmented Generationhttps://arxiv.org/abs/2604.18509Xingchen Xiao, Heyan Huang, Runheng Liu, Jincheng Xie | Beijing Institute of Technology, Tsinghua University | arXiv:2604.18509 | 2026년 4월검색 증강 생성(RAG)은 외부 문서를 끌어와 답을 보강하는 구조이지만, 실전에서 가장 자주 부딪히는 문제는 검색을 했는데도 답이 쉽게 정리되지 않는다는 점이다. 질의와 관련된 문서가 top-k 안에 들어왔더라도, 정답 단서가 여러 문서에 흩어져 있거나, 직접적인 근거와 간접적인 근거가 뒤섞여 있..

[개발 공부]

Query Coverage, 질문 완성도를 따로 보는 레이어

2026년 4월 21일 | 개발 공부Query Coverage는 검색 결과가 질문 안의 핵심 대상과 조건을 얼마나 빠짐없이 실제로 받쳐 주는지를 보는 관점이다. 쉽게 말해 관련 문서가 어딘가에 하나 들어왔는지만 보는 게 아니라, 지금 앞에 올라온 결과들이 질문의 몇 퍼센트를 완성하고 있는가를 따로 읽는 방식이다. 나는 한동안 검색 품질을 recall이나 top-k hit로만 보는 쪽에 가까웠는데, 최근 GraphRAG 쪽 실험을 만지면서는 이 중간 층을 분리해서 보지 않으면 계속 같은 착시를 겪게 된다는 걸 꽤 또렷하게 느꼈다.특히 엔티티가 두세 개 섞인 질문에서는 이 차이가 더 크게 드러났다. 검색기는 분명 꽤 괜찮은 후보를 가져오는데, 막상 답변은 한 조각이 비어 있는 느낌이 반복됐다. 로그를 열어보..

[개발 공부]

Reranker를 검색 마지막 미세조정보다 순서 복구 단계로 이해하게 된 이유

2026년 4월 6일 | 개발 공부Reranker는 1차 검색기가 넓게 모아 온 후보 문서들을 다시 읽고 더 그럴듯한 순서로 재정렬하는 모델 또는 단계다. 보통 RAG나 문서 검색에서 retriever 뒤에 붙는데, 나는 한동안 이걸 그냥 마지막 점수 보정 장치 정도로 생각했다. 그런데 실제 검색 흐름을 자꾸 보다 보니 느낌이 달라졌다. 지금은 reranker를 이미 찾은 후보의 순서를 다듬는 옵션보다, 1차 검색이 만든 거친 순서를 다시 사람 눈에 가까운 우선순위로 복구하는 단계에 더 가깝게 본다.이렇게 보게 된 이유는 retrieval 품질을 볼 때 top-k 안에 정답이 들어왔는지와, 그 정답이 몇 번째로 올라오는지가 전혀 다른 문제라는 걸 자주 느꼈기 때문이다. 벡터 검색이나 BM25가 후보를 잘..

[AI 최신 트렌드]

2026년 4월 3일 AI 최신 트렌드: 배포 제약, 질의 상호작용, unlearning, vocab adaptation

2026년 4월 3일 | AI 최신 트렌드배포 제약, 질의 상호작용, unlearning, vocab adaptation은 현장 제약 안에서 모델을 어떻게 다루는지가 더 중요해졌다는 신호처럼 보였다. 이전 트렌드 글에서 reasoning 내부 구조, MoE 해석, 상호작용 awareness, 로보틱스 연결을 다뤘다면, 여기서는 조금 다른 곳에서 흐름이 또렷했다. 이제 업계의 경쟁은 단순히 더 큰 모델, 더 긴 사고 과정, 더 화려한 데모로만 설명되지 않는다. 오히려 현장 제약 안에서 모델을 어떻게 적응시키고, 언제 외부 도움을 요청하고, 어떤 계산을 줄이고, 어떤 잡음을 버리고, 어떤 흔적을 지워야 하는지가 더 중요한 축으로 올라오고 있다.나는 이런 날의 트렌드가 실무에 더 가깝다고 본다. 추천 시스템은..

[논문 리뷰]/[최신 논문]

[arXiv 2604.00715] To Memorize or to Retrieve: RAG 친화적 사전학습의 스케일링 법칙

To Memorize or to Retrieve: Scaling Laws for RAG-Considerate Pretraininghttps://arxiv.org/abs/2604.00715Karan Singh et al. | Stanford University, Independent, Patronus AI, The Ohio State University, Carnegie Mellon University, DegenAI Labs | arXiv:2604.00715 | 2026년 4월 1일1. 서론: 지식을 외우는 모델과 찾아보는 모델 사이의 설계 선택대규모 언어 모델의 성능 향상 전략은 오랫동안 더 큰 파라미터 수, 더 많은 사전학습 토큰, 더 긴 학습 시간으로 요약되어 왔다. 그러나 실제 서비스 환경에서는 ..

[AI 실험실]/[개인 프로젝트] GraphRAG

GraphRAG MVP 1차: 그래프 추출·하이브리드 검색

2026년 4월 2일 | 프로젝트요즘 GraphRAG를 따로 트랙으로 굴리면서 가장 먼저 막혔던 건, 멋있는 구조를 상상하는 일보다 최소한의 검색 흐름을 실제로 끝까지 연결하는 일이었다. 문서에서 엔티티를 뽑고, 관계를 만들고, 그래프 점수와 벡터 점수를 같이 써서 질의 결과를 정렬하는 흐름은 말로 쓰면 간단한데 막상 손으로 붙이기 시작하면 어디까지를 1차 목표로 잡아야 할지가 애매했다. 그래서 이번에는 욕심을 줄이고, 외부 모델 없이도 재현 가능한 아주 작은 MVP를 먼저 만들었다.핵심은 세 가지였다. 첫째, 문서를 넣으면 청크 단위로 자를 수 있어야 한다. 둘째, 청크에서 엔티티와 관계를 뽑아 그래프 모양의 연결 정보를 만들 수 있어야 한다. 셋째, 질의가 들어왔을 때 단순 키워드 매칭이 아니라 그래..

[개발 깨알 상식_Tips]

벡터 DB에서 recall만 보고 끝내면 검색 품질이 계속 흔들리는 이유

2026년 4월 1일 | 개발 깨알 상식_Tips벡터 검색 시스템을 볼 때 제일 자주 나오는 숫자 중 하나가 recall이다. 얼마나 정답 문서를 잘 되찾아오느냐를 보여주는 지표라서 중요하지 않은 건 아니다. 그런데 실무에서는 이 숫자만 좋아도 체감 품질이 계속 흔들리는 경우가 많다. 나도 초반에는 recall이 높으면 검색 품질이 거의 해결된 줄 알았는데, 실제 서비스에 가까운 흐름으로 가면 훨씬 더 많은 층위가 끼어든다.특히 RAG나 사내 문서 검색처럼 사람이 결과를 바로 읽는 시스템에서는, "정답이 후보군 안에 들어왔다"와 "사용자가 원하는 결과가 앞쪽에 안정적으로 보인다" 사이 거리가 꽤 멀다. recall은 후보 회수 능력을 보여주지만, 사용자가 체감하는 품질은 순위 안정성, chunk gran..

[논문 리뷰]/[최신 논문]

[arXiv 2501.06713] MiniRAG: 소형 언어 모델을 위한 극도로 간결한 RAG 시스템

MiniRAG: Towards Extremely Simple Retrieval-Augmented Generationhttps://arxiv.org/abs/2501.06713 | HTML | GitHubTianyu Fan, Jingyuan Wang, Xubin Ren, Chao Huang | University of Hong Kong | arXiv:2501.06713 | 2025년 1월1. 서론: 경량 RAG의 필요성과 소형 언어 모델의 도전검색 증강 생성(Retrieval-Augmented Generation, RAG)은 최근 자연어 처리 분야에서 가장 주목받는 패러다임 중 하나로 자리잡았다. RAG 시스템은 대규모 언어 모델(LLM)이 외부 지식 소스에서 관련 문서를 검색하여 응답 생성에 활용하는 구조..

[논문 리뷰]/[최신 논문]

[arXiv 2501.14342] CoRAG: 반복적 검색 체인을 통한 RAG 성능 향상

Chain-of-Retrieval Augmented Generationhttps://arxiv.org/abs/2501.14342Liang Wang, Haonan Chen, Nan Yang, Xiaolong Huang, Zhicheng Dou, Furu Wei | Microsoft Research, Renmin University of China | arXiv:2501.14342 | 2025년 1월1. 서론Retrieval-Augmented Generation(RAG)은 대규모 언어 모델(LLM)의 환각(hallucination) 문제를 해결하고 최신 정보를 반영하기 위한 핵심 기술로 자리잡았다. 기업 환경에서 독점 데이터 소스와 대규모 기반 모델을 통합하여 신뢰성 있는 응답을 생성하는 데 필수적인 역할을..

홈으로 돌아가기

검색 결과

"" 검색 결과입니다.