2026년 5월 13일 | AI 최신 트렌드2026년 5월 13일 기준, 이번 묶음은 AI가 들어가는 화면, 계산 인프라, 권리 표준, 개발 도구, 긴 영상 논문을 한 번에 보려고 골랐다. 한쪽에서는 휴대폰과 노트북의 기본 조작면이 바뀌고, 다른 쪽에서는 데이터센터를 지구 밖으로 올리자는 이야기까지 나온다.1. Googlebook과 Android 17: AI가 OS 안쪽 조작면으로 내려옴Figure 1: TechCrunch가 소개한 Googlebook 이미지. Gemini가 노트북과 Android 조작면 안쪽으로 들어가는 흐름이 보인다.TechCrunch는 Google의 Android Show 발표를 정리하면서 Googlebook이라는 새 노트북 라인, Gemini 기반 기능, Chrome 안의 Gemi..
시리즈: GraphRAG 구축기 #14이전: 13편 | 목록 | 다음 없음2026년 5월 12일 | 개인 프로젝트 · GraphRAGexclude-candidate로 표시해 둔 profile이 다음 실행에서도 계속 평가되는 게 최근 GraphRAG 루프에서 조금 찜찜했다. iter30에서 stale origin action queue를 붙이면서 path_bridge_focus는 제외 후보, path_bridge_probe는 관찰 후보로 잘 갈라졌다. 그런데 막상 다음 profile sweep을 돌리면, 명령어에 세 profile을 그대로 넣는 한 제외 후보도 다시 평가 대상에 들어왔다.그래서 이번 반복은 새 점수식을 만드는 쪽이 아니라, 이전 report의 판단을 다음 실행에 반영하는 쪽으로 잡았다. 이..
2026년 5월 12일 | 개발 공부McNemar 검정은 같은 테스트셋 위에서 두 모델이나 두 설정을 비교할 때, 전체 정확도 차이보다 서로 다르게 맞힌 샘플만 떼어 보는 검정이다. 나는 처음 이 이름을 봤을 때 통계 교과서 안쪽에 있는 기법처럼 느꼈는데, 실제로 평가 로그에 붙일 때의 감각은 꽤 단순했다. A와 B가 둘 다 맞힌 샘플은 승부를 가르지 않는다. 둘 다 틀린 샘플도 마찬가지다. 진짜로 봐야 하는 건 A만 맞히고 B는 틀린 샘플 수, 그리고 B만 맞히고 A는 틀린 샘플 수다.모델 비교를 할 때 평균 accuracy나 F1 차이를 먼저 보는 건 자연스럽다. 문제는 같은 1,000개 테스트 샘플을 놓고 두 모델을 비교하면서도, 무심코 두 점수를 서로 독립인 것처럼 읽을 때가 있다는 점이다. A가..
2026년 5월 12일 | AI 최신 트렌드2026년 5월 12일 큐레이션은 AI가 정보를 고르고, 보안을 점검하고, 사람과 계속 상호작용하는 표면으로 옮겨 가는 장면을 중심으로 묶었다. 제품 뉴스, 보안 사례, 사용량 데이터, 연구 논문을 한 줄로 세워 보면 “모델 성능”보다 “모델을 어디에 붙이고 어떻게 통제할 것인가”가 더 크게 보인다.1. Digg의 재시작: 뉴스 피드도 AI 랭킹 문제로 이동Figure 1: TechCrunch가 소개한 새 Digg 화면. 커뮤니티형 Reddit 대체재보다 AI 뉴스 랭킹 실험에 가까워졌다.TechCrunch에 따르면 Digg는 Reddit 클론처럼 보이던 초기 방향을 접고, 이번에는 AI 뉴스부터 랭킹하는 집계 서비스로 다시 돌아왔다. 흥미로운 지점은 “AI를 ..
시리즈: GraphRAG 구축기 #13이전: 12편 | 목록 | 다음: 14편2026년 5월 7일 | 개인 프로젝트 · GraphRAGsame-status-from-start로 묶인 profile 두 개가 계속 같은 줄에 남아 있는 것이 GraphRAG 루프에서 제일 거슬렸다. 이전 반복에서 만든 stale origin queue는 "처음부터 같은 non-pass 상태였던 profile"을 잘 골라냈지만, 거기서 한 걸음 더 나아가지는 않았다. path_bridge_probe와 path_bridge_focus가 모두 같은 queue에 들어왔고, 나는 다시 파일을 열어서 하나는 관찰 후보인지, 하나는 제외 후보인지 손으로 읽어야 했다.이런 상태가 몇 번 반복되면 report가 도움을 주는 게 아니라 rep..
LongSeeker: Elastic Context Orchestration for Long-Horizon Search AgentsarXiv: https://arxiv.org/abs/2605.05191Yijun Lu, Rui Ye, Yuwen Du, Jiajun Wang, Songhua Liu, Siheng Chen | Shanghai Jiao Tong University | arXiv:2605.05191 | 2026년 5월1. 서론: 장기 검색 에이전트의 컨텍스트 병목LongSeeker 논문은 장기 검색 에이전트의 병목을 단순한 모델 크기나 검색 엔진 품질보다 먼저 작업 컨텍스트의 성장 방식에서 찾는다. ReAct 계열 에이전트는 reasoning trace, tool call, observation을 ..
2026년 5월 7일 | 개발 일기GNN 링크 예측 실험에서 threshold behavior label까지 붙이고 나니, 표를 읽는 방식이 한 번 더 애매해졌다. `tradeoff_only`라는 라벨은 꽤 유용했지만, 막상 다음 실험으로 보내려면 질문이 하나 남았다. false negative를 false positive로 바꿨을 뿐이라면, 그게 좋은 변화인지 나쁜 변화인지는 오류 비용을 어떻게 잡느냐에 달려 있기 때문이다.이번에는 그 애매한 칸을 그대로 두지 않고, validation threshold 결과 위에 FP/FN 비용 시나리오를 얹었다. 목적은 성능을 갑자기 올리는 게 아니라, 어떤 config를 threshold 후보로 계속 볼지, 어떤 config는 score distribution이나..
2026년 5월 7일 | 바이브코딩 Tips긴 컨텍스트 모델을 쓰기 시작하면 코딩 에이전트에게 더 많이 보여 주는 일이 자연스러운 기본값처럼 느껴진다. 나도 처음에는 저장소 설명, 이슈 원문, 실패 로그, 관련 문서, 예전 대화까지 한 번에 넣으면 모델이 덜 헤맬 거라고 생각했다. 그런데 실제로 굴려 보면 문제는 정보 부족만이 아니었다. 너무 많은 맥락이 같은 중요도로 들어갈 때 에이전트는 무엇을 기준으로 움직여야 하는지 자주 놓친다.그래서 요즘 코딩 에이전트에게 일을 넘길 때는 큰 프롬프트를 쓰기 전에 작은 컨텍스트 예산표를 먼저 적는다. 이름은 거창하지만 내용은 단순하다. 지금 반드시 넣을 자료, 참고만 시킬 자료, 아직 열지 않을 자료, 아예 섞으면 안 되는 자료를 네 칸으로 나누는 것이다. 이걸 ..
2026년 5월 6일 | 끄적끄적노트북을 덮기 전 5분은 의외로 다음 작업의 난이도를 많이 바꾼다. 밤에 마지막 로그를 보고, 브라우저 탭을 몇 개 닫고, 노트에 남은 문장을 대충 훑는 그 짧은 시간 말이다. 예전에는 그 시간을 그냥 마감의 부산물처럼 넘겼다. 이미 집중력이 떨어졌으니 더 건드리지 말고, 다음에 다시 보면 된다고 생각했다. 그런데 그렇게 닫은 작업은 다음번에 열었을 때 이상하게 오래 식어 있었다.문제는 기록이 없어서가 아니었다. 기록은 오히려 많았다. 실행 로그도 있고, 복사해 둔 링크도 있고, 중간에 적은 생각도 있었다. 그런데 다시 열면 그중 무엇이 아직 살아 있는지 바로 보이지 않았다. 남겨 둔 자료의 양보다, 마지막 5분에 남겨 둔 온도가 더 크게 작용한다는 걸 뒤늦게 알았다. 식..
2026년 5월 6일 | 개발 공부Bootstrap 신뢰구간은 손에 이미 있는 평가 샘플을 복원추출로 여러 번 다시 뽑고, 그때마다 같은 metric을 계산한 뒤, 나온 값들의 분포로 점수의 흔들림을 읽는 방법이다. 나는 처음 이걸 봤을 때 이름 때문에 괜히 큰 통계 기법처럼 느꼈는데, 막상 실험 로그에 붙여 보니 감각은 단순했다. 평균 하나만 적어 두면 결과가 단단해 보이지만, 그 평균이 샘플 몇 개에 기대고 있는지까지 같이 보려면 반복해서 다시 흔들어 보는 장치가 필요하다.모델 평가표를 볼 때 가장 편한 숫자는 여전히 평균이다. AUC 0.842, MRR 0.317, nDCG 0.492처럼 한 줄로 정리되는 숫자는 비교하기 좋다. 문제는 그 숫자 하나가 얼마나 믿을 만한 차이인지를 바로 말해 주지는 ..
시리즈: GraphRAG 구축기 #12이전: 11편 | 목록 | 다음: 13편2026년 5월 6일 | 개발 일기GraphRAG profile_eval에 queue를 하나 더 얹었다. 이름은 글에서는 same-status stale queue라고 부르지만, 실제 산출물 파일은 history-stale-origin.json이다. 전 단계에서 만든 stale status queue가 오래 반복되는 non-pass profile을 잡아 줬다면, 이번에는 그 안에서도 처음부터 같은 상태로 굳어 있던 profile만 다시 따로 뺐다.작업 자체는 크지 않았다. 그래도 붙이고 나니 summary를 읽는 순서가 꽤 달라졌다. 예전에는 WARNx6나 HARD-FAILx6를 보면 곧장 trace diff를 다시 열었다. 그..
2026년 5월 6일 | 바이브코딩 Tips코딩 에이전트가 작업을 넘길 때 가장 흐려지는 건 결과물이 아니라 남은 판단의 위치다. 파일은 바뀌었고 테스트도 몇 개 돌았는데, 다음 사람이 다시 열었을 때 “그래서 내가 먼저 봐야 하는 게 뭐지?”에서 시간이 새는 경우가 꽤 많다. 나는 이걸 그냥 TODO 목록으로 남기면 다시 섞인다는 쪽에 가까워졌다. 그래서 요즘은 handoff를 남길 때 TODO가 아니라 handoff 큐를 따로 만든다.여기서 말하는 큐는 거창한 시스템이 아니다. 에이전트가 끝냈다고 말한 뒤에도 사람 판단이 남은 항목을 같은 종류끼리 묶어 두는 작은 장부다. “테스트 더 돌리기”, “요구사항 다시 묻기”, “배포 전 위험 보기”, “나중에 읽을 자료”를 한 줄에 몰아넣지 않고, 다음 행..
On Training Large Language Models for Long-Horizon Tasks: An Empirical Study of Horizon Lengthhttps://arxiv.org/abs/2605.02572Sunghwan Kim, Junhee Cho, Beong-woo Kwak, Taeyoon Kwon, Liang Wang, Nan Yang, Xingxing Zhang, Furu Wei, Jinyoung Yeo | Department of Artificial Intelligence, Yonsei University; Microsoft Research | arXiv:2605.02572 | 2026년 5월 | ICML 20261. 서론: 긴 상호작용이 LLM 에이전트 학습을 흔드는 이유1..
When LLMs Stop Following Steps: A Diagnostic Study of Procedural Execution in Language Models원문: https://arxiv.org/abs/2605.00817 / HTML: https://arxiv.org/html/2605.00817v1저자/소속: Sailesh Panda, Pritam Kadasi, Mayank Singh | Indian Institute of Technology Gandhinagar; Abhishek Upperwal | Soket AI / arXiv 제출일: 2026년 5월 1일1. 서론: 정답을 맞히는 모델과 절차를 끝까지 실행하는 모델 사이1.1 문제의 출발점: 최종 답안 정확도만으로는 보이지 않는 실패이 논..
Path-Lock Expert: Separating Reasoning Mode in Hybrid Thinking via Architecture-Level SeparationarXiv 링크: abs | HTML | GitHubShouren Wang, Wang Yang, Chuang Ma, Debargha Ganguly, Vikash Singh, Chaoda Song, Xinpeng Li, Xianxuan Long, Vipin Chaudhary, Xiaotian Han | Case Western Reserve University, NII LLMC Japan, Michigan State University | arXiv:2604.27201 | 2026년 4월 29일 제출1. 서론: 하이브리드 사고에서 직접 답..
2026년 5월 4일 | 끄적끄적검색창에 세 글자를 치기 전의 빈 입력칸은 생각보다 좋은 브레이크가 된다. 나는 작업하다가 막히면 손이 거의 자동으로 새 탭을 열었다. 용어가 애매해도 검색, 숫자가 이상해도 검색, 코드가 낯설어도 검색. 그 자체가 나쁜 습관은 아니다. 문제는 내가 무엇을 찾으려는지 아직 말로 못 붙인 상태에서도 검색창부터 열 때가 많았다는 점이다.이럴 때 검색은 질문을 좁혀 주기보다 질문이 아직 없다는 사실을 가려 버린다. 검색 결과가 열 개쯤 뜨면 뭔가 하고 있는 느낌은 든다. 하지만 탭을 몇 개 더 열어도 처음 막힌 지점으로 돌아오면 손에 남는 문장이 없다. 이상하게 피곤한데 진도는 나가지 않는 날은 대체로 이 순서가 뒤집혀 있었다. 찾을 말을 정하기 전에 찾기부터 시작한 날이었다...
2026년 5월 4일 | 개인 프로젝트Threshold behavior label을 붙여 보니, 지난 calibration 표가 훨씬 빨리 읽혔다. 바로 전 반복에서는 validation edge에서 threshold를 고르고 그 값을 test edge에 적용했다. 그 결과 자체는 꽤 차분했다. hybrid_full만 error가 7개에서 6개로 줄었고, 나머지 config는 총 error가 그대로였다. 그런데 표를 다시 읽을 때마다 같은 말을 반복하고 있었다. threshold가 실제로 도움이 된 경우, false negative를 false positive로 바꿨을 뿐인 경우, 아예 false positive 쪽으로만 기운 경우를 매번 눈으로 분류해야 했다.그래서 이번에는 모델을 더 키우지 않고, i..
2026년 5월 3일 | 끄적끄적공개 URL 서른두 개를 한 줄짜리 표로 접어 보니, 이번 주의 밑줄은 무엇을 더 넣을까보다 어디서 멈추고 무엇을 남길까에 더 가까웠다. 트렌드 글은 제품과 인프라의 바깥 움직임을 계속 훑었고, 논문 리뷰는 에이전트의 기억·탐색·협업을 파고들었고, 프로젝트 글은 GraphRAG와 GNN의 실패 범위를 더 작게 잘랐다. 겉으로는 꽤 바쁜 주였는데, 다시 읽어 보니 이상하게도 전부 같은 질문 쪽으로 모였다.집계는 내 발행 기록을 먼저 세고 Tistory RSS를 다시 대조했다. RSS에는 최신 10편만 노출되어 post 233부터 post 242까지는 피드에서 바로 확인됐고, 그 앞의 22편은 공개 URL과 로컬 메타를 같이 보며 다시 맞췄다. 그래서 이번 회고의 대상은 20..
2026년 4월 29일 | 개인 프로젝트 GraphRAGGraphRAG profile_eval에서 history mismatch report를 열 때마다 한 번 더 손이 갔다. 지난 반복에서 이미 query_set, quality_gate, dataset, top_k 같은 mismatch reason을 section으로 접어 두긴 했다. 그런데 실제로 report를 읽다 보면 reason을 확인한 뒤에도 곧바로 다른 값을 다시 봐야 했다. 이 mismatch가 단순히 기준선이 달라진 흔적인지, 아니면 같은 순간에 profile의 PASS/WARN/HARD-FAIL 상태도 흔들린 건지 한 화면에서 바로 안 보였기 때문이다.그래서 이번 작업은 점수를 더 올리는 쪽이 아니라, 읽는 순서를 한 칸 더 줄이는 쪽..