[논문 리뷰]/[최신 논문] / [arXiv 2605.15202] DeepSlide: 산출물 생성에서 발표 전달까지 이어지는 멀티 에이전트 프레젠테이션 시스템.md

[arXiv 2605.15202] DeepSlide: 산출물 생성에서 발표 전달까지 이어지는 멀티 에이전트 프레젠테이션 시스템

2026. 5. 19. 14:35 조회

DeepSlide: From Artifacts to Presentation Delivery

Ming Yang, Zhiwei Zhang, Jiahang Li, Haoseng Liu, Yuzheng Cai, Weiguo Zheng | School of Data Science, Fudan University, Shanghai, China | 2026년 5월

1. 서론 — 정적 덱 제작에서 발표 전달 최적화로 넘어가는 문제 설정

DeepSlide의 출발점은 간단하지만 중요하다. 발표는 보기 좋은 슬라이드 묶음만으로 완성되지 않는다. 연구 발표는 청중의 배경, 제한 시간, 설명 순서, 강조와 생략의 균형, 슬라이드와 말의 역할 분담, 리허설 과정까지 포함하는 동적 커뮤니케이션 과정이다. 기존 AI slide generator는 대체로 “시각적으로 그럴듯한 deck artifact”를 빠르게 생산하는 데 강했지만, 발표자가 실제로 어떤 속도로 말하고 어떤 단서로 청중의 주의를 유도하며 어떤 질문을 대비해야 하는지까지는 충분히 최적화하지 못했다.

논문의 초록은 이 차이를 artifact quality와 delivery excellence의 분리로 표현한다. 전자는 덱이 안정적으로 렌더링되는지, 원문 근거와 맞는지, 읽기 쉬운지, 시각적으로 균형이 있는지를 본다. 후자는 내러티브 흐름, 시간 배분, 슬라이드와 스크립트의 상보성, 발표 중 주의 안내, 리허설 준비도를 본다. DeepSlide는 두 축을 함께 보되, 하나의 총점으로 섞지 않고 dual-scoreboard라는 평가 구조를 제안한다.

문제의 핵심: 슬라이드는 발표의 산출물이지만 발표 그 자체는 아니다

많은 자동 슬라이드 생성 도구는 문서 요약, 이미지 삽입, 템플릿 기반 레이아웃, 간단한 편집 기능을 제공한다. Manus, Gamma, Qwen, Coze, NotebookLM, PPTAgent 같은 시스템은 논문이나 문서를 입력받아 빠르게 슬라이드를 만들 수 있다. 그러나 발표자가 겪는 실제 부담은 “무엇을 한 장에 넣을 것인가”에서 끝나지 않는다. 발표자는 먼저 청중이 어느 정도 배경지식을 가졌는지 판단하고, 제한 시간 안에서 어떤 주장과 증거를 남길지 결정하며, 복잡한 표나 그림을 어느 순서로 보여줄지 설계하고, 발표 전에 예상 질문을 점검해야 한다.

DeepSlide가 지적하는 기존 접근의 첫 번째 공백은 narrative strategy의 부재다. 많은 시스템은 단일 outline을 만들지만, 회의적인 청중을 설득하는 구조, 오해를 반박하는 myth-busting 구조, trade-off를 탐색하는 구조, ablation을 탐정식으로 공개하는 구조처럼 발표 목적에 따라 달라지는 이야기 전략을 선택지로 제공하지 않는다. 두 번째 공백은 delivery-time attention strategy다. 슬라이드가 정적이면 청중은 복잡한 그림이나 표에서 어디를 먼저 봐야 할지 놓치기 쉽다. 세 번째 공백은 rehearsal support다. 기존 시스템은 덱을 만든 뒤 발표자가 따로 스크립트를 다듬고 질문을 예상하고 리허설을 반복하게 둔다.

Figure 2: Limitations of existing approaches and the DeepSlide.

이 그림은 기존 자동 슬라이드 생성기가 주로 정적 덱 산출물에 머무르는 반면, DeepSlide가 요구 수집, 논리 체인, 근거 기반 생성, 발표 중 주의 유도, 리허설 평가까지 이어지는 흐름을 목표로 삼는다는 대비를 보여준다. 특히 왼쪽의 한계는 narrative, pacing, rehearsal이 덱 생성 뒤로 밀리는 구조이고, 오른쪽의 DeepSlide는 이를 생성 과정 안의 명시적 단계로 끌어들인다. 핵심은 “덱 제작 자동화”를 넘어 “발표 준비 부담의 끝단까지 축소”라는 문제 재정의다.

논문이 주장하는 네 가지 기여

논문은 DeepSlide의 기여를 네 갈래로 정리한다. 첫째, 발표 준비 전체를 다루는 four-stage human-in-the-loop multi-agent system을 제안한다. 둘째, 정적 슬라이드 품질과 동적 전달 품질을 분리하는 dual-scoreboard benchmark를 제안한다. 셋째, content-tree retrieval, time-budgeted logical-chain editing, Markov-style sequential rendering, browser sandbox validation 같은 경량이면서 구조화된 메커니즘을 결합한다. 넷째, 20개 연구 도메인과 다양한 청중 프로필에서 DeepSlide가 artifact score를 유지하면서 delivery score를 더 크게 끌어올린다는 실험 결과를 제시한다.

중요한 점은 DeepSlide가 완전히 자동화된 “발표자 대체” 시스템을 표방하지 않는다는 것이다. 설계 중심에는 human-in-the-loop가 있다. 사용자는 요구사항을 대화로 제공하고, 후보 logical chain 중 하나를 선택하거나 수정하며, 슬라이드와 스크립트를 대화식으로 다듬는다. 시스템은 사용자의 고수준 판단을 대체하기보다, 그 판단이 슬라이드 생성, 스타일 유지, 근거 검색, 발표 스크립트, 리허설 조언으로 일관되게 전파되도록 돕는다.

2. 배경 및 관련 연구 — 자동 슬라이드 생성의 발전과 전달 중심 평가의 공백

문서 요약형 시스템에서 LLM 기반 에이전트로

초기 자동 발표 생성 연구는 과학 문서에서 핵심 문장을 추출해 슬라이드로 옮기는 방식에 가까웠다. DOC2PPT는 문서와 슬라이드 쌍을 이용한 계층적 sequence-to-sequence 모델과 벤치마크를 제시했고, SlideSpawn은 PDF-to-XML 변환, salience ranking, ILP 기반 문장 선택으로 내용을 골랐다. 이 계열의 장점은 원문 근거에 비교적 가까운 추출형 요약이지만, 디자인 일관성, 청중 적합성, 발표 시간, 이야기 흐름은 부차적이었다.

최근에는 대규모 언어 모델과 멀티모달 모델의 발전으로 presentation agent가 더 현실적인 제품 형태가 되었다. LangChain, AutoGPT, AutoGen, CAMEL, MetaGPT 같은 프레임워크는 도구 호출과 멀티 에이전트 조율의 구현 비용을 낮췄고, PPTAgent, PASS, Auto-Slides, PreGenie 같은 연구는 슬라이드 생성, 대화형 수정, speech synthesis, review loop를 결합했다. 상용 시스템인 Manus, Gamma, Qwen, Coze, NotebookLM도 빠른 덱 생성을 제공한다.

기존 시스템의 설계 포인트 비교

Table 1: 프레젠테이션 시스템별 설계 포인트 비교(Table 2 기반)

Design Point	DeepSlide	PPTAgent	Qwen	Coze	Gamma	Manus	NotebookLM
Category I: Content planning & structuring
Requirement elicitation	✓	✗	✗	✗	✗	✗	✗
Source indexing	✓	✓	부분	✗	부분	✗	부분
Outline	✓	✓	✓	✓	✓	✓	✓
Nonlinear narrative	✓	✗	✗	✗	✗	✗	✗
Category II: Delivery & rehearsal assistance
Speech support	✓	✗	✗	✗	✗	✗	✗
Complementarity between slide and script	✓	✗	✗	✗	✗	✗	✗
Timer	✓	✓	✓	✗	✓	✗	✗
Attention strategy	✓	✗	✓	✗	✓	✗	✗
Audio preview	✓	✗	✗	✗	✗	✗	✗

이 표에서 DeepSlide가 돋보이는 부분은 단순 outline을 넘어 요구 수집, source indexing, nonlinear narrative, speech support, slide-script complementarity, timer, attention strategy, audio preview를 한 흐름 안에 배치한다는 점이다. 특히 “발표자가 읽을 말”과 “청중이 볼 화면”을 같은 텍스트로 중복하지 않도록 설계한다는 항목은, 슬라이드 생성기가 발표 준비 도구로 확장될 때 필수적인 기준이다.

평가 방식의 변화: 텍스트 유사도에서 발표 가능성으로

기존 평가도 점차 발전했다. 초기에는 ROUGE, BLEU 같은 요약 지표가 사용되었고, 이후 BERTScore나 MoverScore처럼 의미 유사도를 더 잘 반영하는 지표가 도입되었다. 하지만 텍스트 유사도는 슬라이드의 레이아웃, 시각적 균형, 그림과 텍스트의 정합성, 발표 중 청중의 주의 흐름을 거의 반영하지 못한다. PPTEval, TAE, SlidesGen-Bench, PPTArena, PPTBench 등은 내용·디자인·편집성·시각 추론을 더 넓게 평가하지만, DeepSlide 논문은 여전히 delivery-oriented assessment가 부족하다고 본다.

발표 품질은 청중 중심의 시간적 경험이다. 같은 슬라이드라도 초보자 대상 5분 발표와 연구자 대상 20분 발표에서 좋은 구성은 다르다. 초보자에게는 정의와 직관이 필요하고, 연구자에게는 가정, 비교, ablation, 재현성이 더 중요하다. 투자자나 제품 의사결정자에게는 가치 제안, 차별점, 위험과 로드맵이 더 중요하다. 따라서 DeepSlide는 artifact만 평가하지 않고, 청중 요구와 시간 예산에 맞게 전달되는지를 별도 scoreboard로 본다.

3. 방법론 — 요구 수집, 논리 체인, 근거 생성, 동적 렌더링, 리허설을 잇는 파이프라인

전체 구조: 네 단계의 human-in-the-loop 멀티 에이전트 시스템

Figure 3: Overview of four-stage DeepSlide pipeline.

전체 구조는 Stage 1 요구 수집과 내러티브 제안, Stage 2 논리 체인 편집과 근거 기반 생성, Stage 3 대화형 정제와 주의 지향 증강, Stage 4 리허설과 dual-scoreboard 평가로 구성된다. 그림 하단의 효과 예시는 image focus, text-to-diagram, keynote, data visualization, motion, background, auto layout을 포함한다. 네 단계는 각각 독립 모듈로 닫히지 않고 requirement profile과 logical chain을 공유하는 연속 workflow로 연결되며, 사용자는 중간 산출물을 고치면서 최종 발표 전략을 제어한다.

Stage 1은 사용자의 발표 의도를 문서 내용과 정렬한다. 사용자는 text 또는 speech로 청중, 발표 시간, 강조점, 스타일을 제공하고, 시스템은 이를 requirement profile로 정규화한다. 동시에 업로드된 논문이나 문서에서 content tree를 구축한다. 그 결과 네 가지 time-budgeted narrative logical-chain 후보가 생성된다. 후보가 여러 개인 이유는 발표가 단순 요약을 넘어 storytelling strategy selection까지 요구하기 때문이다.

Stage 2는 선택된 logical chain을 사용자가 편집할 수 있게 한다. 사용자는 노드를 재배열하고, 삽입하고, 삭제하고, 내용을 수정하고, 노드별 시간을 조정할 수 있다. 확정된 노드는 content-tree retrieval을 통해 근거 블록과 연결되고, 각 노드가 하나 이상의 슬라이드와 동기화된 발표 스크립트로 확장된다. 여기서 핵심은 슬라이드와 스크립트가 같은 내용을 반복하지 않고 상보적 역할을 갖도록 만든다는 점이다.

Stage 3는 정적 산출물을 delivery-ready deck으로 바꾼다. 사용자는 대화나 음성으로 슬라이드와 스크립트를 다듬고, 시스템은 planner-executor 방식으로 국소 수정만 수행한다. 또한 복잡한 그림을 zoom/focus로 안내하고, 표를 interactive visualization으로 바꾸며, 긴 텍스트를 diagram으로 변환하고, keynote highlight나 motion cue를 적용한다. Stage 4는 audio preview, slide-level rehearsal tips, likely audience questions, dual-scoreboard 평가와 수정 제안을 제공한다.

Stage 1: requirement elicitation과 content tree

Figure 4: Requirement elicitation and narrative proposal.

Stage 1 그림은 자유 대화로 수집한 요구사항이 content tree와 후보 logical chain으로 변환되는 과정을 보여준다. 사용자 요구는 audience, duration, focus, style 같은 필드로 안정화되고, 문서는 구조적 색인으로 바뀐다. 이후 narrative template selection과 duration-aware allocation이 결합되어 여러 발표 전략 후보가 만들어진다. 즉 이 단계는 “요약을 시작하기 전”에 청중과 시간이라는 제약을 먼저 고정하고, 같은 논문도 다른 목적의 발표로 재구성될 수 있게 하는 기획 계층이다.

Content tree는 단일 문서를 다루는 상황에서 벡터 데이터베이스보다 가볍고, 전체 논문을 매번 LLM에 넣는 방식보다 정밀하다. 논문은 혼합 업로드 형식을 LaTeX로 정규화하고, root file과 input/include 지시를 평탄화하며, section, subsection, equation, figure, table, theorem, algorithm 등 구조 단위로 손실 없이 분할한다. 각 조각에는 LLM이 생성한 abstract가 붙고, 문서 순서를 유지한 노드 시퀀스가 monotonic stack으로 tree 구조에 연결된다.

이 접근은 발표 생성에서 매우 실용적이다. 발표자는 “실험 결과를 먼저 보여주고 ablation으로 설득하라”처럼 의미적 요구를 말하지만, 시스템은 실제 원문에서 관련 figure, table, result paragraph를 찾아야 한다. Content tree는 제목, 계층, 타입, abstract, content를 가진 노드 단위로 검색되므로, coarse outline과 fine evidence 사이를 오갈 수 있다. DeepSlide는 여기에 BM25 점수와 구조적 prior를 더한다.

Stage 2: logical chain editing과 evidence-grounded generation

Figure 5: Logical chain editing and evidence-grounded generation.

Stage 2 그림은 선택된 logical chain을 사용자가 고치고, 각 노드가 content-tree retrieval을 통해 근거와 연결된 뒤 슬라이드와 스크립트로 생성되는 흐름을 나타낸다. BM25 기반 검색, 노드 단위 시간 예산, non-linear cross-reference, sandboxed compilation repair가 함께 동작해 단일 패스 요약보다 발표 제약을 더 직접 반영한다. 특히 검색과 생성 사이에 pacing feedback이 들어가므로, 한 노드가 과도하게 길어지거나 근거 없는 설명으로 확장되는 위험을 줄인다.

검색 단계에서는 Okapi-BM25 index를 content tree 위에 얹는다. LaTeX 명령을 제거하고 긴 span을 제한한 뒤, document length, average length, term document frequency 같은 통계를 미리 계산한다. query가 들어오면 모든 node-document에 대해 base BM25를 계산하고, child-to-parent promotion과 parent-to-child promotion을 적용한다. 앞의 promotion은 하위 절에 강한 근거가 있을 때 상위 section도 경쟁력 있게 만들고, 뒤의 promotion은 넓은 주제어가 상위 제목에만 나타나도 세부 노드가 과도하게 불리하지 않게 한다.

생성 에이전트는 각 logical node를 슬라이드와 스크립트의 짧은 segment로 변환한다. 논문은 단순한 “한 번 검색하고 쓰기”를 넘는 multi-turn loop를 강조한다. 에이전트는 evidence를 검색하고, draft slide를 만들고, pacing을 확인하고, 남은 시간과 내용 밀도에 따라 refine, expand, stop 중 하나를 선택한다. Countdown timer는 말할 시간 추정치를 기준으로 과도한 생성이나 설명 부족을 제어한다.

또한 DeepSlide는 non-linear narrative enhancement를 지원한다. 순차적 outline만 있으면 앞에서 정의한 개념을 나중 결과와 연결하거나, 뒤에 나올 ablation을 미리 암시하는 전환이 약해질 수 있다. 시스템은 노드 사이의 sparse cross-reference를 추가해 bridging을 만들고, compiler debugger는 생성된 슬라이드를 Docker 기반 sandbox에서 렌더링하며 build failure를 탐지하고 최소 수정을 반복한다. 이 구조는 발표 생성을 작성과 검증이 분리된 workflow로 만든다.

Stage-wise agent decomposition

Table 2: 단계별 에이전트와 책임(Table 4 기반)

Agent	Responsibility
Stage 1: Requirement elicitation and narrative proposal
requirements collector	audience, duration, constraints를 requirement profile로 정리
narrative template selector	requirement profile에 맞는 narrative template 선택
logical chain generator	발표를 위한 time-budgeted logical chain 또는 chain graph 생성
Stage 2: Logical chain editing and evidence-grounded generation
logical edge generator	장거리 일관성과 bridging을 위한 sparse cross-node link 추가
semantic matcher	paper section과 content tree node를 logical node에 맞춰 정렬
slide generator	근거를 검색하고 시간 예산 아래 slide와 script를 합성
compiler debugger	컴파일 오류를 탐지하고 성공할 때까지 반복적으로 수리
Stage 3: Interactive slide refinement and attention-oriented augmentation
style agent	slide 간 drift를 줄이기 위한 deck-level style prior 선택

표의 역할 분해는 DeepSlide가 하나의 거대한 prompt로 동작하지 않는다는 점을 보여준다. 각 agent는 bounded task를 수행하고 공유 구조물, 즉 requirement profile, content tree, logical chain, slide/script package, style summary, scoreboard result를 갱신한다. 이 설계는 오류가 발생했을 때 전체를 다시 생성하지 않고 해당 단계나 해당 노드만 고칠 수 있게 하며, human-in-the-loop 편집 지점을 자연스럽게 제공한다.

Stage 3: Markov-style sequential rendering과 attention-oriented augmentation

Figure 6: Interactive slide refinement and attention-oriented augmentation.

Stage 3 그림은 원본 slide sequence가 augmented dynamic sequence로 바뀌는 과정을 나타낸다. 각 슬라이드의 증강 결정은 현재 슬라이드 내용, 사용자 요구, deck-level style summary, 직전 슬라이드 style summary에 의존한다. 이 Markov-style 제어는 템플릿 강제 없이도 연속 슬라이드 간 스타일 상속과 일관성을 유지하려는 장치다. 동시에 deterministic renderer와 browser sandbox를 붙여 자유로운 효과 적용이 레이아웃 붕괴나 실행 오류로 이어지는 문제를 최소 수리 루프 안에서 다룬다.

DeepSlide의 Markov-style sequential rendering은 “모든 슬라이드를 독립적으로 예쁘게 만들기”보다 “이전 슬라이드의 스타일과 현재 슬라이드의 의미를 함께 고려하기”에 가깝다. LLM planner는 현재 slide source, requirement profile, deck-level style, previous-slide summary를 보고 어떤 effect를 적용할지 결정하고, deterministic renderer가 그 결정을 실행한다. 이렇게 하면 템플릿 없는 자유로운 렌더링을 유지하면서도 cross-slide drift를 줄일 수 있다.

Attention augmentation은 네 범주로 나뉜다. Image focus는 복잡한 figure에서 좌우 분할이나 2×2 grid 같은 정해진 ROI template을 선택해 lightbox interaction을 제공한다. Text to diagram은 장황한 텍스트를 diagram specification으로 바꾸고 open-source diagram generator로 렌더링한다. Data visualization은 표를 감지해 ECharts 같은 frontend library로 상호작용 시각화를 만든다. Other effects에는 text keynote, auto layout, motion, background가 포함된다.

논문은 효과 간 충돌을 막기 위해 deterministic gating rule을 둔다. 한 슬라이드는 primary visual effect를 최대 하나만 갖고, 우선순위는 Image Focus, Table Visualization, Text to Diagram 순서다. 구조 인식 조건이 만족되고 effect set이 허용할 때만 해당 효과가 선택된다. 템플릿 없는 augmentation은 렌더링 실패 위험이 있으므로, DeepSlide는 browser sandbox에서 layout/runtime failure를 탐지하고 minimal repair를 수행한다.

Stage 4: rehearsal, audio preview, question simulation

Stage 4는 generated deck을 deliverable talk로 바꾸는 마무리 단계다. 각 slide에 대해 slide, script, per-slide metrics, estimated time consumption을 compact context로 묶고, LLM이 3~6개의 rehearsal tips와 top-3 likely audience questions를 만든다. 예를 들어 “Ablation Study” 슬라이드가 dense table과 긴 bullet list를 포함하고, 스크립트가 슬라이드 텍스트를 대부분 반복하며, 45초 예산에 75초 분량으로 추정되면 “minor ablation 두 개 제거”, “상세 전에 takeaway 먼저 말하기”, “table reading은 appendix로 이동” 같은 조언을 낸다.

Audio preview도 발표자 관점에서 의미가 크다. 논문은 per-slide speech audio preview를 TTS로 합성하고, 사용자의 음성 profile을 audio library와 real-time voiceprint에서 얻는다고 설명한다. 이 기능의 목적은 실제 발표 전에 청중 관점의 청각 경험을 점검하는 것이다. 즉 DeepSlide는 정적 텍스트와 이미지 생성에 머무르지 않고, 말의 길이, 흐름, 반복, 질문 가능성까지 평가 대상에 넣는다.

4. 실험 설정 — artifact scoreboard와 delivery scoreboard를 분리한 벤치마크

비교 대상과 실행 조건

실험은 DeepSlide를 PPTAgent, Qwen, Coze, Gamma, Manus, NotebookLM과 비교한다. PPTAgent는 open-source이고, 나머지는 상용 또는 폐쇄형 시스템으로 분류된다. 논문은 Manus, Coze, NotebookLM처럼 slide content를 이미지로 직접 생성할 수 있는 시스템의 경우 image-as-slide mode를 baseline setting으로 사용했다고 설명한다. 이 설정은 최근 제품 흐름을 반영하지만, 이미지 기반 슬라이드는 element-level editability와 정밀 제어에서 약점을 가질 수 있다.

Table 3: 비교 기준 시스템(Table 5 기반)

System	Open Source	License	Version & Date	URL
Manus	✗	NA	Manus 1.6 Max Pro	https://manus.im/app
Gamma	✗	NA	Gamma Pro	https://gamma.app/
PPTAgent	✓	MIT license	PPTAgent-V2	https://github.com/icip-cas/PPTAgent
Qwen	✗	NA	Qwen3-Max	https://chat.qwen.ai/
NotebookLM	✗	NA	NotebookLM Pro	https://notebooklm.google.com/
Coze	✗	NA	Jan 13–16, 2026	https://www.coze.com/

벤치마크는 총 20개 연구 도메인을 사용한다. 예시로 AI, ML, CV, NLP, robotics, security, software engineering, signal processing, astronomy, high-energy physics, condensed matter physics, quantum physics, pure mathematics 등이 포함된다. 도메인을 넓힌 이유는 발표 생성의 난점이 분야별로 다르기 때문이다. CV나 signal processing 논문은 figure와 ablation이 많고, pure mathematics는 정의와 정리, 증명 흐름이 중요하며, social science 계열은 narrative와 해석의 비중이 커진다.

각 benchmark instance는 source document와 requirement profile의 쌍이다. main experiment에서는 Researcher profile을 기본으로 사용하고, secondary experiment에서는 Audience field만 Engineer, Investor, Newcomer, Researcher, Hybrid로 바꿔 청중별 적합성을 평가한다. case study에서는 BS, MS, PhD 수준 청중과 5분, 10분, 15분 duration sweep을 사용한다. 각 시스템은 일반적으로 5회 실행되어 평균 점수를 보고한다.

Artifact Scoreboard: 정적 산출물의 기본 품질

Artifact Scoreboard는 Stability, Fidelity, Legibility, Aesthetics를 본다. Stability는 usable deck과 slide-script alignment가 성공적으로 생성된 run의 비율이다. Fidelity는 slide text와 speaker script가 원문 source chunk에 얼마나 충실한지 보며, textual fidelity는 ROUGE와 BERTScore를 결합하고 visual fidelity는 visual item이 aligned source로 지지되는 슬라이드 비율을 본다. Legibility는 최소 font size와 word count 같은 규칙 기반 체크를 사용하고, Aesthetics는 VLM judge가 읽기 쉬움과 균형을 고려해 산출한다.

Delivery Scoreboard: 요구 만족, 내러티브, 시간, 주의, 리허설

Delivery Scoreboard는 발표 전체의 전달 가능성을 평가한다. Requirement satisfaction은 duration, audience fit, topic coverage, user priority를 본다. Narrative quality는 후보 plan diversity와 narrative controllability를 반영한다. Complementarity는 slide와 script의 유사도가 너무 낮지도 높지도 않은 sweet spot에 있는지, 스크립트가 핵심 키워드를 충분히 다루는지를 본다. Temporal delivery quality는 script length로 추정한 per-slide speaking time과 transition cue를 평가한다. Attention choreography와 rehearsal readiness는 LLM-as-judge rubric으로 발표 중 주의 안내와 walk-on-stage readiness를 점수화한다.

이 분리 설계는 중요하다. 어떤 시스템은 화려한 정적 슬라이드를 잘 만들 수 있지만 스크립트가 슬라이드 텍스트를 거의 읽는 수준이면 실제 발표 부담은 줄지 않는다. 반대로 delivery cue가 많아도 source fidelity가 약하거나 시각적으로 읽기 어려우면 좋은 발표라고 할 수 없다. DeepSlide는 delivery scoreboard에 artifact fundamentals의 일부를 포함해 “flashy but wrong” presentation이 점수를 얻는 것을 막으려 한다.

5. 주요 실험 결과 — 정적 품질은 유지하고 전달 품질에서 더 큰 차이를 만든다

20개 도메인 main experiment

Figure 1: Main experiment on 20 domains, delivery scoreboard on the left and artifact scoreboard on the right.

이 그림은 20개 도메인에서 delivery scoreboard와 artifact scoreboard를 나누어 보여준다. 논문의 결론은 DeepSlide가 정적 산출물 품질에서는 강한 baseline과 경쟁하면서, 전달 관련 점수에서 더 일관된 이득을 보인다는 것이다. 특히 pacing, narrative flow, slide-script synergy, attention guidance가 artifact-only 접근과 구분되는 핵심 축으로 제시된다.

주요 결과 해석은 “DeepSlide가 모든 artifact 점수에서 항상 압도한다”가 아니다. 더 정확한 해석은 DeepSlide가 강한 baseline과 artifact quality를 맞추면서도, delivery score에서 구조적 우위를 만든다는 것이다. 이는 논문 제목의 “From Artifacts to Presentation Delivery”와 직접 연결된다. 슬라이드 생성의 성공 기준을 static deck quality만으로 잡으면 DeepSlide의 차별성이 일부만 보이지만, 발표 준비 전체를 보면 논리 체인, 시간 예산, 주의 증강, 리허설 조언의 효과가 더 드러난다.

Table 4: Main experiment 일부 도메인 결과(Table 1 기반, Artifact/Delivery 쌍)

Method	AI A	AI D	ML A	ML D	CV A	CV D	NLP A	NLP D	Robo A	Robo D	Sec A	Sec D	SE A	SE D
PPTAgent	0.82	0.56	0.80	0.54	0.80	0.54	0.80	0.70	0.83	0.64	0.79	0.64	0.80	0.61
Qwen	0.73	0.61	0.76	0.61	0.75	0.62	0.76	0.59	0.76	0.60	0.73	0.59	0.77	0.60
Coze	0.78	0.50	0.80	0.52	0.81	0.52	0.81	0.49	0.81	0.54	0.74	0.45	0.68	0.41
Gamma	0.84	0.76	0.83	0.76	0.81	0.74	0.81	0.74	0.82	0.76	0.82	0.75	0.80	0.75
Manus	0.82	0.75	0.84	0.75	0.75	0.73	0.82	0.71	0.60	0.58	0.84	0.75	0.84	0.75
NotebookLM	0.75	0.46	0.81	0.49	0.77	0.46	0.80	0.49	0.81	0.50	0.81	0.49	0.75	0.47
DeepSlide	0.83	0.76	0.93	0.78	0.85	0.77	0.93	0.74	0.86	0.77	0.83	0.74	0.82	0.75

표의 일부 도메인만 보아도 DeepSlide의 성격이 보인다. AI 도메인에서는 Artifact 0.83, Delivery 0.76으로 Gamma와 유사한 delivery 수준을 보이고, ML에서는 Artifact 0.93, Delivery 0.78로 높은 값을 보인다. CV에서도 Artifact 0.85, Delivery 0.77이다. NLP에서는 Artifact 0.93이 두드러지지만 Delivery는 0.74로 Gamma와 비슷한 수준이다. 즉 DeepSlide는 시각적 품질만을 일방적으로 높이는 데 그치지 않고, 분야에 따라 artifact와 delivery의 균형을 맞추는 결과를 낸다.

세부 metric: DeepSlide가 어디서 차이를 내는가

Table 5: Supplementary detailed metrics 일부(Table 7 기반, AI와 ML 도메인)

Method	AI P	AI Ft	AI Fv	AI L	AI R	AI C	AI T	AI N	ML P	ML Ft	ML Fv	ML L	ML R	ML C	ML T	ML N
DeepSlide	1.00	0.95	1.00	0.99	0.74	0.85	0.57	0.54	1.00	0.95	0.67	1.00	0.74	0.85	0.61	0.54
PPTAgent	1.00	0.90	0.33	0.90	0.55	0.27	0.27	0.41	1.00	0.93	0.00	0.95	0.71	0.24	0.55	0.55
Qwen	1.00	0.72	0.00	0.83	0.40	0.44	0.51	0.52	1.00	0.84	0.00	0.84	0.50	0.34	0.48	0.52
Coze	1.00	0.91	0.00	0.89	0.72	0.18	0.57	0.55	1.00	0.92	0.00	0.98	0.74	0.30	0.59	0.55
Gamma	1.00	0.95	0.00	0.98	0.74	0.85	0.60	0.55	1.00	0.95	0.05	0.94	0.74	0.85	0.61	0.55
Manus	1.00	0.95	0.25	0.94	0.74	0.84	0.60	0.55	1.00	0.95	0.00	1.00	0.74	0.85	0.63	0.54
NotebookLM	1.00	0.75	0.00	1.00	0.64	0.12	0.58	0.55	1.00	0.94	0.00	0.99	0.73	0.12	0.61	0.56

세부 지표를 보면 DeepSlide는 Stability P와 textual fidelity Ft에서 강하고, 일부 도메인에서는 visual fidelity Fv도 높다. 더 주목할 지점은 C, T, N 같은 delivery 관련 항목이다. AI 도메인에서 DeepSlide의 complementarity C는 0.85로 높고, PPTAgent의 0.27, NotebookLM의 0.12와 큰 차이를 보인다. 이는 DeepSlide가 스크립트를 슬라이드의 복사본으로 만들지 않고, 화면에는 핵심 anchor를 두고 구두 설명에 세부를 위임하는 설계와 맞물린다.

Audience-specific evaluation

Figure 7: Secondary experiment on audience-specific evaluation.

청중별 실험은 Engineer, Investor, Newcomer, Researcher, Hybrid처럼 audience field를 바꾸어 같은 발표 생성 시스템이 요구 변화에 얼마나 대응하는지 본다. DeepSlide의 강점은 requirement elicitation과 logical-chain planning이 청중 조건을 먼저 구조화하기 때문에, 단순 프롬프트 치환보다 발표 깊이와 용어 수준, 강조점 조절을 더 체계적으로 수행한다는 데 있다.

청중별 평가가 중요한 이유는 같은 논문이라도 좋은 발표의 기준이 달라지기 때문이다. Engineer profile에서는 module boundary, implementation detail, failure mode, deployment trade-off가 중요하다. Investor profile에서는 value proposition, differentiation, risk, roadmap이 중요하고, Newcomer profile에서는 intuition, definition, progressive disclosure가 중요하다. DeepSlide는 requirement profile을 먼저 고정하고 logical chain에 시간 예산을 배분하기 때문에, 청중별 요구가 슬라이드 구조와 스크립트 길이에 반영될 여지가 크다.

반대로 artifact-only generator는 같은 source를 다른 청중에게 보여줄 때 표면적인 문체나 난이도만 바꾸기 쉽다. DeepSlide의 논문은 audience-specific evaluation을 통해 “청중 조건을 단순 텍스트 스타일로 다루는 것”과 “발표의 논리 구조와 시간 배분을 바꾸는 것”의 차이를 강조한다. 이는 교육, 연구 세미나, 제품 설명, 투자 pitch처럼 같은 자료를 여러 맥락에서 재사용해야 하는 상황에 직접 연결된다.

6. 추가 분석 및 Ablation Study — 구성요소 제거가 보여주는 전달 중심 설계의 민감도

Logical chain 제거가 delivery score에 미치는 영향

Table 6: 핵심 구성요소 제거의 Delivery Scoreboard 영향(Table 3 기반, Case 3)

Method	Delivery S	P	C	T	N
DeepSlide	0.68	0.75	0.86	0.61	0.55
w/o BM25 content tree retriever	0.67 (-0.01)	0.74 (-0.01)	0.85 (-0.01)	0.59 (-0.02)	0.54 (-0.01)
w/o logical chain	0.44 (-0.24)	0.12 (-0.63)	0.10 (-0.76)	0.36 (-0.25)	0.53 (-0.02)
w/o logical chain recommender	0.68 (-0.00)	0.71 (-0.04)	0.85 (-0.01)	0.60 (-0.01)	0.53 (-0.02)

Ablation에서 가장 큰 메시지는 logical chain 제거가 delivery score를 크게 떨어뜨린다는 점이다. BM25 content tree retriever 제거는 Delivery S가 0.68에서 0.67로 소폭 하락하는 데 그치지만, logical chain 제거는 0.44로 떨어진다. 특히 P 항목은 0.75에서 0.12로, C 항목은 0.86에서 0.10으로 크게 하락한다. 이는 발표 전달 품질이 단순 근거 검색보다 “말할 순서와 시간 배분을 가진 narrative scaffold”에 훨씬 민감하다는 해석을 가능하게 한다.

흥미로운 점은 w/o logical chain recommender가 총 Delivery S에서는 거의 변하지 않지만 P, T, N 일부가 낮아진다는 것이다. 이는 사용자가 선택하고 수정할 logical chain 자체가 있으면 추천기 부재의 손실은 제한적일 수 있지만, 후보 다양성과 초기 구조화가 pacing과 narrative controllability에는 영향을 줄 수 있음을 시사한다. 즉 DeepSlide의 핵심은 자동 추천기 하나에 갇히지 않고 logical-chain artifact를 명시적으로 만들고 편집 가능하게 유지하는 설계다.

Case study: 청중 수준과 시간 예산 변화

Figure 8: DeepSlide vs. Manus with audience levels and duration budgets.

Case 1은 BS, MS, PhD 수준 청중과 5분, 10분, 15분 duration을 바꾸며 DeepSlide와 Manus를 비교한다. 그림은 DeepSlide가 요구 변화에 따라 더 안정적이고 제어 가능한 narrative outcome을 만든다는 해석을 뒷받침한다. 이는 requirement-aware planning과 recommended logical chain이 깊이, 용어, 배경 설명량을 조절하는 기반이 되기 때문이다.

청중 수준 sweep은 DeepSlide의 사용 시나리오를 잘 보여준다. BS 수준 청중에게는 정의, 직관, 예시가 먼저 나와야 하고, PhD 수준 청중에게는 가정, novelty, ablation, failure mode가 더 빨리 등장해도 된다. 시간 예산도 5분이면 문제-핵심 아이디어-대표 결과-한계 정도로 압축해야 하고, 15분이면 retrieval, rendering, rehearsal, scoreboard를 분리해 설명할 수 있다. DeepSlide의 logical chain은 이런 차이를 노드와 per-node duration으로 표현한다.

Retrieval hyperparameter와 domain별 근거 분산

논문은 truncation length와 retrieval depth에 대한 추가 분석도 제시한다. truncation length를 4096, 8192, 16384로 바꾸면 artifact score는 4096에서 peak를 보인 뒤 안정화되고, delivery score는 거의 변하지 않는다. 이는 지나치게 긴 context가 검색 노이즈를 늘릴 수 있지만, delivery 품질은 content truncation보다 logical chain, pacing, complementarity 같은 상위 구조에 더 의존한다는 해석을 낳는다.

Retrieval depth K를 3, 5, 7로 바꾼 실험에서는 CV 논문에서 non-monotonic 현상이 나타난다. K=3은 가장 관련성 높은 노드에 집중해 artifact quality를 유지하지만, K=5는 노이즈를 주입할 수 있고, K=7은 ablation과 qualitative figure처럼 흩어진 근거를 더 잘 회수해 visual recall과 전체 점수를 개선한다. 이는 분야별 evidence distribution이 다르기 때문에 고정된 retrieval depth가 항상 최적이라고 보기 어렵다는 점을 보여준다.

에이전트별 모델 설정의 의미

Table 7: DeepSlide 일부 에이전트별 모델 설정(추출 표 데이터 기반)

Stage	Agent	Model
Stage 1	requirements collector	deepseek-chat
Stage 1	narrative template selector	deepseek-chat
Stage 1	logical chain generator	deepseek-chat
Stage 2	logical edge generator	deepseek-chat
Stage 2	semantic matcher	deepseek-chat
Stage 2	slide generator	gpt-5-mini
Stage 2	compiler debugger	deepseek-chat
Stage 3	style agent	deepseek-chat

이 모델 설정은 DeepSlide가 모든 하위 작업에 가장 비싼 모델에 의존하는 구조로 보기 어렵다는 점을 시사한다. requirement collection, template selection, edge generation, semantic matching처럼 비교적 구조화된 작업에는 저비용 모델을 쓰고, artifact와 delivery score에 직접 영향을 주는 slide generation에는 더 강한 모델을 배치한다. 이는 실제 시스템 설계에서 task difficulty와 cost profile을 분리하는 중요한 운영 전략이다.

7. 한계점 및 향후 연구 방향 — 자동 평가와 실제 발표 경험 사이의 간극

자동 delivery scoreboard의 장점과 한계

DeepSlide의 delivery scoreboard는 기존 artifact-only 평가보다 훨씬 발표 지향적이다. 하지만 논문 자체도 human factors의 한계를 인정한다. 자동 지표와 LLM-as-judge는 반복 가능하고 세부적인 진단을 제공하지만, 실제 청중의 engagement, trust, cognitive load, 발표자의 긴장과 회복, 현장 질문의 난이도, 발표 후 이해 지속성까지 완전히 측정하지는 못한다. 특히 발표는 한 번의 덱 생성 결과에 그치지 않고, 발표자가 반복 리허설을 하며 표현을 고치고 청중 반응에 적응하는 시간적 과정이다.

따라서 중요한 약점은 평가가 사람 발표자의 실제 장기 리허설과 현장 전달까지 충분히 직접 측정하는지 제한적이라는 점이다. DeepSlide는 audio preview와 rehearsal tips, likely audience questions를 제공하지만, 논문 실험의 scoreboard는 주로 생성된 slide-script package와 자동 judge에 기반한다. 발표자가 며칠 동안 연습하면서 어떤 슬라이드를 고치고 어떤 설명을 줄이며 어떤 질문에 막히는지까지 장기적으로 추적한 실험은 아직 부족하다.

효과 범위와 안정성의 trade-off

Attention augmentation도 현재는 lightweight하고 controllable한 effect에 초점을 둔다. Image focus, table visualization, text-to-diagram, keynote, motion, background, auto layout은 발표 가독성과 주의 유도에 유용하지만, 더 풍부한 multimodal asset, 복잡한 애니메이션, 실시간 상호작용, 청중 반응 기반 적응으로 확장하면 렌더링 안정성, 의미 보존, 저작권, 접근성 문제가 커진다. DeepSlide가 deterministic gating과 sandbox repair를 둔 이유도 이런 위험을 줄이기 위해서다.

또 다른 한계는 source document 중심성이다. 논문은 필요하면 web search를 사용할 수 있다고 설명하지만, 기본 흐름은 업로드 자료에서 근거를 검색하고 발표를 만든다. 실제 산업 발표나 교육 발표는 내부 문서, 코드, 실험 로그, 고객 피드백, 이전 발표 자료, 발표자의 선호 스타일이 섞인다. future system은 single-document content tree를 multi-source evidence graph로 확장하면서도, 근거 추적성과 발표 시간 제어를 유지해야 한다.

후속 제안: 실제 발표 로그로 scoreboard를 calibration하기

가장 유망한 후속 방향은 실제 발표 로그, 청중 반응, 발표자 수정 기록을 시간축으로 수집해 delivery scoreboard를 calibration하는 것이다. 예를 들어 리허설별 script edit history, slide dwell time, 발화 속도, pause 위치, 발표 중 되돌아간 슬라이드, 청중 질문 유형, 설문 기반 이해도, 발표 후 수정 요청을 함께 기록하면, 자동 지표가 실제 전달 성공을 얼마나 예측하는지 검증할 수 있다.

이 데이터가 쌓이면 supervised finetuning과 reinforcement learning도 더 의미 있게 적용될 수 있다. 논문은 delivery objective에 맞춘 model adaptation을 향후 방향으로 제안한다. logical chain consistency, slide-script alignment, pacing/coherence dimension, rehearsal-time user feedback을 reward로 삼으면, 시스템은 특정 발표자의 속도와 특정 청중의 배경에 더 잘 맞는 정책을 학습할 수 있다. 다만 이때도 presentation setting에서 요구되는 controllability와 safety constraints를 잃지 않아야 한다.

8. 내 해석 — DeepSlide는 발표 생성을 구조화된 LLM 워크플로 컴파일 문제로 바꾼다

structured-llm-workflow-compilation 관점

기존 위키의 structured-llm-workflow-compilation 맥락에서 보면 DeepSlide는 발표 생성을 하나의 컴파일 파이프라인으로 재해석한다. 입력은 source document와 requirement dialogue이고, 중간 표현은 requirement profile, content tree, logical chain, cross-reference, slide-script pair, style summary, effect plan, scoreboard result다. 출력은 deck artifact와 함께 rehearsal advice와 likely questions까지 포함하는 delivery package다. 중요한 점은 자연어 프롬프트가 바로 최종 산출물로 직행하지 않고, 검증 가능한 중간 표현을 거쳐 점진적으로 lower-level artifact로 내려간다는 것이다.

컴파일 관점의 장점은 오류 위치가 드러난다는 데 있다. 발표가 산만하면 logical chain이나 cross-reference를 점검할 수 있고, 근거가 약하면 content-tree retrieval을 점검할 수 있으며, 시간이 넘치면 per-node duration과 script length를 점검할 수 있다. 렌더링이 깨지면 sandboxed compiler debugger가 layout/runtime failure를 최소 수정한다. 즉 DeepSlide는 LLM을 단일 생성기로만 쓰지 않고 중간 표현을 변환하고 검증하는 compiler pass들의 집합으로 사용한다.

meta-agent-runtime-substrate 관점

meta-agent-runtime-substrate 관점에서는 DeepSlide가 발표 생성이라는 application을 위해 agent runtime의 여러 필수 요소를 묶은 사례로 보인다. role-based agents, shared state, tool calling, retrieval, deterministic renderer, browser sandbox, TTS, scoring judge, user feedback loop가 모두 존재한다. 각 agent는 독립적으로 최종 답만 만들지 않고, runtime substrate 위에서 특정 artifact를 읽고 쓰며 다음 단계의 입력을 만든다.

이 구조는 agentic system의 운영 문제도 잘 드러낸다. 어떤 agent에 어떤 모델을 배정할지, 언제 사용자 승인과 편집을 요구할지, tool failure를 어느 단계에서 repair할지, 자동 judge의 점수를 어떻게 수정 제안으로 번역할지 같은 문제는 모델 성능만으로 해결되지 않는다. DeepSlide는 stage-wise decomposition과 dual-scoreboard를 통해 runtime substrate가 가져야 할 관측 가능성, 국소 수리성, 비용 제어성을 비교적 명확히 보여준다.

agent-tool-contract 관점

agent-tool-contract 관점에서 DeepSlide의 도구들은 단순 helper를 넘어 계약을 가진 모듈이다. Content-tree retriever는 query와 node를 받아 근거 후보를 반환해야 하고, slide generator는 logical node와 evidence와 time budget을 받아 slide-script pair를 생성해야 하며, renderer는 effect plan을 안정적으로 실행해야 한다. Compiler debugger는 실패를 감지하고 최소 수정만 해야 하며, scoreboard judge는 artifact와 delivery 차원을 분리해 점수를 산출해야 한다.

이 계약이 명확할수록 human-in-the-loop도 자연스러워진다. 사용자는 “이 슬라이드 예쁘게 해줘”라는 모호한 요청만 하는 대신, logical node의 순서를 바꾸거나, duration을 줄이거나, figure focus를 켜거나, script redundancy를 낮추는 식으로 중간 표현에 개입할 수 있다. DeepSlide가 전달 중심 시스템으로 의미 있는 이유는 이 개입점들이 발표자의 실제 사고 과정과 맞닿아 있기 때문이다.

연구적 의미와 실용적 의미

연구적으로 DeepSlide는 slide generation을 multimodal generation task에서 audience-conditioned workflow optimization 문제로 끌어올린다. 생성 품질은 더 이상 이미지-텍스트 정합성이나 레이아웃에 머물지 않고, 발표자가 제한된 시간에 어떤 순서로 말해야 청중이 이해하는지까지 포함한다. 이는 과학 커뮤니케이션, 교육 콘텐츠 제작, 제품 데모, 투자 발표처럼 “같은 사실을 다른 사람에게 다르게 전달해야 하는” 모든 영역과 연결된다.

실용적으로는 조직 내부 지식 전달에도 의미가 있다. 연구팀이 새 논문을 읽고 세미나를 준비하거나, 엔지니어가 기술 설계를 PM에게 설명하거나, 창업팀이 투자자에게 기술적 차별점을 설명할 때, 발표 준비의 병목은 항상 source understanding과 audience adaptation 사이에 있다. DeepSlide의 content tree와 logical chain은 이 병목을 명시적 구조물로 만들고, dual-scoreboard는 생성 결과를 어느 방향으로 고칠지 알려준다.

다만 내 해석에서 가장 조심해야 할 부분은 DeepSlide가 평가에서 보여준 delivery gain이 실제 현장 발표 성과와 완전히 동일하다고 단정하면 안 된다는 점이다. 자동 scoreboard는 훌륭한 proxy지만, 발표자의 발화 습관, 청중의 피로도, 질문 문화, 현장 장비, 시간 압박 같은 변수를 모두 담지는 못한다. 그래서 앞서 제안한 실제 발표 로그 기반 calibration이 DeepSlide류 시스템의 다음 단계라고 본다.

9. 결론 — 발표 준비 자동화의 기준을 다시 세운 시스템

DeepSlide는 AI slide generator의 평가 기준을 “보기 좋은 슬라이드가 나왔는가”에서 “발표자가 실제로 전달 가능한 talk package를 얻었는가”로 이동시킨다. 이를 위해 요구 수집, content-tree 기반 BM25 retrieval, time-budgeted logical-chain planning/editing, evidence-grounded slide/script generation, Markov-style style inheritance, sandboxed execution과 minimal repair, attention-oriented augmentation, rehearsal support, dual-scoreboard evaluation을 하나의 multi-agent pipeline으로 엮었다.

핵심 기여는 두 가지로 압축된다. 첫째, 생성 과정에서 논리 체인을 명시적 중간 표현으로 둔 점이다. Ablation에서 logical chain 제거가 delivery score를 크게 떨어뜨린 결과는, 발표 전달 품질이 시각적 레이아웃보다 narrative scaffold와 pacing control에 크게 의존한다는 사실을 보여준다. 둘째, 평가에서 artifact와 delivery를 분리한 점이다. 이 분리는 기존 시스템이 잘하는 부분과 DeepSlide가 새로 개선하려는 부분을 혼동하지 않게 한다.

방법론적으로는 완전히 새로운 단일 모델을 제안하기보다, 기존 LLM과 VLM, retrieval, renderer, TTS, judge를 어떻게 조직해야 presentation delivery라는 목표에 가까워지는지를 보여준다. 이는 최근 agent 연구에서 중요한 방향이다. 강한 모델 하나보다, 중간 표현과 도구 계약과 검증 루프를 잘 설계한 시스템이 복잡한 작업에서 더 신뢰할 수 있는 결과를 낼 수 있다.

실험적으로 DeepSlide는 20개 도메인과 여러 청중 프로필에서 artifact quality를 유지하면서 delivery quality를 더 안정적으로 개선한다. 특히 slide-script complementarity, narrative control, pacing, attention guidance가 핵심 차별점이다. 한계는 실제 장기 리허설과 현장 청중 반응을 직접 측정하는 수준까지는 아직 가지 못했다는 점이며, 후속 연구는 실제 발표 로그를 이용해 scoreboard를 calibration하고 personalized delivery policy를 학습하는 방향으로 나아갈 수 있다.

결과를 읽을 때 주의할 점

DeepSlide의 결과를 해석할 때 가장 먼저 분리해야 하는 것은 “좋은 슬라이드”와 “좋은 발표”의 차이다. 예쁜 배경, 정돈된 카드형 레이아웃, 많은 그림, 안정적인 렌더링은 artifact score를 높일 수 있다. 그러나 발표자가 그 슬라이드를 보고 어떤 순서로 말해야 하는지, 청중이 어느 시점에 무엇을 봐야 하는지, 스크립트가 화면 내용을 반복하지 않고 보완하는지, 제한 시간 안에 핵심 주장이 끝나는지는 별도의 문제다. 논문이 delivery scoreboard를 따로 둔 것은 이 차이를 평가 프로토콜의 중심에 놓기 위해서다. 그래서 DeepSlide의 성능을 볼 때도 절대 점수 하나보다, artifact와 delivery 사이의 간극이 어떤 시스템에서 어떻게 벌어지는지를 보는 편이 더 정확하다.

Table 1과 Table 7의 수치를 함께 보면 DeepSlide의 강점은 시각적 산출물보다 slide-script coordination에서 더 분명해진다. 예를 들어 AI 도메인에서 DeepSlide는 complementarity가 높게 나오며, 이는 화면에는 핵심 bullet과 visual anchor를 남기고 구두 스크립트에는 배경, 근거, 전환을 맡기는 설계와 맞다. 반대로 어떤 baseline은 안정적으로 덱을 만들더라도 스크립트가 슬라이드 텍스트를 거의 다시 읽거나, 요구사항에 맞춘 시간 배분이 약하면 delivery score가 낮아질 수 있다. 이 차이는 실제 발표자가 체감하는 준비 부담과도 맞닿아 있다.

또한 DeepSlide가 모든 상황에서 가장 좋은 artifact generator라고 읽는 것은 과한 해석이다. Gamma나 Manus 같은 시스템은 특정 도메인에서 artifact score가 높고, 빠른 시각적 초안 제작에는 강점이 있다. DeepSlide의 논점은 그 강점을 부정하기보다, 발표 준비의 남은 비용이 narrative planning, evidence selection, pacing rehearsal, attention control에 있다는 점을 실험적으로 드러내는 것이다. 따라서 실제 사용에서는 빠른 초안 도구와 DeepSlide식 delivery workflow가 결합될 수도 있고, 조직 내부 발표 자동화에서는 두 종류의 도구가 서로 다른 단계에 배치될 수도 있다.

구현 관점에서 중요한 세부 설계

Content tree와 BM25 retrieval은 화려한 구성요소처럼 보이지 않지만, 단일 논문 발표 준비에서는 매우 실용적인 선택이다. 벡터 데이터베이스는 여러 문서를 장기적으로 검색할 때 강하지만, 단일 논문이나 소수 문서를 대상으로 빠르게 발표를 만들 때는 인덱스 구축 비용과 근사 검색 관리가 과할 수 있다. DeepSlide는 문서 구조를 보존한 content tree를 만들고, artifact slice를 원자 단위로 유지하며, abstract와 hierarchy를 함께 활용한다. 이 구조 덕분에 figure, table, theorem, algorithm 같은 발표 핵심 근거가 일반 문단 속에 섞여 사라지지 않는다.

Logical chain은 사용자 인터페이스 측면에서도 중요한 발명이다. 사용자는 “더 쉽게 설명해줘”나 “이 부분을 앞에 배치해줘”처럼 자연어로 요청할 수 있지만, 시스템 내부에서는 그것이 node reorder, node insertion, duration adjustment, cross-reference addition으로 변환된다. 즉 logical chain은 발표자의 의도를 시스템이 실행 가능한 편집 작업으로 바꾸는 제어면이다. 이 제어면이 없으면 사용자는 최종 슬라이드 텍스트를 직접 고치는 수준에 머물기 쉽고, 발표 전체의 흐름이나 시간 배분을 안정적으로 바꾸기 어렵다.

Sandboxed execution과 minimal repair도 실제 제품화에서 큰 의미가 있다. LLM이 HTML, SVG, 프론트엔드 효과, 애니메이션을 생성하면 시각적으로는 그럴듯해도 런타임 오류, overflow, 잘린 텍스트, 잘못된 z-index, 깨진 이미지 reference가 쉽게 발생한다. DeepSlide는 렌더링을 단순 후처리로 보지 않고, 생성 과정의 검증 단계로 넣는다. 더 중요한 점은 repair가 전체 재생성을 피하고 최소 수정으로 제한되어야 한다는 점이다. 전체를 다시 만들면 이미 사용자가 승인한 내용과 스타일이 흔들릴 수 있기 때문이다.

평가 프로토콜의 확장 가능성

Dual-scoreboard는 presentation agent를 넘어 다른 AI 문서 생성 작업에도 응용할 수 있다. 예를 들어 보고서 생성에서는 artifact score가 문서 완성도, 근거 충실도, 레이아웃이라면 delivery에 해당하는 축은 의사결정 지원성, 독자별 우선순위 반영, 회의 중 설명 가능성일 수 있다. 교육 자료 생성에서는 artifact score가 교안의 정확성과 가독성이라면 delivery 축은 학습자의 오개념 교정, 난이도 조절, 수업 시간 흐름이 될 수 있다. DeepSlide의 가장 넓은 의미는 생성물을 정적 파일로 보지 않고 사용 맥락 속의 행동 가능성으로 평가해야 한다는 문제 제기다.

다만 scoreboard가 늘어나면 metric gaming의 위험도 커진다. 시스템이 complementarity를 높이기 위해 의도적으로 slide와 script를 어긋나게 만들거나, attention cue 점수를 높이려고 불필요한 효과를 넣거나, timing score를 맞추려고 중요한 설명을 과도하게 압축할 수 있다. 논문은 delivery scoreboard에 artifact fundamentals 일부를 포함해 이런 위험을 줄이려 하지만, 장기적으로는 사람 평가와 실제 사용 로그가 필요하다. 점수는 발표 성공의 대리변수이지, 발표 성공 그 자체가 아니다.

개인화된 발표 코치로 확장될 가능성

DeepSlide가 Stage 4에서 rehearsal tips와 likely audience questions를 생성하는 방식은 개인화된 발표 코치로 확장될 여지가 크다. 현재는 slide, script, per-slide metrics, estimated time을 바탕으로 조언을 만들지만, 실제 발표자의 평균 발화 속도, 자주 멈추는 지점, 질문에 답할 때 사용하는 표현, 특정 개념을 길게 설명하는 습관이 기록되면 더 정밀한 피드백이 가능하다. 예를 들어 어떤 발표자는 technical detail을 과도하게 말해 시간을 넘기고, 다른 발표자는 transition을 생략해 청중이 논리 점프를 느낄 수 있다. 이런 차이는 일반 scoreboard만으로는 충분히 잡기 어렵다.

청중 반응 데이터가 들어오면 logical chain 자체도 학습 대상이 된다. 초보자 청중이 특정 정의 슬라이드 뒤에서 질문을 많이 한다면 다음 버전의 chain은 배경 설명 노드를 앞에 추가하거나, text-to-diagram 효과를 강화할 수 있다. 연구자 청중이 ablation 근거를 더 요구한다면, 결과 슬라이드 뒤에 component contribution을 설명하는 노드를 배치할 수 있다. 이처럼 발표 로그, 질문 로그, 수정 로그를 시간축으로 모으면 DeepSlide의 delivery scoreboard는 정적인 평가표를 넘어 지속적으로 calibration되는 coaching signal이 될 수 있다.

왜 이 논문이 발표 생성 연구에서 중요하게 보이는가

DeepSlide의 독창성은 개별 요소가 모두 처음이라는 데 있지 않다. 요구 수집, retrieval, slide generation, TTS, LLM judge, sandbox repair는 각각 다른 시스템에도 존재할 수 있다. 중요한 점은 이 요소들을 발표 전달이라는 목표 아래 하나의 end-to-end workflow로 묶고, 평가 역시 그 목표에 맞게 재구성했다는 것이다. 특히 logical chain과 dual-scoreboard는 시스템 구성과 평가 구성을 서로 맞물리게 만든다. 시스템은 logical chain으로 delivery를 설계하고, 평가는 delivery scoreboard로 그 설계가 실제 산출물에 반영됐는지 확인한다.

이 구조는 향후 에이전트 연구의 기준에도 영향을 줄 수 있다. 복잡한 실제 업무에서는 단일 출력물의 품질보다, 사용자가 중간에 개입할 수 있는 표현, 도구가 실패했을 때 복구할 수 있는 경로, 결과를 다면적으로 진단하는 평가 체계가 중요하다. DeepSlide는 발표 생성이라는 구체적 과제를 통해 이런 원칙을 비교적 선명하게 보여준다. 그래서 논문을 단순한 slide generator 논문으로만 읽기보다, 구조화된 에이전트 워크플로가 인간 커뮤니케이션 작업을 어떻게 보조할 수 있는가를 다룬 사례로 읽는 편이 생산적이다.

마지막으로, DeepSlide는 “AI가 발표를 대신한다”는 방향보다 “AI가 발표자가 더 나은 결정을 하도록 중간 구조와 피드백을 제공한다”는 방향에 가깝다. 발표자는 여전히 목표를 정하고, 청중을 이해하고, 어떤 주장을 강조할지 선택해야 한다. 시스템은 그 선택이 흐트러지지 않도록 근거를 찾고, 슬라이드와 말을 나누고, 시간을 맞추고, 주의 cue를 배치하고, 리허설 피드백을 준다. 이 인간-시스템 역할 분담이 유지될 때 DeepSlide의 human-in-the-loop 설계가 가장 큰 가치를 낼 수 있다.

실제 도입 시 예상되는 운영 체크리스트

DeepSlide형 시스템을 실제 연구실이나 기업에 도입하려면 먼저 source ingestion의 신뢰성을 점검해야 한다. 논문은 LaTeX, Markdown, Word, PDF, nested archive를 통합적으로 처리하는 흐름을 제시하지만, 현장 문서는 그림 파일 누락, 잘못된 표 캡션, 사내 링크, 보안 문서, 실험 로그, 코드 조각이 섞여 있다. Content tree가 제대로 작동하려면 structural heading, figure/table boundary, bibliography, appendix, supplementary material을 일관되게 분리해야 한다. 이 전처리가 흔들리면 downstream retrieval과 slide grounding이 모두 약해진다.

두 번째 체크포인트는 requirement profile의 품질이다. 발표 생성 실패는 모델이 내용을 모르는 경우보다, 청중과 목표가 모호한 경우에 자주 발생한다. “전문가 대상 20분 발표”와 “신규 입사자 대상 20분 온보딩”은 같은 source를 쓰더라도 logical chain, 예시, 용어, 배경 설명량이 완전히 달라야 한다. 따라서 requirement collector는 audience, duration, focus, style과 함께 발표 맥락, 발표 후 기대 행동, 질의응답 시간, 반드시 피해야 할 과장 표현까지 수집하는 방향으로 확장될 수 있다.

세 번째는 human approval gate의 위치다. DeepSlide는 사람이 logical chain을 선택하고 수정하는 구조를 갖지만, 실제 제품에서는 어느 단계에서 사용자의 승인을 요구할지 더 세밀한 정책이 필요하다. 예를 들어 chain 후보 선택 전에는 빠르게 여러 안을 보여주고, 근거 기반 슬라이드 생성 전에는 핵심 주장과 증거 매핑을 승인받고, attention augmentation 전에는 효과의 강도를 선택하게 할 수 있다. 이렇게 gate를 두면 사용자는 최종 덱을 통째로 고치는 대신 발표 의사결정의 상위 단계에서 개입할 수 있다.

네 번째는 observability다. Scoreboard가 유용하려면 단순 총점보다 어떤 슬라이드에서 어떤 metric이 나빠졌는지 추적해야 한다. 특정 슬라이드의 script similarity가 너무 높아 complementarity가 낮은지, title이 비어 narrative controllability가 낮은지, estimated time이 budget을 넘기는지, figure focus가 script의 언급 순서와 맞지 않는지를 보여줘야 한다. DeepSlide의 dual-scoreboard는 이 방향의 출발점이며, 운영 환경에서는 slide-level diff와 metric-level rationale이 함께 제공될수록 수정 효율이 높아진다.

다섯 번째는 접근성과 배포 형식이다. 발표 전달 품질은 시각 효과가 많다고 좋아지는 것이 아니다. 작은 화면, 빔프로젝터, 색각 다양성, 네트워크 없는 환경, PDF export, PPTX export, 브라우저 기반 발표, 녹화 발표처럼 실행 환경이 달라지면 attention effect의 의미가 달라진다. Image focus나 interactive visualization은 웹 발표에서는 강력하지만 PDF 배포에서는 정적 대체 화면이 필요하다. 따라서 renderer는 dynamic deck과 static fallback을 함께 생성하고, scoreboard도 실행 환경별로 조정될 필요가 있다.

여섯 번째는 보안과 개인정보다. DeepSlide가 발표자의 voice profile, rehearsal audio, 내부 문서, 청중 반응 로그를 다루게 되면 단순 문서 생성 도구보다 민감한 데이터를 처리한다. TTS용 voiceprint, 사내 실험 결과, 미공개 논문, 투자자 발표 자료는 외부 API 호출과 저장 정책을 엄격히 관리해야 한다. Agent-tool-contract 관점에서는 어떤 도구가 어떤 데이터를 외부로 보낼 수 있는지, sandbox가 어떤 파일에 접근할 수 있는지, 로그가 얼마나 오래 보존되는지까지 계약에 포함되어야 한다.

마지막으로, DeepSlide의 연구 방향은 “생성 모델 성능 향상”만으로 닫히지 않는다. 발표는 사람과 청중 사이의 상호작용이므로, 좋은 후속 연구는 모델, 인터페이스, 평가, 데이터 수집을 함께 다뤄야 한다. 실제 발표 로그를 이용한 calibration, 청중별 이해도 예측, 발표자별 발화 속도 개인화, interactive effect의 접근성 평가, slide-script redundancy의 인간 선호도 분석이 결합될 때 delivery scoreboard는 더 신뢰할 수 있는 지표가 된다. DeepSlide는 그 통합 연구를 시작하기 위한 구조적 기준선을 제시한다.

재현성 측면에서도 DeepSlide는 흥미로운 기준선을 제공한다. 논문은 source code, configuration, prompts, evaluation scripts를 공개하겠다고 밝히며, 계획, 검색, 렌더링, sandbox validation, scoreboard evaluation을 모두 재현 범위에 포함한다. 발표 생성 시스템은 결과 슬라이드 몇 장만 공개해서는 충분히 검증되지 않는다. 같은 source와 requirement에서 어떤 logical chain 후보가 나왔는지, 어떤 content-tree node가 검색되었는지, 어떤 repair가 실행되었는지, judge가 어떤 rubric으로 점수를 냈는지가 함께 공개되어야 한다. 이런 실행 추적이 있어야 artifact와 delivery의 원인을 분리해 분석할 수 있다.

따라서 DeepSlide의 가장 실용적인 교훈은 발표 자동화 프로젝트를 시작할 때 처음부터 evaluation trace와 intermediate artifact를 저장해야 한다는 점이다. 최종 PPTX나 PDF만 보관하면 사용자가 왜 특정 흐름을 선택했는지, 시스템이 왜 특정 figure를 확대했는지, 어떤 스크립트 구간이 시간 초과를 만들었는지 사후 분석하기 어렵다. 반대로 requirement profile, logical chain, retrieved evidence, slide-script diff, effect plan, rehearsal advice, scoreboard를 함께 저장하면 다음 발표를 개선하는 조직 지식이 된다.

또 하나의 확장 포인트는 협업이다. 실제 발표 준비는 한 사람이 끝까지 처리하기보다 지도교수, 공동저자, PM, 디자이너, 발표자가 함께 수정하는 경우가 많다. DeepSlide의 logical chain과 scoreboard가 협업 단위가 되면 “3번 노드의 근거가 약하다”, “5분 발표에서는 Stage 3 설명을 줄이자”, “투자자 버전에서는 ablation보다 value proposition을 앞에 두자” 같은 피드백을 구조적으로 남길 수 있다. 이는 단순 댓글 기반 편집보다 발표 의사결정의 맥락을 더 잘 보존한다.

10. 요약 정리 — 핵심 포인트만 빠르게 다시 보기

문제 정의: 기존 AI slide generator는 정적 deck artifact 생성에 강하지만, 발표의 pacing, narrative, attention guidance, rehearsal readiness를 충분히 최적화하지 못한다.
핵심 접근: DeepSlide는 requirement elicitation, content-tree retrieval, logical-chain planning/editing, evidence-grounded slide/script generation, attention augmentation, rehearsal을 잇는 four-stage human-in-the-loop multi-agent system이다.
중간 표현: content tree와 time-budgeted logical chain은 원문 근거와 발표 이야기 구조를 연결하는 핵심 scaffold이며, 사용자가 node 순서와 duration을 직접 수정할 수 있다.
렌더링 전략: Markov-style sequential rendering은 현재 슬라이드, 사용자 요구, deck-level style, 직전 슬라이드 summary를 함께 사용해 템플릿 없는 생성에서도 style inheritance를 유지하려 한다.
주의 증강: image focus, text-to-diagram, data visualization, keynote, motion, auto layout 같은 효과는 발표 중 청중이 어디를 봐야 하는지 안내하기 위한 delivery-time 도구다.
평가 설계: dual-scoreboard는 artifact quality와 delivery quality를 분리해, 예쁜 슬라이드와 전달 가능한 발표를 같은 것으로 취급하지 않는다.
실험 결과: 20개 도메인과 청중별 평가에서 DeepSlide는 강한 baseline과 artifact score를 맞추면서 delivery score에서 더 일관된 이득을 보이며, logical chain 제거 ablation은 delivery score를 크게 낮춘다.
해석과 한계: DeepSlide는 structured-LLM workflow compilation, meta-agent runtime substrate, agent-tool contract의 좋은 사례지만, 실제 장기 리허설과 현장 청중 반응까지 직접 측정하는 평가는 아직 제한적이다.

저작자표시 비영리 변경금지 (새창열림)

'[논문 리뷰] > [최신 논문]' 카테고리의 다른 글

[arXiv 2605.20948] Memory Grafting: 오프라인 조건부 메모리로 언어 모델 사전학습을 확장하기 (0)	2026.05.22
[arXiv 2605.20123] BiRD: 양방향 랭킹으로 RAG 포이즈닝을 걸러내는 방어 메커니즘 (0)	2026.05.22
[arXiv 2605.15871] AIRA: 에이전트가 발견하는 신경망 아키텍처와 재귀적 자기개선 (0)	2026.05.19
[arXiv 2605.15155] SDAR: 자기증류 에이전트 강화학습으로 토큰 신호를 거르기 (0)	2026.05.19
[arXiv 2605.15019] GranuRAG: 장면 검색을 시각 요소 증거 검색으로 쪼개는 멀티모달 RAG (0)	2026.05.19

댓글

검색 결과

티스토리툴바