'transformer' 태그의 글 목록

[논문 리뷰]/[핵심 논문] • 2026. 4. 6. 13:46

[arXiv 2106.09685] LoRA: 거대 언어모델 적응 비용을 뒤집은 저랭크 업데이트의 표준 설계

LoRA: Low-Rank Adaptation of Large Language Modelshttps://arxiv.org/abs/2106.09685Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen · Microsoft · 2021 · ICLR 2022이 논문은 거대 언어모델 적응의 비용 구조를 다시 정의한 연구로 읽힌다. 핵심 제안은 사전학습 가중치 $W_0$를 동결한 채, 다운스트림 과업에서 필요한 변화만 저랭크 행렬 곱으로 표현하는 것이다. 완전 미세조정이 모델 전체를 다시 학습하는 반면, LoRA는 변화량 $\Delta W$를 직접 두지 않고 $BA$ 형태의 작..

[논문 리뷰]/[핵심 논문] • 2026. 4. 4. 13:40

[arXiv 2005.14165] GPT-3: 파인튜닝 없이 과제를 문맥 안에서 학습하는 거대 언어모델의 전환점

Language Models are Few-Shot Learnershttps://arxiv.org/abs/2005.14165Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen,..

[논문 리뷰]/[핵심 논문] • 2026. 4. 3. 13:31

[arXiv 2010.11929] 비전 트랜스포머(ViT): CNN 없이 이미지 분류를 재구성한 패치 기반 Transformer의 전환점

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scalehttps://arxiv.org/abs/2010.11929https://arxiv.org/html/2010.11929Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby | Google Research, Brain Team 등 | arXiv:2010.11929 | 20..

[논문 리뷰]/[최신 논문] • 2026. 4. 3. 01:32

[arXiv 2604.01178v1] Screening Is Enough: 소프트맥스 경쟁을 버리고 절대적 관련성으로 재구성한 장문맥 언어모델 Multiscreen

Ken M. Nakanishi | arXiv:2604.01178v1 | 원제: Screening Is Enough | 발행 시점: 2026년 4월논문 초록 링크 · arXiv HTML · PDFScreening Is Enough는 장문맥 언어모델에서 핵심 병목을 계산량 자체보다 무관한 key를 얼마나 정확하게 배제하느냐의 문제로 다시 정의한다. 저자는 표준 softmax attention이 모든 비마스킹 key를 하나의 분모 안에서 경쟁시키기 때문에, 어떤 key가 절대적으로 부적절한 경우에도 완전히 배제하기 어렵다고 본다. 이를 대체하기 위해 제안된 screening 메커니즘은 query-key 유사도를 bounded similarity로 계산한 뒤, 각 key가 절대적 기준선을 넘는지 독립적으로 판정..

[논문 리뷰]/[핵심 논문] • 2026. 4. 2. 13:23

[arXiv 1706.03762] Attention Is All You Need: 순환을 제거하고 병렬성을 극대화한 Transformer의 출발점

Attention Is All You Needhttps://arxiv.org/abs/1706.03762https://arxiv.org/html/1706.03762Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin | Google Brain, Google Research, University of Toronto 등 | arXiv:1706.03762 | 2017년 6월 | NIPS 20171. 서론: 순환과 합성을 버리고 시퀀스 모델링을 다시 정의한 논문자연어 번역, 요약, 음성 인식 같은 시퀀스 변환 문제는 오랫동안 RNN, LSTM, GRU,..

[논문 리뷰]/[최신 논문] • 2026. 2. 3. 09:57

[arXiv 2501.00663] Titans: 테스트 타임에 메모리를 학습하는 새로운 아키텍처

Titans: Learning to Memorize at Test Timehttps://arxiv.org/abs/2501.00663Liang Wang, Haonan Chen, Nan Yang, Xiaolong Huang, Zhicheng Dou, Furu Wei | Microsoft Research, Renmin University of China | arXiv:2501.14342 | 2025년 1월1. 서론Retrieval-Augmented Generation(RAG)은 대규모 언어 모델(LLM)의 환각(hallucination) 문제를 해결하고 최신 정보를 반영하기 위한 핵심 기술로 자리잡았다. 기업 환경에서 독점 데이터 소스와 대규모 기반 모델을 통합하여 신뢰성 있는 응답을 생성하는 데 필수적인 역..