2026년 4월 23일 | AI 최신 트렌드
2026년 4월 23일 메모 | 앱 화면, 팀 워크플로, 데이터센터, 이어버드, 손목 위 응답처럼 AI가 먼저 붙는 위치가 하루 만에 훨씬 잘게 나뉘어 보였다.
X는 홈 탭 자체를 Grok 기반 큐레이션 피드로 다시 짜기 시작했고, OpenAI는 커스텀 GPT를 넘어 팀이 같이 쓰는 workspace agents를 전면에 올렸다. Google은 학습용과 추론용 TPU를 아예 갈라서 내놨고, Anker는 이어버드 같은 작은 기기 안에 들어갈 compute-in-memory AI 칩을 발표했다. 여기에 arXiv에서는 8M~30M 규모의 초소형 언어 모델이 먼저 몇 단어를 말하고 클라우드 모델이 그 문장을 이어받는 방식까지 나왔다.
나는 이런 묶음이 재미있다. 모델 성능표보다 더 빨리 변하는 건 실제 착지점이기 때문이다. 오늘 다섯 건은 서로 다른 층위에 있지만 공통으로 묻는 질문은 하나였다. AI는 어디에서 먼저 반응하고, 어디에서 본격적인 계산을 하고, 사용자는 그 차이를 느끼지 않게 만들 수 있는가. 그 관점으로 보면 오늘 뉴스는 꽤 또렷했다.
1. 오늘 흐름: AI가 붙는 위치가 더 앞단과 더 말단으로 동시에 퍼진다
- X 커스텀 피드는 AI가 별도 챗봇을 넘어 기본 홈 화면 정렬기로 들어오는 장면이다.
- Workspace agents는 에이전트가 개인 장난감을 넘어 팀 공유형 작업 단위로 올라가는 흐름이다.
- TPU 8i·8t는 같은 AI 인프라 안에서도 추론과 학습을 따로 최적화하는 구간이 더 선명해졌다는 뜻이다.
- Anker Thus는 AI 칩이 서버 중심을 벗어나 이어버드와 액세서리 안으로 내려오는 방향을 보여 준다.
- μLM 논문은 클라우드 지연을 숨기기 위해 첫 4~8단어만 로컬에서 먼저 말하게 하는 구조가 실제로 가능하다는 걸 보여 준다.
예전에는 AI 트렌드를 정리할 때 모델 이름과 벤치마크만 따라가도 하루치 그림이 나왔다. 그런데 요즘은 그보다 어디에 붙는가가 더 중요하다. 홈 피드, 팀 협업 툴, 데이터센터 칩, 이어버드, 웨어러블 응답 루프가 각각 따로 최적화되기 시작하면, 같은 "AI 기능 추가"라도 전혀 다른 산업 뉴스가 된다.
2. X Custom Timelines: 커뮤니티보다 홈 탭 재편이 먼저다
TechCrunch 이미지: X는 Communities를 접는 대신, Grok이 읽고 붙이는 주제 피드를 홈 탭 안으로 직접 끌어왔다.
TechCrunch에 따르면 X는 Grok-powered Custom Timelines를 내놓으면서 75개 이상 주제의 피드를 홈 탭에 고정할 수 있게 했다. 흥미로운 건 이 기능이 단순 키워드 피드와 다르게 작동한다는 점이다. 기사 설명대로라면 Grok이 게시물을 읽고 이해한 뒤 주제 라벨을 붙여 피드를 구성한다. 그리고 이 변화는 X Communities 종료와 거의 같은 타이밍에 나왔다.
이건 생각보다 큰 방향 전환이다. 커뮤니티는 사용자가 직접 모여 판을 만드는 구조였는데, 커스텀 타임라인은 그 판을 AI가 먼저 짜서 홈 화면에 올려 주는 구조로 바꾼다. 다시 말해 X는 사람끼리 모임을 키우는 기능보다, 홈 탭에서 "내가 지금 뭘 계속 보게 할지"를 AI로 재편하는 쪽을 더 중요하게 본 셈이다. 플랫폼 입장에서는 훨씬 직접적인 통제면이다.
나는 이 소식이 꽤 상징적으로 읽혔다. AI 피드는 이제 별도 실험 메뉴 수준을 넘어서 기본 피드 경험을 다시 설계하는 기능으로 내려온다. 검색창에 질문하는 챗봇보다, 사용자가 원래 보던 화면의 정렬 규칙을 바꾸는 쪽이 훨씬 강하다. 결국 플랫폼 AI 경쟁은 답변 품질뿐 아니라 기본 홈 화면을 누가 재배선하느냐로도 옮겨가고 있다.
3. Workspace agents: GPT를 팀 공유형 작업 단위로 올리는 OpenAI
The Verge 이미지: OpenAI는 커스텀 봇을 팀이 공유하고 승인 흐름 안에서 굴리는 workspace agents로 확장하고 있다.
The Verge는 OpenAI가 Business, Enterprise, Edu, Teachers 플랜 사용자에게 cloud-based workspace agents를 열었다고 전했다. 예시도 꽤 직접적이다. 웹에서 제품 피드백을 모아 Slack으로 보내는 에이전트, 영업 후속 메일을 Gmail에 초안으로 만들어 두는 에이전트처럼, 그냥 답변하는 봇을 넘어 업무 단계 하나를 책임지는 단위로 설명한다.
여기서 핵심은 이 기능이 2023년식 GPTs의 연장선이라는 점이다. OpenAI도 스스로 "evolution"이라고 표현했는데, 차이는 꽤 크다. 예전 GPT가 개인 커스텀 봇에 가까웠다면, workspace agents는 조직 안에서 공유되고, 팀 프로세스를 따르고, 필요하면 승인도 요청하는 도구로 정의된다. 에이전트를 멋진 데모에서 끝내지 않고 팀의 반복 업무 슬롯에 꽂아 넣으려는 움직임이다.
나는 이 변화가 OpenAI에게도 꽤 중요하다고 본다. 에이전트 경쟁은 더 이상 "누가 더 잘 계획하나"만의 싸움이 아니다. Slack, Gmail, 사내 워크플로, 승인 체계 안으로 얼마나 자연스럽게 들어가느냐가 훨씬 큰 문제다. 개인용 봇에서 팀 공유형 작업자로 올라서는 순간, AI는 재미있는 기능을 넘어 업무 오케스트레이션 층으로 읽히기 시작한다.
4. TPU 8i·8t: 학습칩과 추론칩을 갈라놓는 구글
Google Blog 이미지: 구글은 8세대 TPU를 추론용 8i와 학습용 8t로 나누며 agentic workload에 맞춘 분업 구조를 더 선명하게 드러냈다.
Google Blog와 TechCrunch를 같이 보면 이번 발표의 포인트는 명확하다. 구글은 8세대 TPU를 두 갈래로 쪼갰다. TPU 8i는 추론, 특히 reasoning·planning·multi-step workflow처럼 응답 지연에 민감한 에이전트성 작업을 빠르게 처리하는 쪽이고, TPU 8t는 더 큰 메모리 풀 위에서 복잡한 모델 학습을 담당하는 쪽이다.
이 분리가 중요한 이유는 AI 인프라가 이제 "큰 칩 하나로 다 한다"는 단계에서 벗어나고 있기 때문이다. 학습은 여전히 큰 메모리와 대규모 클러스터가 중요하지만, 실제 서비스에서 더 자주 돈을 태우는 건 추론이다. 특히 에이전트가 여러 단계를 오가며 빠르게 반응해야 하는 상황에서는, 학습 최적화 칩과 같은 기준으로 추론칩을 설계하면 손해가 커진다. 구글이 굳이 agentic era라는 말을 전면에 둔 이유도 그 지점에 있다.
나는 여기서 한 가지가 더 눈에 들어왔다. 구글은 자체 TPU를 밀면서도 Nvidia와 완전히 결별하지 않는다. 즉 지금 인프라 경쟁은 흑백전환보다는 어떤 워크로드를 어느 칩에 태워야 가장 싸고 빠른가를 더 세밀하게 쪼개는 게임에 가깝다. 결국 앞으로의 AI 인프라는 GPU 대체 서사보다 학습·추론·온디바이스를 어떻게 분업시키는가 쪽으로 더 많이 읽게 될 것 같다.
5. Anker Thus: 이어버드 안으로 내려온 compute-in-memory AI 칩
The Verge 이미지: Anker는 모델과 계산이 한곳에 머무르는 compute-in-memory 설계로 이어버드 급 장치 안의 로컬 AI를 밀어 올리려 한다.
The Verge에 따르면 Anker는 자체 AI 칩 Thus를 발표했다. 회사 설명은 꽤 공격적이다. 기존 AI 칩이 모델 저장과 계산을 분리해 파라미터를 계속 옮겨야 했다면, Thus는 compute-in-memory 설계로 그 이동 자체를 줄인다는 것이다. 첫 적용 대상도 흥미롭다. 거대한 스피커나 폰보다 먼저, 가장 공간과 전력이 빠듯한 이어버드를 택했다.
이게 왜 재미있냐면, AI 칩 뉴스가 보통 데이터센터에서 끝나는데 이건 완전히 반대 방향이기 때문이다. 이어버드는 배터리도 작고 발열 허용치도 낮고, 귀에 꽂는 동안 계속 켜져 있어야 한다. 그래서 지금까지는 몇십만 파라미터 수준의 작은 네트워크로 통화 노이즈 억제 같은 기능을 돌리는 데 그쳤다. 그런데 Anker는 Thus로 수백만 파라미터까지 밀어 올려서 더 복잡한 주변 소음 분리와 음성 처리로 가겠다고 말한다.
나는 이런 뉴스가 앞으로 더 중요해질 거라고 본다. AI를 일상 도구로 느끼게 만드는 건 늘 거대한 모델 공개보다 작은 기기 안에서 기다림 없이 작동하는 순간에 더 가깝기 때문이다. 이어버드, 액세서리, IoT 기기에서 로컬 AI가 강해지면 사용자 입장에서는 클라우드 모델 이름보다 통화 품질, 반응 속도, 배터리 체감이 먼저 와닿는다. 그 지점에서 칩 설계는 곧 제품 경험이 된다.
6. μLM 논문: 8M~30M 모델이 먼저 몇 단어를 말하고, 클라우드가 이어받는다
논문 Figure 1: 온디바이스 μLM이 응답을 먼저 시작하고, 클라우드 LLM이 그 문장을 중간에서 자연스럽게 이어받는 구조를 보여 준다.
arXiv의 Micro Language Models Enable Instant Responses는 문제 정의가 아주 실용적이다. 스마트워치나 스마트글래스 같은 기기에서는 100M~1B급 모델조차 계속 돌리기 어렵고, 그렇다고 클라우드에만 맡기면 응답이 늦어져서 "항상 곁에 있는 비서" 느낌이 깨진다. 그래서 저자들은 아예 목표를 바꿨다. 로컬 모델이 모든 답을 만들 필요는 없고, 첫 4~8단어만 즉시 말해 주면 그 뒤는 클라우드가 이어받아도 된다는 것이다.
논문이 제안하는 μLM은 8M~30M 파라미터 수준의 초소형 언어 모델이다. 핵심은 클라우드 모델을 주 응답자가 아니라 continuator, 즉 이어받아 마무리하는 쪽으로 재정의한 데 있다. 이 framing이 좋았다. 기존 speculative decoding처럼 작은 모델 출력을 뒤에서 검수하는 방식과 달리, 로컬 모델이 이미 화면과 음성에 돌이킬 수 없이 노출된 첫 문장을 만든 뒤 큰 모델이 자연스럽게 이어붙이는 구조이기 때문이다. 그리고 저자들은 이 handoff가 어긋났을 때를 대비해 세 가지 error recovery 모드도 같이 설계했다.
나는 이 논문이 앞으로 웨어러블 AI를 읽는 데 꽤 자주 인용될 것 같다. 온디바이스 모델을 무조건 크게 만드는 대신, 반응 시작은 로컬에서 하고 의미 완성은 클라우드에서 하는 식의 분업이 가능해지면 체감 지연을 크게 줄일 수 있다. 결국 중요한 건 전체 문장을 누가 다 쓰느냐보다, 사용자가 기다림을 느끼기 전에 누가 먼저 말을 꺼내느냐일 수 있다. 오늘 나온 Anker Thus 뉴스와 나란히 두면 더 재밌다. 한쪽은 칩에서, 다른 한쪽은 모델 구조에서 같은 문제를 풀고 있다.
7. 묶어서 보면: AI의 가치가 생기는 위치가 더 세분화되는 날
오늘 다섯 건을 한 줄로 요약하면 AI가 가치가 생기는 위치가 더 세분화되고 있다는 말에 가깝다. X는 홈 화면 정렬 규칙을 바꾸고, OpenAI는 팀 업무 슬롯을 노리고, Google은 데이터센터 안에서 학습과 추론을 갈라놓고, Anker는 이어버드 같은 말단 기기로 내려가고, μLM 연구는 그 말단 기기가 느린 클라우드를 어떻게 감출지까지 건드린다. 전부 다른 뉴스처럼 보여도, 실제로는 하나의 큰 분업 지도 위에 놓여 있다.
그래서 앞으로 AI 트렌드를 볼 때도 그냥 "모델이 더 좋아졌다"보다 어디에 먼저 붙는가, 어디서 계산하는가, 사용자는 그 분업을 느끼는가를 같이 봐야 할 것 같다. 오늘 뉴스는 그 세 질문을 꽤 선명하게 보여 준 하루였다. 홈 탭의 피드 재정렬부터 이어버드 안 AI 칩, 그리고 손목 위에서 먼저 4단어를 꺼내는 초소형 모델까지. AI는 더 커지는 동시에 더 잘게 나뉘고 있다.
출처
- TechCrunch - Hands on with X’s new AI-powered custom feeds
- The Verge - OpenAI now lets teams make custom bots that can do work on their own
- Google Blog - We’re launching two specialized TPUs for the agentic era
- TechCrunch - Google Cloud launches two new AI chips to compete with Nvidia
- The Verge - Anker made its own chip to bring AI to all its products
- arXiv - Micro Language Models Enable Instant Responses
- arXiv HTML - Figure source