[AI 최신 트렌드] / AI 트렌드 | 5월 13일 : Googlebook, 궤도 데이터센터, Agent View, AI 라이선스, GridProbe.md

AI 트렌드 | 5월 13일 : Googlebook, 궤도 데이터센터, Agent View, AI 라이선스, GridProbe

조회

2026년 5월 13일 | AI 최신 트렌드


2026년 5월 13일 기준, 이번 묶음은 AI가 들어가는 화면, 계산 인프라, 권리 표준, 개발 도구, 긴 영상 논문을 한 번에 보려고 골랐다. 한쪽에서는 휴대폰과 노트북의 기본 조작면이 바뀌고, 다른 쪽에서는 데이터센터를 지구 밖으로 올리자는 이야기까지 나온다.

1. Googlebook과 Android 17: AI가 OS 안쪽 조작면으로 내려옴

Googlebook and Android AI features

Figure 1: TechCrunch가 소개한 Googlebook 이미지. Gemini가 노트북과 Android 조작면 안쪽으로 들어가는 흐름이 보인다.

TechCrunch는 Google의 Android Show 발표를 정리하면서 Googlebook이라는 새 노트북 라인, Gemini 기반 기능, Chrome 안의 Gemini, 자연어로 만드는 위젯, Gboard 받아쓰기 개선을 한꺼번에 묶었다. 이름만 보면 새 하드웨어 발표처럼 보이지만, 내가 더 크게 본 부분은 노트북·휴대폰·브라우저·키보드가 전부 같은 AI 조작층으로 묶인다는 점이다.

특히 “Create My Widget”처럼 자연어로 홈 화면 위젯을 만드는 기능은 작은 기능 같지만 꽤 상징적이다. 앱을 열고 설정을 뒤지는 대신, 사용자가 원하는 상태판을 말로 만들고 홈 화면에 붙이는 구조다. 예전의 AI 기능은 앱 안쪽에 숨어 있었다면, 이제는 OS의 첫 화면과 입력기가 AI의 실행 표면이 된다.

  • 제품 축: Googlebook, Android 17, Gemini in Chrome, Gboard dictation
  • 사용자 경험 축: 앱 내부 챗봇보다 홈 화면·커서·입력기에 가까운 AI
  • 실무 관점: 앱 개발자는 “AI 기능을 넣을지”보다 “OS AI가 앱 상태를 어떻게 읽게 할지”를 더 자주 고민하게 될 수 있음

2. Google과 SpaceX의 궤도 데이터센터 논의: AI 인프라가 물리 위치 싸움으로 확대

SpaceX Starship and orbital data center discussion

Figure 2: TechCrunch의 SpaceX 관련 대표 이미지. AI 계산 수요가 데이터센터 입지 논의까지 밀어 올리고 있다.

TechCrunch는 Wall Street Journal 보도를 인용해 Google과 SpaceX가 우주 궤도 데이터센터를 논의하고 있다고 전했다. Google은 Project Suncatcher라는 이름으로 2027년 프로토타입 위성 발사를 계획한다는 내용도 함께 언급됐다. 아직 “바로 상용화” 단계로 읽을 이야기는 아니지만, AI 컴퓨트가 전력·냉각·부지·허가 문제를 넘어 물리적 위치의 문제로 번지는 장면은 분명하다.

나는 이 소식을 보면서 조금 허무하게 웃었다. 지상 데이터센터의 물 사용량과 전력망 부담을 이야기한 지 얼마 안 됐는데, 이제는 “그럼 지구 밖은 어떤가”라는 질문이 나온다. 물론 위성 제작과 발사 비용까지 넣으면 현재 지상 인프라가 훨씬 싸다는 반론도 같이 붙는다. 그래도 중요한 신호는 하나다. AI 인프라 경쟁은 GPU 개수만의 경쟁이 아니다. 어디에 짓고, 어떤 에너지를 쓰고, 어떤 규제와 지역 반발을 피하거나 감당할지가 점점 제품 전략이 된다.

인프라 질문 이번 소식에서 보이는 변화
전력과 냉각 데이터센터 비용 계산에 에너지·물·지역 조건이 더 크게 들어감
입지 지상 부지를 넘어 위성 기반 실험까지 논의됨
사업성 기술 가능성과 경제성이 아직 분리되어 있음

3. Claude Code Agent View: 여러 코딩 에이전트를 한 화면에서 굴리는 방식

Claude Code Agent View on GeekNews

Figure 3: GeekNews의 Claude Code Agent View 정리 이미지. 여러 세션을 행 단위로 감시하는 운영 UI가 핵심이다.

GeekNews에는 Claude Code의 Agent View 공개 정리가 올라왔다. 핵심은 간단하다. 터미널 여러 개와 tmux 창 사이를 오가며 백그라운드 에이전트를 감시하는 대신, 여러 Claude Code 세션을 한 화면 표에서 만들고, 보고, 답하고, 붙고, 떼는 방식이다. 각 세션은 supervisor 프로세스로 살아 있고, worktree로 파일 충돌을 분리하며, PR과 CI 상태까지 행에 붙일 수 있다는 설명이 이어진다.

이건 단순한 편의 UI가 아니다. 코딩 에이전트가 한 번에 하나의 챗봇 세션으로 남아 있을 때는 “잘 프롬프트를 쓰는 법”이 중요했다. 그런데 5개, 10개의 세션을 동시에 돌리면 문제는 프롬프트보다 상태 관찰, 중단 신호, 충돌 격리, 승인 대기로 옮겨 간다. 나도 에이전트 작업을 길게 돌릴 때 가장 피곤한 지점이 바로 “뭐가 어디까지 갔는지”를 다시 여는 순간이다. Agent View 같은 UI는 그 피로를 제품 레벨에서 다루려는 시도로 보인다.

  • 운영 포인트: 세션 이름, 최근 상태, 입력 대기, 실패, 완료를 한 화면에서 확인
  • 격리 포인트: worktree 기반으로 파일 충돌을 줄이고, PR 단위로 결과를 묶음
  • 다음 질문: 여러 에이전트를 많이 띄우는 것보다 언제 멈추고 어떤 증거로 합칠지가 더 중요해짐

4. Threads의 Meta AI 계정: 소셜 피드 안으로 들어온 답변형 AI

Meta AI account in Threads

Figure 4: The Verge의 Threads 대표 이미지. Meta AI가 대화형 계정처럼 소셜 피드 안에 들어오는 실험이다.

The Verge는 Meta가 Threads에서 사용자가 Meta AI 계정을 태그해 질문하거나 대화 맥락을 물어보는 기능을 테스트 중이라고 전했다. X에서 사람들이 Grok을 태그해 설명을 요청하는 장면과 닮았다. 다만 기사에서 더 크게 번진 부분은 기능 자체보다, 새 Meta AI 계정을 일반 계정처럼 차단할 수 없다는 사용자 반응이었다.

소셜 플랫폼 안의 AI는 검색창이나 별도 앱의 AI와 다르게 느껴진다. 내가 불러서 쓰는 도구가 아니라, 공개 대화 흐름 안에 끼어들 수 있는 계정이 되기 때문이다. 그래서 제품 설계의 핵심은 답변 정확도만이 아니다. 호출 방식, 차단 권한, 노출 빈도, 대화 맥락 보존이 전부 사용자 신뢰에 걸린다. AI 계정이 플랫폼 기본 인프라가 될수록 “싫으면 안 보면 된다”는 말이 잘 통하지 않는다.

5. Human Consent Standard: AI 학습과 사용 권리를 기계가 읽는 선언으로 만들기

Human Consent Standard for AI licensing

Figure 5: The Verge의 Human Consent Standard 보도 이미지. 창작물과 초상·캐릭터 사용 조건을 AI 시스템이 읽도록 하려는 표준이다.

The Verge에 따르면 RSL Media는 배우와 제작자들의 지지를 받는 Human Consent Standard를 내놓았다. George Clooney, Tom Hanks, Meryl Streep 같은 이름이 함께 언급됐고, 요지는 사람의 초상, 창작물, 캐릭터, 디자인을 AI 시스템이 사용할 때 허용·조건부 허용·제한 같은 선언을 읽게 하자는 것이다. 기존 robots.txt가 URL 단위 크롤링 경계를 알려 줬다면, 이번 표준은 “작품과 정체성 자체”의 사용 조건을 더 직접적으로 다루려는 쪽에 가깝다.

이 흐름은 법률 논쟁만으로 끝나지 않을 가능성이 크다. AI 제품이 웹과 미디어를 계속 읽고 재가공한다면, 권리 표시는 사람이 읽는 약관에만 남아 있으면 작동하기 어렵다. 모델 공급자와 크롤러, 데이터 파이프라인이 읽을 수 있는 기계 판독 가능한 동의 신호가 필요해진다. 물론 표준이 있다고 곧바로 모든 분쟁이 정리되는 것은 아니다. 그래도 “학습했는가 아닌가”보다 “어떤 사용 조건을 어떤 경로로 전달하고 검증할 것인가”가 더 구체적인 제품 문제가 되는 느낌이다.

6. GridProbe: 긴 영상 VLM에서 모든 프레임을 다 보지 않는 추론

GridProbe pipeline for long-video VLMs

Figure 6: GridProbe 논문의 파이프라인 그림. 긴 영상에서 질문 관련 프레임을 posterior signal로 고르는 구조다.

HuggingFace Daily Papers에 올라온 GridProbe는 긴 영상 VLM의 병목을 다룬다. 긴 영상을 한 번에 모델에 넣으면 프레임 수가 늘수록 attention 비용이 커진다. 흔한 우회는 먼저 프레임을 고르는 것인데, 논문은 vision/text encoder similarity 같은 바깥 신호 대신, frozen VLM 자신의 답변 posterior를 가볍게 찔러 보며 질문과 관련 있는 프레임을 고르는 방식을 제안한다.

내가 재미있게 본 지점은 이 방법이 “더 큰 모델로 한 번에 밀어 넣자”가 아니라 질문이 요구하는 증거 위치를 먼저 좁히자에 가깝다는 점이다. 논문은 프레임을 격자로 놓고 row·column probe를 돌린 뒤 중요도 맵을 만들고, 그 결과로 선택된 프레임만 집중적으로 본다. 긴 영상 이해가 실제 제품으로 들어가려면 정확도뿐 아니라 지연시간과 비용도 같이 줄어야 한다. 그래서 이런 test-time compute 절약 방식은 연구 논문 안에만 머물 주제가 아니다.

긴 영상 VLM 문제 GridProbe의 접근
프레임이 많아 attention 비용이 커짐 먼저 가벼운 probe로 관련 프레임 후보를 좁힘
encoder similarity가 추론형 질문에서 약함 VLM의 answer-space posterior를 선택 신호로 사용
정확도와 비용을 같이 맞춰야 함 선택된 프레임만 집중 pass에 넣어 sub-quadratic 비용을 노림

한 줄로 묶으면

이번 소식들은 서로 멀리 떨어져 보이지만, 공통적으로 AI의 위치가 바깥 플러그인에서 기본 레이어로 이동하는 과정을 보여 준다. Google은 OS와 입력기 안으로, Meta는 소셜 대화 안으로, Claude Code는 개발 워크플로의 관리 화면 안으로 AI를 넣는다. 동시에 SpaceX와 Google의 궤도 데이터센터 논의는 그 기본 레이어를 떠받치는 물리 인프라가 얼마나 무거워지고 있는지도 보여 준다.

그래서 나는 요즘 AI 뉴스를 볼 때 모델 이름보다 경계를 먼저 보게 된다. 사용자는 어디에서 AI를 만나는가, 거부하거나 차단할 수 있는가, 권리자는 어떤 조건을 기계가 읽게 할 수 있는가, 시스템은 모든 데이터를 다 보지 않고도 필요한 증거를 고를 수 있는가. 이 질문들이 제품 뉴스와 논문 사이를 이어 준다. 성능표만으로는 잘 안 보이지만, 실제 운영에서는 이쪽이 더 오래 남는다.

출처 목록

댓글

홈으로 돌아가기

검색 결과

"" 검색 결과입니다.