구글 VEO3, AI 영상의 새로운 시대를 열다

2024년 OpenAI의 Sora가 세상을 놀라게 한 이후, AI 영상 생성 기술은 하루가 다르게 발전하고 있습니다. Runway Gen-2, Pika Labs, Stable Video Diffusion 등 다양한 플레이어들이 시장에 뛰어들면서, 텍스트 몇 줄로 고품질 영상을 만드는 일이 더 이상 꿈이 아닌 현실이 되었죠.

그런데 2025년 5월, 구글이 또 다른 게임 체인저를 들고 나타났습니다. 바로 VEO3입니다. 이번 발표를 처음 접했을 때의 충격은 Sora를 처음 봤을 때 못지않았습니다. 단순히 영상 품질이 향상된 것을 넘어, AI 영상 기술의 패러다임 자체를 바꿀 만한 혁신적 기능들이 공개되었기 때문입니다.

이 글에서는 Google I/O 2025에서 발표된 VEO3의 핵심 내용과 함께, 왜 이 모델이 AI 영상 업계의 판도를 바꿀 것으로 예상되는지 자세히 살펴보겠습니다.

Google VEO3, 무엇이 달라졌나? — 공식 발표 핵심 정리

2025년 5월, 구글은 자사의 AI 연구 부문인 DeepMind가 주도한 VEO3를 Google I/O에서 공식 발표했습니다. 현재 VEO3는 Google Cloud의 Vertex AI 플랫폼에서 프리뷰(Preview) 버전으로 일부 파트너 및 고급 요금제 사용자들에게 제한적으로 제공 중입니다.

구글은 VEO3를 ‘텍스트-투-비디오 모델’을 뛰어넘는 차세대 생성형 비디오 AI라 소개했습니다. 기존 모델과 차별화된 이유는 다음과 같습니다:

영상과 사운드의 완벽한 동시 생성
이미지, 기존 영상 등 다양한 입력 방식을 통한 높은 일관성 유지
세밀한 영상 제어 및 편집 기능 통합
AI 기반의 영상 제작 워크플로우를 아우르는 콘텐츠 제작 플랫폼 구축

특히, VEO3와 함께 공개된 이미지 생성 AI Imagen 4 및 영상 통합 워크플로우 툴 Flow는 구글이 AI를 활용해 콘텐츠 제작 생태계를 혁신하려는 큰 그림을 보여줍니다.

VEO3의 핵심 기능 5가지 — AI 영상 제작의 혁신

1. 고도화된 입력 방식

텍스트 입력뿐 아니라, 이미지나 기존 영상 레퍼런스를 활용해 원하는 스타일, 캐릭터, 분위기를 일관성 있게 유지할 수 있습니다. 프롬프트 리라이팅 기능으로 사용자의 의도를 더 정확하게 이해해 반영하는 점도 돋보입니다.

2. 영상과 사운드의 동시 생성 — 진짜 게임 체인저

기존 AI 영상 생성 모델들은 대부분 ‘무음’ 영상이나 배경음악 정도만을 지원했지만, VEO3는 장면에 맞는 배경음악, 환경음, 립싱크(인물 입술 움직임과 대사), 효과음까지 함께 생성하고 완벽히 동기화합니다. 특히 다른 영상 모델은 인물이 말할 때 입술을 움직이는 게 부자연스러운 모습이 많았는데, VEO3는 상당히 자연스러운 결과물을 보여주었습니다.

이로 인해 AI가 실제 영상 편집 과정에서 영상과 사운드 작업을 한 번에 처리할 수 있는 수준이 되었습니다.

3. 탁월한 프롬프트 이해력과 세밀한 제어

VEO3는 복잡하고 추상적인 지시도 잘 파악하며, 아래의 세밀한 내용까지도 정교하게 반영합니다. 덕분에 원하는 영상을 얻기 위한 시행착오가 적다는 평이 많습니다.

조명, 연출 분위기
인물 감정 표현
카메라 움직임(줌, 회전 등)

4. 일관성 유지 및 고급 편집 기능 (Flow와 연계)

단편 영상 생성뿐 아니라, 캐릭터 및 장면의 스타일을 일정하게 유지하는 점이 개선됐습니다. 특히, Flow와 연계해서 이제는 구글이 영상 생성뿐만 아니라 구글이 영상 편집계에도 조금씩 영향력을 넓히고 있는 모습입니다.

레퍼런스 이미지 활용
영상 프레임 확장(아웃페인팅)
특정 오브젝트 추가/삭제 편집 지원

5. 투명성 및 안전성 강화

VEO3 기본 사양

사양	내용
영상 길이	최대 8초 (긴 영상은 아직 과제)
해상도	720p (HD), 16:9 비율, 24fps 지원
향후 계획	4K/60fps, 8K 지원 가능성 언급
언어 지원	영어 프롬프트만 (추후 다국어 확대 예정)

글을 마무리하며

VEO3는 단순히 영상 퀄리티를 높이는 데 그치지 않고, 영상과 사운드의 완전한 통합과 세밀한 제어, 워크플로우 도구와의 결합으로 AI 영상 제작의 판도를 완전히 바꿀 잠재력을 보여줍니다. 특히 ‘사운드 동시 생성’ 기능은 AI 영상 시장에 진정한 혁신이라 할 만합니다.

물론 아직은 프리뷰 단계라 제약이 많고 가격 부담도 존재하지만, 구글의 빠른 기술 진화 속도를 보면 앞으로가 매우 기대됩니다.