2026-03-17ElevenLabsAI영상생성SoraFlows콘텐츠제작크리에이티브AI

Sora 2 Pro부터 Kling까지

음성 AI로 유명한 ElevenLabs가 이미지·영상 생성 플랫폼과 시각적 워크플로우 도구 'Flows'를 출시했습니다. OpenAI Sora 2 Pro, Google Veo 3.1, Kling 2.5 등 24종의 영상 모델과 15종의 이미지 모델을 한 곳에서 사용할 수...

한 줄 요약: 이제 글 한 줄만 입력하면, AI가 이미지를 그리고 → 그 이미지를 영상으로 만들고 → 내레이션까지 입혀서 완성된 콘텐츠를 내놓습니다. 24종의 AI 영상 모델을 한 화면에서 비교하고 골라 쓸 수 있는 '올인원 AI 콘텐츠 공장'이 열렸습니다.

기업 가치 11조 원(110억 달러)을 인정받은 AI 음성 회사 ElevenLabs가 음성을 넘어 이미지와 영상 생성까지 영역을 확장했습니다. 단순히 자체 모델을 하나 추가한 것이 아닙니다. OpenAI, 구글, Kling, Runway 등 업계 최고 수준의 AI 모델 24종 이상을 한 플랫폼에 모아놓고, 누구나 클릭 몇 번으로 콘텐츠를 만들 수 있게 했습니다.

Sora 2 Pro부터 Veo 3.1까지, 한 화면에서 고르는 AI 영상 모델

ElevenLabs Image & Video(현재 베타)는 텍스트 한 줄로 이미지와 영상을 생성하는 도구입니다. 가장 눈에 띄는 점은 선택할 수 있는 AI 모델의 종류입니다.

ElevenLabs Image & Video 모델 선택 화면 — Sora 2 Pro, Google Veo 3.1, Kling 2.5 등 다양한 AI 영상 모델이 나열되어 있다

영상 모델 24종 (주요 모델)

• OpenAI Sora 2 Pro — 가장 고품질, 영화 같은 결과물 (크레딧 3,000)

• Google Veo 3.1 — 사실적 표현과 프롬프트 반영률 우수 (크레딧 2,000)

• Kling 2.5 — 역동적 움직임과 물리 효과에 강점 (크레딧 700)

• LTX 2 Pro — 4K 해상도, 초당 50프레임 지원

• Runway Aleph — 영상 속 물체 제거/변환 편집 특화

• Kling 2.6 Motion Control — 다른 영상의 동작을 캐릭터에 옮기는 모션 트랜스퍼

이미지 모델 15종 (주요 모델)

• Nano Banana Pro — 추론 기반 이미지 생성, 1K~4K 해상도

• Flux 2 Pro — 다국어 텍스트 렌더링 지원 (포스터, 광고에 유용)

• Seedream 4.5 — 최대 4K 해상도의 멀티모달 기반 모델

• Gen-4 Image Turbo — 일반 모델 대비 2.5배 빠른 속도

'이미지 → 영상 → 음성'을 한 캔버스에서 연결하는 Flows

이미지와 영상을 따로 만드는 것만으로는 부족합니다. ElevenLabs가 함께 공개한 Flows는 여러 AI 작업을 레고 블록처럼 연결해서 복잡한 콘텐츠를 한 번에 만들 수 있는 시각적 워크플로우 도구입니다.

ElevenLabs Flows — 이미지 생성, 영상 변환, AI 음성 합성을 노드로 연결한 워크플로우 화면

위 스크린샷을 보면 작동 방식이 직관적으로 이해됩니다. 왼쪽에서 "해변의 스피드보트"라는 텍스트를 입력하면 AI가 이미지를 생성하고, 그 이미지를 다음 블록으로 연결하면 영상으로 변환되고, 마지막 블록에서 AI 음성(Eleven v3)이 "꿈에 그리던 여름 휴가를 예약하세요"라는 내레이션을 입혀줍니다.

핵심은 비파괴 편집입니다. 음성만 바꾸고 싶으면 음성 블록만 다시 실행하면 됩니다. 영상을 처음부터 다시 만들 필요가 없습니다.

비용도 투명하게 표시됩니다. 각 블록 위에 마우스를 올리면 "여기서부터 실행: $0.075, 3개 노드"처럼 정확한 크레딧 소모량이 나옵니다.

Flows에서 사용 가능한 블록 종류

생성 블록: 텍스트→음성(TTS), 이미지 생성, 영상 생성, AI 음악, 효과음

처리 블록: 텍스트 입력, 미디어 업로드, 립싱크(입 모양 맞추기), 해상도 업스케일, 합성(미리보기)

통합 모델: 35종 이상의 이미지·영상 AI 모델 + ElevenLabs 자체 음성·음악·효과음 모델

무료로 시작할 수 있을까?

무료 계정으로도 하루 3회 이미지 생성이 가능합니다. 다만 영상 생성과 Flows는 유료 구독이 필요합니다. 모델마다 크레딧 소모량이 다른데, Kling 2.5는 700 크레딧, Sora 2 Pro는 3,000 크레딧, Google Veo 3.1은 2,000~8,000 크레딧입니다.

영상은 480p부터 4K까지, 2초~20초 길이로 생성할 수 있고, 21:9(영화), 16:9(유튜브), 9:16(틱톡/릴스) 등 다양한 비율을 지원합니다.

립싱크와 업스케일링 — 후처리까지 한 번에

생성된 영상에 립싱크(AI가 입 모양을 음성에 맞춰주는 기능)를 적용할 수 있습니다. 사진 한 장에서 말하는 영상을 만드는 Omnihuman 1.5, 더빙된 영상의 입 모양을 재조정하는 Veed LipSync, 눈 깜빡임과 호흡까지 표현하는 Creatify Aurora 등 4종의 립싱크 모델이 제공됩니다.

해상도가 부족하면 Topaz Upscale로 최대 4배까지 키울 수 있고, 프레임 레이트도 24~60fps로 조절 가능합니다.

콘텐츠 크리에이터에게 어떤 의미가 있나

지금까지 AI 콘텐츠를 만들려면 이미지는 Midjourney에서, 영상은 Runway에서, 음성은 ElevenLabs에서, 음악은 또 다른 도구에서 따로 작업한 뒤 편집 프로그램으로 합쳐야 했습니다. ElevenLabs의 새 플랫폼은 이 모든 과정을 한 곳에서 처리합니다.

유튜브 크리에이터라면 썸네일 이미지 생성 → 인트로 영상 제작 → 내레이션 합성을 한 워크플로우로 자동화할 수 있습니다. 마케터라면 제품 사진에서 광고 영상을 만들고 다국어 내레이션까지 한 번에 붙일 수 있습니다. 소규모 사업자라면 "향수 광고", "이커머스 제품 데모" 같은 기본 템플릿으로 바로 시작할 수 있습니다.

시작하는 방법

ElevenLabs 웹사이트에서 무료 계정을 만들면 바로 Image & Video 탭에서 이미지 생성을 시작할 수 있습니다. Flows는 유료 구독 후 대시보드에서 "New Flow"를 클릭하면 빈 캔버스가 열립니다.

현재 Image & Video는 베타, Flows는 알파 단계입니다. Flows의 API(프로그래밍 방식 접근)는 향후 추가될 예정입니다.

음성 AI에서 '콘텐츠 AI 플랫폼'으로

ElevenLabs는 2023년 텍스트를 음성으로 바꿔주는 서비스로 시작해, 2025년 음악 생성(Eleven Music), 효과음 생성, 더빙 등으로 영역을 넓혀왔습니다. 이번 이미지·영상 생성 추가로 "텍스트를 입력하면 완성된 멀티미디어 콘텐츠가 나오는" 올인원 플랫폼이 되었습니다. 2026년 2월 세쿼이아 캐피탈 등으로부터 5억 달러(약 6,700억 원)를 투자받으며 기업 가치 110억 달러를 기록한 만큼, AI 콘텐츠 제작 시장의 판도를 바꿀 수 있을지 주목됩니다.

AI와 바이브코딩에 대해 더 알고 싶다면 무료 학습 가이드를 확인해보시기 바랍니다.

관련 콘텐츠 — AI 뉴스 더보기 | 무료 학습 가이드

출처

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독