AI 목소리가 웃고 속삭이고 감정을 담는다
ElevenLabs의 최신 음성 합성 모델 Eleven v3가 알파를 졸업하고 정식 출시됐습니다. 기존 v2가 29개 언어를 지원했던 것에 비해 v3는 70개 이상의 언어를 지원하며, 여러 화자가 자연스럽게 대화하는 기능과 속삭임·웃음·감정 표현을 제어하는 오디오 태그 기능이...
한 줄 요약: AI가 만든 목소리가 이제 진짜 사람처럼 웃고, 속삭이고, 화를 낼 수 있게 됐습니다. ElevenLabs의 최신 음성 모델이 9개월간의 테스트를 마치고 누구나 쓸 수 있게 정식 출시됐습니다.
ElevenLabs의 AI 음성 합성 모델 Eleven v3가 정식 출시(GA, General Availability)됐습니다. 2025년 6월 알파 버전으로 처음 공개된 이후 약 9개월간의 테스트를 거쳤고, 이제 무료 계정을 포함한 모든 사용자가 이용할 수 있습니다.
29개에서 70개로 — 두 배 이상 늘어난 언어 지원
가장 눈에 띄는 변화는 지원 언어입니다. 이전 모델(Multilingual v2)은 29개 언어를 지원했지만, v3는 70개 이상의 언어를 지원합니다. 한국어는 물론 동남아시아, 아프리카, 중동 언어까지 폭넓게 커버합니다.
이 변화가 실제로 어떤 의미가 있냐면, 유튜브 영상에 AI 더빙을 입히거나, 글로벌 대상 광고 내레이션을 만들 때 선택지가 훨씬 넓어졌다는 뜻입니다.
오디오 태그 — AI 목소리에 '연기 지시'를 내리다
v3의 가장 혁신적인 기능은 오디오 태그(Audio Tags)입니다. 텍스트에 특수 태그를 넣으면 AI 음성의 감정, 톤, 말하는 속도를 세밀하게 조절할 수 있습니다.
오디오 태그 사용 예시
• 속삭이는 말투 → AI 목소리가 실제로 속삭이듯 말합니다
• 웃으면서 말하기 → 대사 중간에 자연스러운 웃음이 섞입니다
• 화난 톤, 슬픈 톤, 흥분한 톤 등 감정 조절이 가능합니다
• 극적인 전달 — 오디오북, 게임 캐릭터, 광고 내레이션에 효과적입니다
이전에는 "슬프게 말해줘"라고 요청해도 AI가 그냥 평범하게 읽어주는 경우가 많았습니다. v3는 마치 성우에게 "여기서 잠깐 멈추고, 낮은 목소리로 속삭이듯 말해주세요"라고 연기 지시(디렉팅)를 하는 것처럼 세밀한 제어가 가능합니다.
여러 사람이 대화하는 장면도 한 번에
v3에는 멀티 스피커 대화 기능이 추가됐습니다. 예를 들어 팟캐스트처럼 두 사람이 대화하는 오디오를 만들 때, 예전에는 화자별로 따로 생성해서 편집 프로그램에서 합쳐야 했습니다.
이제 Text-to-Dialogue(텍스트→대화) 기능을 사용하면, 대본 하나만 입력해도 AI가 각 화자의 목소리를 구분해서 자연스러운 대화를 만들어냅니다. 개별 음성을 일일이 복제(클로닝)할 필요도 없습니다.
v2와 v3, 어떤 걸 쓰면 좋을까
v3가 모든 면에서 우월한 것은 아닙니다. 용도에 따라 선택이 달라집니다.
v3를 쓰면 좋은 경우
• 오디오북, 게임, 애니메이션 등 감정 표현이 중요한 콘텐츠
• 팟캐스트처럼 여러 사람이 대화하는 형식
• 동남아시아·아프리카 등 v2에서 지원하지 않던 언어가 필요할 때
v2를 유지하는 게 나은 경우
• 기업 교육, 프레젠테이션 등 일관되고 안정적인 톤이 필요할 때
• 10분 이상의 긴 오디오를 한 번에 생성할 때 (v3는 최대 약 5분, v2는 약 10분)
• 비용이 중요할 때 — v2가 글자당 가격이 더 저렴합니다
누가 어디에 활용할 수 있나
유튜버·팟캐스터: 대본만 작성하면 여러 화자가 등장하는 오디오 콘텐츠를 바로 만들 수 있습니다. 게스트 섭외 없이도 대담 형식 콘텐츠 제작이 가능합니다.
게임·앱 개발자: NPC(게임 속 등장인물) 대사에 감정을 입혀 몰입감을 높일 수 있습니다. 속삭임, 외침, 웃음 등을 텍스트 태그만으로 제어합니다.
글로벌 사업자: 70개 이상 언어로 제품 소개 영상의 내레이션을 만들 수 있습니다. 각 언어별 성우를 따로 고용하는 비용과 시간을 크게 줄일 수 있습니다.
교육 콘텐츠 제작자: 온라인 강의에 자연스러운 AI 음성을 사용하되, 중요한 부분에서 톤을 바꿔 학습자의 주의를 끌 수 있습니다.
바로 써보는 방법
ElevenLabs 웹사이트에서 무료 계정을 만들고, Text to Speech에서 모델을 Eleven v3로 선택하면 바로 사용할 수 있습니다. 무료 계정에도 매월 일정량의 크레딧이 제공됩니다.
개발자라면 API로도 접근 가능합니다. Python과 JavaScript SDK가 공식 지원됩니다.
# Python으로 Eleven v3 음성 생성
pip install elevenlabs
from elevenlabs import ElevenLabs
client = ElevenLabs(api_key="your-api-key")
audio = client.text_to_speech.convert(
text="안녕하세요, Eleven v3입니다.",
voice_id="your-voice-id",
model_id="eleven_v3"
)
음성 AI 시장의 판도
ElevenLabs는 2026년 2월 세쿼이아 캐피탈 등으로부터 5억 달러(약 6,700억 원)를 투자받으며 기업 가치 110억 달러(약 14조 원)를 인정받았습니다. 음성 합성 시장에서 OpenAI, 구글, 아마존과 경쟁하고 있지만, 감정 표현과 다국어 지원에서는 현재 가장 앞서 있다는 평가를 받고 있습니다.
특히 v3의 오디오 태그 기능은 기존 경쟁 서비스에서는 찾아보기 어려운 차별점입니다. "AI가 만든 목소리는 로봇 같다"는 편견을 깨는 데 한 발짝 더 다가간 업데이트입니다.
AI와 바이브코딩에 대해 더 알고 싶다면 무료 학습 가이드를 확인해보시기 바랍니다.
출처