2026-03-18AI 음성오픈소스음성 합성ChatterboxResemble AI음성 복제

내 목소리를 10초 만에 복제하는 무료 AI가 나왔습니다 — Chatterbox, 깃허브 스타 2만 3천

오픈소스 음성 AI Chatterbox가 ElevenLabs를 블라인드 테스트에서 65% 대 24%로 이겼습니다. 한국어 포함 23개 언어 지원, MIT 라이선스 무료, 10초 음성만으로 목소리 복제가 가능합니다.

ElevenLabs 같은 유료 AI 음성 서비스를 쓰지 않아도, 내 목소리를 그대로 복제하는 AI를 무료로 쓸 수 있게 됐습니다. Resemble AI가 만든 오픈소스 프로젝트 Chatterbox가 깃허브 스타 2만 3,549개를 기록하며 오늘 트렌딩 1위에 올랐습니다. 한국어를 포함한 23개 언어를 지원하고, 누구나 무료로 사용할 수 있는 MIT 라이선스입니다.

Chatterbox Turbo — Resemble AI의 오픈소스 음성 합성 모델

ElevenLabs를 블라인드 테스트에서 이겼다

가장 주목할 점은 성능입니다. 50명의 평가자가 어떤 AI가 만든 음성인지 모른 채 비교한 블라인드 테스트(Podonos CSMOS 평가)에서, Chatterbox Turbo는 업계 선두 유료 서비스들을 모두 이겼습니다.

블라인드 선호도 테스트 결과 (50명 평가, 각 50개 음성 샘플)

• vs ElevenLabs Turbo v2.5 → Chatterbox 65.3% : ElevenLabs 24.5%

• vs Cartesia Sonic 3 → Chatterbox 49.8% : Cartesia 39.8%

• vs VibeVoice 7B → Chatterbox 59.1% : VibeVoice 31.6%

Chatterbox Turbo vs ElevenLabs, Cartesia, VibeVoice 블라인드 선호도 비교 차트

특히 ElevenLabs와의 비교에서 2.6배 이상의 선호도 차이를 보인 것이 인상적입니다. 무료 오픈소스가 월 수십 달러짜리 유료 서비스를 품질로 이긴 셈입니다.

세 가지 모델, 용도별로 골라 쓴다

Chatterbox는 하나의 모델이 아니라 용도별 3종 세트입니다.

1. Chatterbox-Turbo (3억 5천만 파라미터)

영어 전용. 속도에 최적화된 모델입니다. 기존 10단계였던 음성 생성 과정을 1단계로 압축해서 실시간 대화가 가능합니다. AI 챗봇이나 고객 상담 AI에 목소리를 입힐 때 적합합니다. 텍스트에 [laugh], [cough], [chuckle] 같은 태그를 넣으면 웃음, 기침, 킥킥거림이 자연스럽게 들어갑니다.

2. Chatterbox-Multilingual (5억 파라미터)

한국어(ko)를 포함해 아랍어, 중국어, 일본어, 프랑스어, 독일어, 스페인어 등 23개 언어를 지원합니다. 10초짜리 음성 샘플만 주면 그 사람의 목소리를 복제해서 다른 언어로 말하게 할 수 있습니다.

3. Chatterbox Original (5억 파라미터)

영어 전용. 감정의 강도(exaggeration)와 원본 목소리 충실도(CFG weight)를 세밀하게 조절할 수 있습니다. 오디오북이나 팟캐스트처럼 표현력이 중요한 콘텐츠 제작에 적합합니다.

10초 녹음이면 내 목소리를 복제한다

Chatterbox의 음성 복제(voice cloning)는 별도 학습이 필요 없는 제로샷 방식입니다. 10초 정도의 음성 파일 하나만 있으면, AI가 그 목소리의 특징을 파악해서 어떤 텍스트든 그 목소리로 읽어줍니다.

예를 들어, 유튜버가 자기 목소리 10초를 녹음해두면 — 대본만 넣으면 자신의 목소리로 나레이션이 자동 생성됩니다. 한국어 대본도 가능합니다.

AI가 만든 음성에는 '디지털 워터마크'가 자동으로 찍힌다

Chatterbox로 생성된 모든 음성에는 PerTh(Perceptual Threshold) 워터마크가 자동으로 삽입됩니다. 사람 귀에는 들리지 않지만, AI 탐지 도구로는 거의 100% 정확도로 AI 생성 여부를 확인할 수 있습니다. MP3 변환이나 편집을 거쳐도 워터마크는 살아남습니다.

딥페이크 우려가 커지는 상황에서, 무료 도구가 책임 있는 AI 사용을 기본 내장한 점은 높이 평가할 만합니다.

직접 사용해보기

파이썬이 설치된 컴퓨터라면 바로 사용할 수 있습니다. NVIDIA GPU가 필요하며, Turbo 모델 기준 약 4~6GB VRAM이면 충분합니다. 메모리 최적화 옵션을 켜면 1.5GB까지도 가능하고, RTX 4090에서는 첫 음성까지 약 0.5초 걸립니다.

# 설치
pip install chatterbox-tts

# 파이썬 코드 — Turbo 모델로 음성 생성
import torchaudio as ta
from chatterbox.tts_turbo import ChatterboxTurboTTS

model = ChatterboxTurboTTS.from_pretrained(device="cuda")

# [laugh] 태그로 자연스러운 웃음 삽입
text = "안녕하세요 [laugh], 오늘 날씨가 정말 좋네요!"
wav = model.generate(text, audio_prompt_path="내목소리_10초.wav")
ta.save("결과.wav", wav, model.sr)

# 한국어 음성 — Multilingual 모델
from chatterbox.mtl_tts import ChatterboxMultilingualTTS

model = ChatterboxMultilingualTTS.from_pretrained(device="cuda")
text = "안녕하세요, 오늘 일정을 알려드리겠습니다."
wav = model.generate(text, language_id="ko")
ta.save("한국어_결과.wav", wav, model.sr)

코딩 없이 바로 체험하고 싶다면 HuggingFace Turbo 데모나 Multilingual 데모에서 웹브라우저로 바로 테스트할 수 있습니다.

누가 쓰면 좋을까

콘텐츠 크리에이터라면 자기 목소리로 나레이션을 자동화할 수 있습니다. 개발자라면 AI 챗봇이나 고객 상담 시스템에 자연스러운 음성을 무료로 추가할 수 있습니다. 교육자라면 강의 콘텐츠를 23개 언어로 자동 더빙할 수 있습니다.

특히 ElevenLabs에 월 5~99달러를 내고 있는 분이라면, 동일하거나 더 나은 품질을 완전 무료로 얻을 수 있다는 점에서 주목할 가치가 있습니다. 다만 GPU가 없는 환경에서는 HuggingFace 무료 데모를 활용하거나, Resemble AI의 유료 클라우드 서비스(200ms 이하 초저지연)를 고려해볼 수 있습니다.

앞으로의 전망

AI 음성 합성 시장은 ElevenLabs, OpenAI, 구글 등 대기업이 경쟁하는 뜨거운 분야입니다. Chatterbox는 이 시장에서 오픈소스의 힘을 증명한 사례입니다. 2백만 건 이상의 다운로드, 3천 개 이상의 포크(fork), 그리고 활발한 디스코드 커뮤니티가 이를 뒷받침합니다.

AI 음성 기술이 무료로 풀리면서, 앞으로 개인 크리에이터와 소규모 팀도 대기업 수준의 음성 콘텐츠를 만들 수 있는 시대가 열리고 있습니다.

관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기

출처

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독