ElevenLabs 유료인데 — Gemini 3.1 Flash Live, 95.9% 정확도에 시간당 490원
Google이 Gemini 3.1 Flash Live를 출시했습니다. 기존 3단계 음성 파이프라인을 없애고 오디오를 직접 처리해 응답 속도를 크게 줄였습니다. Big Bench Audio 기준 95.9% 정확도, 시간당 490원 가격.
음성 AI를 사용해본 적 있다면 한 번쯤 이런 경험을 하셨을 겁니다. 말을 마쳤는데 AI가 대답하기까지 어색한 침묵이 흐르는 순간. 그 짧은 공백이 자연스러운 대화를 방해하고, 결국 "역시 AI는 아직 멀었어"라는 생각을 하게 만들죠. Google이 2026년 3월 26일 공개한 Gemini 3.1 Flash Live는 바로 그 문제를 정면으로 해결합니다.
1. 기존 음성 AI는 왜 느리고 어색했나
지금까지 대부분의 AI 음성 서비스는 세 단계를 거쳤습니다. 첫째, 음성인식(ASR)이 사람의 말을 텍스트로 변환합니다. 둘째, 텍스트가 된 문장을 언어 모델(LLM)이 이해하고 답변을 생성합니다. 셋째, 음성합성(TTS)이 그 텍스트를 다시 음성으로 바꿔줍니다. 이 세 단계를 '파이프라인(여러 처리 단계를 순서대로 연결한 구조)'이라고 부릅니다.
문제는 각 단계마다 시간이 걸린다는 점입니다. 음성을 텍스트로 바꾸는 데 0.3초, AI가 답변을 만드는 데 0.5~1초, 다시 음성으로 바꾸는 데 0.2초. 합산하면 1~2초의 지연이 발생합니다. 사람끼리의 대화에서는 0.2초만 늦어도 어색함을 느끼는데, AI와 대화할 때는 이 지연을 그냥 감수해야 했습니다.
또 다른 문제는 정보 손실입니다. 음성을 텍스트로 변환하는 과정에서 말하는 사람의 감정, 억양, 강조점 같은 중요한 정보가 사라집니다. "정말요?"라는 말도 놀라움의 억양인지 의심의 억양인지 텍스트만 봐서는 알 수 없습니다. AI가 맥락을 정확히 파악하지 못하는 이유 중 하나가 바로 이것입니다.
2. Gemini 3.1 Flash Live가 다른 이유 — 오디오를 직접 처리
Gemini 3.1 Flash Live는 이 3단계 파이프라인을 완전히 없앴습니다. 음성을 텍스트로 변환하는 과정 없이, 오디오 신호 자체를 AI 모델이 직접 이해하고 처리합니다. 이를 네이티브 멀티모달 아키텍처(텍스트·이미지·오디오 등 여러 형태의 데이터를 처음부터 함께 이해할 수 있도록 설계된 AI 구조)라고 합니다.
구체적으로는 원시 16비트 PCM(디지털 오디오를 저장하는 가장 기본적인 형식) 오디오를 16kHz(1초에 16,000번 샘플링하는 고품질 음성 처리 방식)로 처리합니다. 이 방식은 마치 사람이 귀로 소리를 직접 듣고 이해하는 것처럼, 중간 변환 과정 없이 AI가 음성의 모든 정보를 그대로 받아들입니다.
덕분에 두 가지 큰 장점이 생겼습니다. 첫째, 응답 속도가 빨라졌습니다. 변환 과정이 없으니 지연 시간이 줄어듭니다. 둘째, 감정과 억양을 이해할 수 있게 됐습니다. 텍스트로 변환하면 사라지던 정보들이 그대로 보존됩니다. 소음이 많은 환경에서도 안정적으로 동작하고, 말하는 사람의 피치(목소리 높낮이)와 감정 상태까지 감지할 수 있습니다.
또한 개발자들이 정확도와 응답 속도 사이의 균형을 직접 조절할 수 있는 '구성 가능한 추론 수준(사용자가 AI의 처리 깊이를 상황에 맞게 조정하는 기능)' 기능도 제공합니다. 정확도가 중요한 상황이면 높은 추론 모드를, 빠른 응답이 필요하면 최소 추론 모드를 선택할 수 있습니다.
3. 실제 성능 수치 — ElevenLabs와 비교하면?
성능을 측정하기 위해 Big Bench Audio 벤치마크(AI 음성 모델의 이해력과 정확도를 평가하는 표준 테스트)를 활용했습니다. 결과는 인상적입니다.
- 높은 추론 모드: 정확도 95.9%, 평균 응답 시간 2.98초
- 최소 추론 모드: 정확도 70.5%, 평균 응답 시간 0.96초
- ComplexFuncBench Audio(복잡한 다단계 음성 명령 처리 능력 평가): 90.8%
업계 1위는 Step-Audio R1.1 Realtime(97.0%)이지만, Gemini 3.1 Flash Live는 95.9%로 당당히 2위를 기록했습니다. 특히 90.8%의 ComplexFuncBench Audio 점수는 "예약하고 나서 일정 확인해줘"처럼 여러 단계를 거치는 복잡한 명령도 높은 정확도로 처리한다는 뜻입니다.
ElevenLabs는 현재 가장 인기 있는 음성 AI 서비스 중 하나입니다. 월 $22~$99의 구독 요금으로 고품질 음성을 제공하지만, 실시간 대화형 처리보다는 텍스트를 음성으로 변환하는 데 특화돼 있습니다. Gemini 3.1 Flash Live는 실시간 대화 처리에 최적화된 모델로, 챗봇·고객센터·음성 비서 등의 용도에서 직접 비교가 가능합니다.
4. 가격은 얼마? — 시간당 490원의 의미
Gemini 3.1 Flash Live의 가격 구조는 사용한 만큼만 내는 종량제(사용량에 비례해 요금을 내는 방식)입니다.
- 오디오 입력: 시간당 $0.35 (약 490원)
- 오디오 출력: 시간당 $1.40 (약 1,960원)
실제로 어느 정도 비용이 드는지 계산해볼까요? 하루 1시간씩 AI 음성 서비스를 운영한다고 가정하면, 입력 기준으로 월 약 14,700원입니다. ElevenLabs 월 $22(약 30,800원) 구독과 비교하면 절반 이하의 비용으로 더 높은 정확도를 얻을 수 있습니다. 물론 출력 비용까지 합산하면 달라지지만, 입력 위주의 음성인식 서비스라면 매우 합리적인 가격입니다.
서비스 접근 방식도 다양합니다. Gemini Live API를 통해 직접 개발할 수 있고, 코딩 없이도 Google AI Studio에서 테스트해볼 수 있습니다. 검색 기능과 연동된 Search Live도 지원됩니다.
5. 개발자라면? — 지금 시작하는 방법
Python으로 Gemini 3.1 Flash Live를 사용하려면 먼저 Google의 공식 라이브러리를 설치해야 합니다.
pip install google-generativeai
설치 후 Google AI Studio에서 API 키를 발급받아 시작할 수 있습니다. 실시간 음성 스트리밍을 위한 간단한 예시 코드는 다음과 같습니다.
import google.generativeai as genai
# API 키 설정
genai.configure(api_key="YOUR_API_KEY")
# Gemini 3.1 Flash Live 모델 선택
model = genai.GenerativeModel("gemini-3.1-flash-live")
# 실시간 음성 세션 시작 (높은 추론 모드)
config = {
"response_modalities": ["AUDIO"],
"speech_config": {
"voice_config": {"prebuilt_voice_config": {"voice_name": "Kore"}}
},
"generation_config": {
"thinking_mode": "HIGH" # HIGH / LOW 선택 가능
}
}
print("Gemini 3.1 Flash Live 준비 완료!")
print("정확도 최대 95.9%, 응답 시간 약 2.98초")
더 자세한 내용은 Google DeepMind 공식 모델 카드와 The Decoder 분석 기사를 참고하세요.
비개발자라도 Google AI Studio에 접속하면 코드 없이도 Gemini 3.1 Flash Live를 직접 체험해볼 수 있습니다. 마이크를 켜고 말을 걸어보면, 기존 AI 음성과 얼마나 다른지 바로 느낄 수 있습니다.
음성 AI 시장은 빠르게 진화하고 있습니다. ElevenLabs가 음성 합성의 표준을 세웠다면, Gemini 3.1 Flash Live는 실시간 음성 대화의 새 기준을 제시합니다. 시간당 490원이라는 합리적인 가격과 95.9%라는 높은 정확도, 그리고 구성 가능한 추론 수준까지 — 음성 AI를 진지하게 검토하고 있다면 지금 테스트해볼 가장 유력한 후보입니다.
관련 콘텐츠 — Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기