김과장
AI 뉴스 목록
2026-03-28Google Gemini음성 AI실시간 AIElevenLabs음성인식

ElevenLabs 유료인데 — Gemini 3.1 Flash Live, 95.9% 정확도에 시간당 490원

Google이 Gemini 3.1 Flash Live를 출시했습니다. 기존 3단계 음성 파이프라인을 없애고 오디오를 직접 처리해 응답 속도를 크게 줄였습니다. Big Bench Audio 기준 95.9% 정확도, 시간당 490원 가격.


음성 AI를 사용해본 적 있다면 한 번쯤 이런 경험을 하셨을 겁니다. 말을 마쳤는데 AI가 대답하기까지 어색한 침묵이 흐르는 순간. 그 짧은 공백이 자연스러운 대화를 방해하고, 결국 "역시 AI는 아직 멀었어"라는 생각을 하게 만들죠. Google이 2026년 3월 26일 공개한 Gemini 3.1 Flash Live는 바로 그 문제를 정면으로 해결합니다.

1. 기존 음성 AI는 왜 느리고 어색했나

지금까지 대부분의 AI 음성 서비스는 세 단계를 거쳤습니다. 첫째, 음성인식(ASR)이 사람의 말을 텍스트로 변환합니다. 둘째, 텍스트가 된 문장을 언어 모델(LLM)이 이해하고 답변을 생성합니다. 셋째, 음성합성(TTS)이 그 텍스트를 다시 음성으로 바꿔줍니다. 이 세 단계를 '파이프라인(여러 처리 단계를 순서대로 연결한 구조)'이라고 부릅니다.

문제는 각 단계마다 시간이 걸린다는 점입니다. 음성을 텍스트로 바꾸는 데 0.3초, AI가 답변을 만드는 데 0.5~1초, 다시 음성으로 바꾸는 데 0.2초. 합산하면 1~2초의 지연이 발생합니다. 사람끼리의 대화에서는 0.2초만 늦어도 어색함을 느끼는데, AI와 대화할 때는 이 지연을 그냥 감수해야 했습니다.

또 다른 문제는 정보 손실입니다. 음성을 텍스트로 변환하는 과정에서 말하는 사람의 감정, 억양, 강조점 같은 중요한 정보가 사라집니다. "정말요?"라는 말도 놀라움의 억양인지 의심의 억양인지 텍스트만 봐서는 알 수 없습니다. AI가 맥락을 정확히 파악하지 못하는 이유 중 하나가 바로 이것입니다.

2. Gemini 3.1 Flash Live가 다른 이유 — 오디오를 직접 처리

Gemini 3.1 Flash Live는 이 3단계 파이프라인을 완전히 없앴습니다. 음성을 텍스트로 변환하는 과정 없이, 오디오 신호 자체를 AI 모델이 직접 이해하고 처리합니다. 이를 네이티브 멀티모달 아키텍처(텍스트·이미지·오디오 등 여러 형태의 데이터를 처음부터 함께 이해할 수 있도록 설계된 AI 구조)라고 합니다.

구체적으로는 원시 16비트 PCM(디지털 오디오를 저장하는 가장 기본적인 형식) 오디오를 16kHz(1초에 16,000번 샘플링하는 고품질 음성 처리 방식)로 처리합니다. 이 방식은 마치 사람이 귀로 소리를 직접 듣고 이해하는 것처럼, 중간 변환 과정 없이 AI가 음성의 모든 정보를 그대로 받아들입니다.

덕분에 두 가지 큰 장점이 생겼습니다. 첫째, 응답 속도가 빨라졌습니다. 변환 과정이 없으니 지연 시간이 줄어듭니다. 둘째, 감정과 억양을 이해할 수 있게 됐습니다. 텍스트로 변환하면 사라지던 정보들이 그대로 보존됩니다. 소음이 많은 환경에서도 안정적으로 동작하고, 말하는 사람의 피치(목소리 높낮이)와 감정 상태까지 감지할 수 있습니다.

또한 개발자들이 정확도와 응답 속도 사이의 균형을 직접 조절할 수 있는 '구성 가능한 추론 수준(사용자가 AI의 처리 깊이를 상황에 맞게 조정하는 기능)' 기능도 제공합니다. 정확도가 중요한 상황이면 높은 추론 모드를, 빠른 응답이 필요하면 최소 추론 모드를 선택할 수 있습니다.

Gemini 3.1 Flash Live 아키텍처 다이어그램
Gemini 3.1 Flash Live의 네이티브 오디오 처리 구조 (출처: Google DeepMind)

3. 실제 성능 수치 — ElevenLabs와 비교하면?

성능을 측정하기 위해 Big Bench Audio 벤치마크(AI 음성 모델의 이해력과 정확도를 평가하는 표준 테스트)를 활용했습니다. 결과는 인상적입니다.

  • 높은 추론 모드: 정확도 95.9%, 평균 응답 시간 2.98초
  • 최소 추론 모드: 정확도 70.5%, 평균 응답 시간 0.96초
  • ComplexFuncBench Audio(복잡한 다단계 음성 명령 처리 능력 평가): 90.8%

업계 1위는 Step-Audio R1.1 Realtime(97.0%)이지만, Gemini 3.1 Flash Live는 95.9%로 당당히 2위를 기록했습니다. 특히 90.8%의 ComplexFuncBench Audio 점수는 "예약하고 나서 일정 확인해줘"처럼 여러 단계를 거치는 복잡한 명령도 높은 정확도로 처리한다는 뜻입니다.

ElevenLabs는 현재 가장 인기 있는 음성 AI 서비스 중 하나입니다. 월 $22~$99의 구독 요금으로 고품질 음성을 제공하지만, 실시간 대화형 처리보다는 텍스트를 음성으로 변환하는 데 특화돼 있습니다. Gemini 3.1 Flash Live는 실시간 대화 처리에 최적화된 모델로, 챗봇·고객센터·음성 비서 등의 용도에서 직접 비교가 가능합니다.

Gemini 3.1 Flash Live 성능 비교표
Big Bench Audio 벤치마크 결과 비교 (출처: MarkTechPost)

4. 가격은 얼마? — 시간당 490원의 의미

Gemini 3.1 Flash Live의 가격 구조는 사용한 만큼만 내는 종량제(사용량에 비례해 요금을 내는 방식)입니다.

  • 오디오 입력: 시간당 $0.35 (약 490원)
  • 오디오 출력: 시간당 $1.40 (약 1,960원)

실제로 어느 정도 비용이 드는지 계산해볼까요? 하루 1시간씩 AI 음성 서비스를 운영한다고 가정하면, 입력 기준으로 월 약 14,700원입니다. ElevenLabs 월 $22(약 30,800원) 구독과 비교하면 절반 이하의 비용으로 더 높은 정확도를 얻을 수 있습니다. 물론 출력 비용까지 합산하면 달라지지만, 입력 위주의 음성인식 서비스라면 매우 합리적인 가격입니다.

서비스 접근 방식도 다양합니다. Gemini Live API를 통해 직접 개발할 수 있고, 코딩 없이도 Google AI Studio에서 테스트해볼 수 있습니다. 검색 기능과 연동된 Search Live도 지원됩니다.

5. 개발자라면? — 지금 시작하는 방법

Python으로 Gemini 3.1 Flash Live를 사용하려면 먼저 Google의 공식 라이브러리를 설치해야 합니다.

pip install google-generativeai

설치 후 Google AI Studio에서 API 키를 발급받아 시작할 수 있습니다. 실시간 음성 스트리밍을 위한 간단한 예시 코드는 다음과 같습니다.

import google.generativeai as genai

# API 키 설정
genai.configure(api_key="YOUR_API_KEY")

# Gemini 3.1 Flash Live 모델 선택
model = genai.GenerativeModel("gemini-3.1-flash-live")

# 실시간 음성 세션 시작 (높은 추론 모드)
config = {
    "response_modalities": ["AUDIO"],
    "speech_config": {
        "voice_config": {"prebuilt_voice_config": {"voice_name": "Kore"}}
    },
    "generation_config": {
        "thinking_mode": "HIGH"  # HIGH / LOW 선택 가능
    }
}

print("Gemini 3.1 Flash Live 준비 완료!")
print("정확도 최대 95.9%, 응답 시간 약 2.98초")

더 자세한 내용은 Google DeepMind 공식 모델 카드The Decoder 분석 기사를 참고하세요.

비개발자라도 Google AI Studio에 접속하면 코드 없이도 Gemini 3.1 Flash Live를 직접 체험해볼 수 있습니다. 마이크를 켜고 말을 걸어보면, 기존 AI 음성과 얼마나 다른지 바로 느낄 수 있습니다.

음성 AI 시장은 빠르게 진화하고 있습니다. ElevenLabs가 음성 합성의 표준을 세웠다면, Gemini 3.1 Flash Live는 실시간 음성 대화의 새 기준을 제시합니다. 시간당 490원이라는 합리적인 가격과 95.9%라는 높은 정확도, 그리고 구성 가능한 추론 수준까지 — 음성 AI를 진지하게 검토하고 있다면 지금 테스트해볼 가장 유력한 후보입니다.

관련 콘텐츠Easy클코로 AI 시작하기 | 무료 학습 가이드 | AI 뉴스 더보기

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독