2026-03-28Gemini구글AI 음성실시간 음성GPT-4o음성 AI

Gemini 3.1 Flash Live 출시 — 95.9% 벤치마크, ElevenLabs·GPT-4o보다 저렴하고 자연스럽다

Google이 실시간 음성 AI 모델 Gemini 3.1 Flash Live를 공개했습니다. Big Bench Audio 벤치마크에서 95.9%를 달성했으며, 오디오 입력 $0.35/시간이라는 경쟁력 있는 가격으로 ElevenLabs와 OpenAI Realtime API에 도전장을 내밀었습니다.

2026년 3월, Google이 실시간 음성 AI 경쟁에 새로운 패를 꺼냈습니다. Gemini 3.1 Flash Live는 Google이 '지금까지 만든 가장 자연스러운 AI 음성 모델'이라고 직접 표현한 제품입니다. 단순히 말을 인식하는 수준을 넘어, 감정을 감지하고 소음 속에서도 대화를 이어가며, 실제 사람과 대화하는 것처럼 자연스러운 흐름을 만들어냅니다.

Big Bench Audio 95.9% — 업계 2위, 전 세계 200개국 지원

Gemini 3.1 Flash Live는 Big Bench Audio(AI 음성 이해 능력을 테스트하는 표준 벤치마크로, 발음 인식·감정 해석·소음 속 대화 등 다양한 음성 과제를 평가하는 지표) 기준 95.9%를 기록해 전체 2위에 올랐습니다. 1위는 Step-Audio R1.1 Realtime으로 97.0%를 달성했으며, Gemini 3.1 Flash Live는 OpenAI와 ElevenLabs의 음성 모델들을 모두 앞섰습니다.

서비스 지원 범위는 200개국 이상으로, 출시 시점부터 글로벌 스케일을 확보했습니다. Gemini Live API, Google AI Studio, Gemini Live, Search Live를 통해 접근할 수 있습니다. Google AI Studio(구글이 제공하는 웹 기반 개발자 실험 환경으로, 코드 없이 AI 모델을 테스트하고 프로토타입을 만들 수 있는 공간)에서는 별도 설치 없이 바로 음성 모델을 테스트해볼 수 있습니다.

thinking level 설정 — 품질과 속도, 직접 선택하세요

Gemini 3.1 Flash Live의 가장 독특한 기능 중 하나는 thinking level(AI가 응답을 생성하기 전에 얼마나 깊이 추론할지를 조절하는 설정값으로, 높을수록 정확하지만 응답이 느려지고 낮을수록 빠르지만 단순한 답변을 내놓는 트레이드오프 구조) 설정입니다. 개발자는 이 값을 조정해 서비스 특성에 맞는 품질-속도 균형을 직접 선택할 수 있습니다.

High (고품질 모드)

정확도: 95.9%
응답 지연: 2.98초
적합한 용도: 고객 상담, 의료·법률 안내, 복잡한 질의응답

Minimal (빠른 반응 모드)

정확도: 70.5%
응답 지연: 0.96초
적합한 용도: 게임 캐릭터, 실시간 내비게이션, 간단한 명령 수행

High 모드와 Minimal 모드 사이에는 분명한 트레이드오프(trade-off — 한 가지를 얻으면 다른 것을 포기해야 하는 상충 관계)가 존재합니다. 2.98초와 0.96초의 지연 차이는 단순한 숫자가 아닙니다. 사람의 대화에서 3초는 어색한 침묵이고, 1초는 자연스러운 생각의 전환으로 느껴집니다. 어떤 서비스를 만드느냐에 따라 최적의 thinking level이 달라집니다.

가격 비교 — ElevenLabs·OpenAI보다 저렴한 이유

Gemini 3.1 Flash Live의 가격은 전작 Gemini 2.5와 동일하게 유지됩니다. 오디오 입력 $0.35/시간, 오디오 출력 $1.40/시간입니다. 이 가격이 얼마나 경쟁력 있는지 확인해보겠습니다.

서비스	오디오 입력	오디오 출력	Big Bench 정확도
Gemini 3.1 Flash Live	$0.35/시간	$1.40/시간	95.9%
OpenAI Realtime API	$0.10/분 내외	$0.20/분 내외	약 90% 수준
ElevenLabs Conversational AI	별도 문의	별도 문의	공개 미정
Step-Audio R1.1 Realtime (1위)	공개 미정	공개 미정	97.0%

Gemini 3.1 Flash Live는 AI 음성 시장에서 가장 저렴한 옵션 수준의 가격을 유지하면서도, 벤치마크 2위라는 성능을 확보했습니다. Google의 전략은 명확합니다. 음성 AI를 특수 기업만의 기술이 아니라, 누구나 앱에 쉽게 통합할 수 있는 범용 인프라로 만들겠다는 것입니다.

Gemini Live API 시작하기 — 설치부터 연결까지

Gemini Live API(실시간으로 AI와 음성 대화를 주고받을 수 있는 인터페이스로, 웹소켓 기반으로 오디오 스트림을 전송하고 즉각적인 응답을 받을 수 있는 Google의 개발자 도구)를 사용하려면 먼저 Python 환경에 google-generativeai 패키지를 설치해야 합니다.

pip install google-generativeai

설치 후에는 Google AI Studio에서 발급받은 API 키를 환경변수로 설정하고, 다음과 같이 실시간 음성 세션을 시작할 수 있습니다.

import google.generativeai as genai
import os

genai.configure(api_key=os.environ["GEMINI_API_KEY"])

# Gemini 3.1 Flash Live 모델 지정
model = genai.GenerativeModel("gemini-3.1-flash-live")

# thinking level 설정 (HIGH / MINIMAL)
session = model.start_chat(
    generation_config={"thinking_level": "HIGH"}
)

print("Gemini 3.1 Flash Live 세션이 시작되었습니다.")

코딩 없이 바로 테스트해보고 싶다면 aistudio.google.com에 접속하면 됩니다. Google 계정만 있으면 별도 설치 없이 브라우저에서 Gemini 3.1 Flash Live의 음성 기능을 직접 체험할 수 있습니다.

실시간 음성 AI가 바꾸는 것들 — 감정 인식부터 소음 내성까지

Gemini 3.1 Flash Live가 기존 모델들과 차별화되는 지점은 크게 세 가지입니다. 첫째, 감정 감지(emotion detection — 대화 상대의 목소리 톤, 억양, 말의 속도 등을 분석해 기쁨·슬픔·불만·긴장 등의 감정 상태를 파악하는 기능) 능력이 크게 향상되었습니다. 단순히 말을 텍스트로 변환하는 것을 넘어, 화자의 감정 맥락을 이해하고 그에 맞는 응답을 생성합니다.

둘째, 소음 내성(noise robustness — 카페·거리·공사장 등 배경 소음이 있는 환경에서도 음성을 정확히 인식하는 능력)이 개선되었습니다. 완벽하게 조용한 환경이 아니더라도 자연스러운 대화가 가능합니다. 셋째, 대화 흐름 자체가 더 자연스러워졌습니다. AI가 응답할 타이밍을 스스로 조절하고, 사람이 말을 끊거나 수정해도 어색하지 않게 대응합니다.

이러한 개선은 단순한 기술 발전이 아니라, 실용적인 변화를 의미합니다. 콜센터 자동화, 언어 학습 앱, 장애인을 위한 보조 기술, 차량 내 음성 어시스턴트 등 실생활 적용 범위가 한층 넓어졌습니다.

출처

The Decoder

AI 소식, 가장 빠르고 쉽게 받아보세요

누구나 이해할 수 있도록, 가장 자세하고 쉽게 알려드립니다

텔레그램 채널 구독