● Preview · 2026년 6월 출시
실시간 음성 통역 모델
실시간 음성 통역 모델
Gemini 3.5 Live Translate 전수분석
70개 이상 언어를 화자의 억양·속도·피치까지 보존하며 통역하는 speech-to-speech 모델. 기능·파라미터·가격·코드 레퍼런스와 RINDA 일본 미팅 통역봇 적용 검토.
TL;DR — 3줄 요약
1시간 ≈ 3,000원양방향 풀발화 기준. 한쪽/반절 발화 시 ~1,500원대. 통역사 대비 압도적 저비용.
오디오 → 오디오16kHz 입력 → 24kHz 출력 PCM. 텍스트 입력 불가, 전사(transcript) 부가 출력 가능.
파라미터 단 2개
targetLanguageCode + echoTargetLanguage 만으로 통역 설정 완료. 언어 자동 감지.1한눈에 보기
기존 5개 언어 한계를 70개+ 언어로 확장. 순차 번역이 아닌 "화자보다 몇 초 뒤를 따라가는" 연속 스트리밍 방식으로 어색한 멈춤이 없다.
핵심 차별점
- 억양·속도·피치 보존 — 단순 번역이 아니라 화자 음성 특성 유지
- 언어 자동 감지 — 수동 설정 없이 입력 언어 인식
- 연속 출력 — 문장 단위 대기 없이 몇 초 지연으로 흐르듯 통역
- 소음 환경 대응 — 배경 잡음 속에서도 동작
- 2000+ 언어 조합 — 한 미팅 안에서 다중 언어 동시 통역(Meet)
제공 채널 & 롤아웃
- Google AI Studio & Live API — 퍼블릭 프리뷰 (지금 사용 가능)
- Google Meet — 이달 일부 Workspace 고객 프라이빗 프리뷰
- Google Translate — Android/iOS 글로벌 롤아웃, Android "listening mode" 신규
- 도입 테스트사 — Grab(월 1천만+ 음성통화), CJ ENM, LiveKit
2가격 — 통역사 대신 쓸 수 있는가
청구는 입력+출력 오디오 토큰 총량 기준. 오디오는 초당 25 토큰으로 환산된다. 무료 티어로 테스트 후 유료 전환 가능.
| 항목 | 토큰 단가 (per 1M) | 오디오 분당 환산 | 무료 티어 |
|---|---|---|---|
| 입력 (말하는 음성) | $3.50 | $0.0053 / 분 | 무료 ✓ |
| 출력 (통역된 음성) | $21.00 | $0.0315 / 분 | 무료 ✓ |
| 합계 (양방향 활성) | — | $0.0368 / 분 | 제품개선 사용 동의 시 |
💰 RINDA 일본 미팅 실비 계산
1시간 양방향 풀발화
$2.21
≈ 3,050원 (₩1,380/$)
RINDA 방식 (반절 발화)
~$1.1
≈ 1,500원대
월 20회 미팅 (1h)
~3만원
통역사 1회 비용 미만
✓
결론: 1시간 내내 떠들어도 약 3,000원, RINDA가 운영하는 한쪽 발화 위주 방식이면 1,500원대. 일본 미팅마다 통역사를 부르는 비용 대비 사실상 무시할 수 있는 수준이다.
타 Live 모델 가격 비교
| 모델 | 입력 (오디오) | 출력 (오디오) | 특징 |
|---|---|---|---|
| 3.5 Live Translate | $3.50/M ($0.0053/분) | $21.0/M ($0.0315/분) | 통역 특화, 음성특성 보존 |
| 2.5 Flash Native Audio | $3.00/M | $12.0/M | 범용 대화 |
| 3.1 Flash Live | $3.00/M ($0.005/분) | $12.0/M ($0.018/분) | 범용 멀티모달 Live |
출력 단가가 범용 모델보다 높지만, 통역 품질·음성특성 보존·언어 자동감지를 직접 파이프라인으로 구현하는 비용을 감안하면 통역 용도에서는 더 경제적이다.
3모델 사양
프리뷰 단계 모델. 오디오 입력 → 오디오+텍스트 출력.
| 모델 ID | gemini-3.5-live-translate-preview |
| 입력 모달리티 | Audio (speech) |
| 출력 모달리티 | Audio (통역 음성) + Text (전사) |
| 입력 토큰 한계 | 131,072 |
| 출력 토큰 한계 | 65,536 |
| 지식 컷오프 | 2025년 1월 |
| 최신 업데이트 | 2026년 6월 |
| Live API | 지원 ✓ |
| 오디오 생성 | 지원 ✓ |
| Batch / 캐싱 / 함수호출 / thinking | 미지원 ✕ |
ℹ
모든 생성 음성에는 SynthID 워터마크가 삽입되어 AI 합성 여부를 탐지할 수 있다(허위정보 방지 목적).
4파라미터 레퍼런스
LiveConnectConfig 안에 설정. 통역 전용 핵심은 translationConfig 의 두 필드.
| 파라미터 | 타입 | 기본값 | 설명 |
|---|---|---|---|
targetLanguageCode 필수 |
string (BCP-47) | "en" |
번역 대상 언어 코드. 예: ja(일본어), ko(한국어), pl, zh-Hans |
echoTargetLanguage 선택 |
boolean | false |
true: 입력이 이미 대상 언어면 그대로 echo(따라말하기). false: 이미 대상 언어인 입력에는 침묵 |
responseModalities |
array | ["AUDIO"] |
응답 형식. 오디오만 지원 |
inputAudioTranscription 선택 |
object | — | 입력 음성의 텍스트 전사 활성화 (원문 자막용) |
outputAudioTranscription 선택 |
object | — | 통역된 출력 음성의 텍스트 전사 활성화 (번역 자막용) |
contextWindowCompression 선택 |
object | — | sliding window 압축. 15분 세션 한계를 넘기려면 필수 (§6 참조) |
⚠
echoTargetLanguage 동작 주의:
true 일 때 배경 소음이 아티팩트를 유발할 수 있다. 양방향 통역(예: 한↔일)에서는 두 세션을 각 방향으로 띄우거나, 자동감지+echo 조합을 신중히 설계해야 한다.5코드 예제
Python SDK / JavaScript SDK / raw WebSocket 세 가지 방식. 모델 ID는 동일.
Python · google-genai
from google import genai from google.genai import types client = genai.Client() config = types.LiveConnectConfig( response_modalities=["AUDIO"], input_audio_transcription=types.AudioTranscriptionConfig(), output_audio_transcription=types.AudioTranscriptionConfig(), translation_config=types.TranslationConfig( target_language_code="ja", # 일본어로 통역 echo_target_language=True, ), # 15분 한계 해제 (긴 미팅용) context_window_compression=types.ContextWindowCompressionConfig( sliding_window=types.SlidingWindow(), ), ) async with client.aio.live.connect( model="gemini-3.5-live-translate-preview", config=config ) as session: # 마이크 PCM 청크를 100ms 단위로 송신 await session.send_realtime_input( audio=types.Blob(data=chunk, mime_type="audio/pcm;rate=16000") ) async for response in session.receive(): if response.data: # 통역된 24kHz PCM 오디오 play(response.data) if response.go_away: # 곧 연결 종료 알림 print(response.go_away.time_left)
JavaScript · @google/genai
const session = await ai.live.connect({ model: 'gemini-3.5-live-translate-preview', config: { responseModalities: [Modality.AUDIO], translationConfig: { targetLanguageCode: 'ja', echoTargetLanguage: true, }, }, }); // 마이크 PCM 청크 송신 (base64) session.sendRealtimeInput({ audio: { data: chunk.toString('base64'), mimeType: 'audio/pcm;rate=16000', }, });
Raw WebSocket
// 프로덕션: ephemeral token 권장 (아래 §7) const WS_URL = `wss://generativelanguage.googleapis.com/ws/` + `google.ai.generativelanguage.v1beta.GenerativeService` + `.BidiGenerateContent?key=${API_KEY}`; const setupMessage = { setup: { model: 'models/gemini-3.5-live-translate-preview', generationConfig: { responseModalities: ['AUDIO'], translationConfig: { targetLanguageCode: 'ja', echoTargetLanguage: true, }, }, }, }; websocket.send(JSON.stringify(setupMessage)); // 오디오 송신 websocket.send(JSON.stringify({ realtimeInput: { audio: { data: b64, mimeType: 'audio/pcm;rate=16000' } } }));
오디오 I/O 사양
| 구분 | 사양 |
|---|---|
| 입력 | Raw 16-bit PCM · 16kHz · mono · little-endian · MIME audio/pcm;rate=16000 |
| 출력 | Raw 16-bit PCM · 24kHz · mono · little-endian |
| 권장 청크 | 100ms 단위 스트리밍 |
6세션 관리 — 긴 미팅을 위한 필수 설정
기본 세션은 짧다. 미팅 통역봇처럼 길게 쓰려면 압축·재개를 반드시 설정해야 한다.
세션 한계
| 오디오 전용 (압축 X) | 15분 |
| 오디오+영상 (압축 X) | 2분 |
| 압축 활성화 시 | 무제한 |
✓
contextWindowCompression + SlidingWindow 로 15분 한계 해제 → 1시간 미팅도 OK.끊김 방지 3종
- Session Resumption —
SessionResumptionConfig설정 시handle토큰 발급, 종료 후 2시간 내 재연결로 복구 - GoAway 메시지 — 종료 임박 시
go_away.time_left로 사전 통지 → 새 연결 미리 준비 - Context 압축 — sliding window 로 토큰 한계 도달 시 자동 요약
7인증 · 언어 · 제약
인증 (Ephemeral Token 권장)
클라이언트(브라우저/앱)에서 직접 연결할 땐 API 키 노출 금지 → 단기 토큰 사용.
wss://...v1alpha...
.BidiGenerateContentConstrained
?access_token={ephemeral_token}서버 측은 ?key=API_KEY 쿼리 파라미터 방식 사용.
언어 (70+ · 자동 감지)
입력 언어는 자동 감지, 출력만 targetLanguageCode 로 지정. BCP-47 코드 사용.
ja 일본어ko 한국어en 영어zh-Hans 중문es 스페인어fr 프랑스어de 독일어vi 베트남어th 태국어+ 60여 개
현재 제약사항 (프리뷰)
- 텍스트 입력 불가 — 오디오 입력 전용
- 언어 감지 한계 — 강한 악센트, 유사 언어 간, 빠른 언어 전환 시 정확도 저하
- 음성 일관성 — 긴 정적(무음) 후 음성 톤이 바뀔 수 있음
- 배경음 — 완전 필터링 미보장,
echoTargetLanguage:true시 아티팩트 유발 가능 - 미지원 기능 — 함수 호출, 캐싱, thinking, Batch API
8RINDA 일본 미팅 통역봇 적용 제안
현재 통역사를 끼고 진행하는 일본 미팅을 이 모델 기반 봇으로 대체하는 구성안.
권장 구성
- 양방향 2세션 — 한→일 세션, 일→한 세션 각각 띄워 각 화자 마이크에 연결
- 압축 ON —
contextWindowCompression로 1시간+ 미팅 무중단 - 전사 ON — input/output transcription 켜서 회의록 자동 생성
- Session Resumption — 네트워크 끊겨도 2시간 내 자동 복구
- Ephemeral Token — 클라이언트 직결 시 키 보호
기대 효과 & 검증 포인트
- 비용 — 미팅 1회(1h) 약 1,500~3,000원, 통역사 대비 99%↓
- 회의록 — 전사 텍스트로 한·일 양국어 회의록 자동화
- ⚠ 검증 필요 — 일본어 비즈니스 경어/전문용어 통역 품질 사전 테스트
- ⚠ 검증 필요 — 화자 겹침(crosstalk) 환경에서 언어 감지 정확도
- ⚠ 프리뷰 — SLA·rate limit 미확정, 중요 미팅엔 백업 통역 병행 권장
▶
다음 단계 제안: AI Studio에서 무료 티어로 일본어 PoC 세션을 띄워 ① 경어 통역 자연스러움 ② 지연(latency) ③ 회의록 전사 정확도를 실측한 뒤, 사내 미팅 1건에 백업 통역사와 병행 투입하여 비교 검증.