● Preview · 2026년 6월 출시

실시간 음성 통역 모델
Gemini 3.5 Live Translate 전수분석

70개 이상 언어를 화자의 억양·속도·피치까지 보존하며 통역하는 speech-to-speech 모델. 기능·파라미터·가격·코드 레퍼런스와 RINDA 일본 미팅 통역봇 적용 검토.

70+ 언어 audio-to-audio 저지연 모델 gemini-3.5-live-translate-preview SynthID 워터마크

TL;DR — 3줄 요약

1시간 ≈ 3,000원양방향 풀발화 기준. 한쪽/반절 발화 시 ~1,500원대. 통역사 대비 압도적 저비용.
오디오 → 오디오16kHz 입력 → 24kHz 출력 PCM. 텍스트 입력 불가, 전사(transcript) 부가 출력 가능.
파라미터 단 2개targetLanguageCode + echoTargetLanguage 만으로 통역 설정 완료. 언어 자동 감지.

1한눈에 보기

기존 5개 언어 한계를 70개+ 언어로 확장. 순차 번역이 아닌 "화자보다 몇 초 뒤를 따라가는" 연속 스트리밍 방식으로 어색한 멈춤이 없다.

핵심 차별점

  • 억양·속도·피치 보존 — 단순 번역이 아니라 화자 음성 특성 유지
  • 언어 자동 감지 — 수동 설정 없이 입력 언어 인식
  • 연속 출력 — 문장 단위 대기 없이 몇 초 지연으로 흐르듯 통역
  • 소음 환경 대응 — 배경 잡음 속에서도 동작
  • 2000+ 언어 조합 — 한 미팅 안에서 다중 언어 동시 통역(Meet)

제공 채널 & 롤아웃

  • Google AI Studio & Live API — 퍼블릭 프리뷰 (지금 사용 가능)
  • Google Meet — 이달 일부 Workspace 고객 프라이빗 프리뷰
  • Google Translate — Android/iOS 글로벌 롤아웃, Android "listening mode" 신규
  • 도입 테스트사 — Grab(월 1천만+ 음성통화), CJ ENM, LiveKit

2가격 — 통역사 대신 쓸 수 있는가

청구는 입력+출력 오디오 토큰 총량 기준. 오디오는 초당 25 토큰으로 환산된다. 무료 티어로 테스트 후 유료 전환 가능.

항목토큰 단가 (per 1M)오디오 분당 환산무료 티어
입력 (말하는 음성)$3.50$0.0053 / 분무료 ✓
출력 (통역된 음성)$21.00$0.0315 / 분무료 ✓
합계 (양방향 활성)$0.0368 / 분제품개선 사용 동의 시

💰 RINDA 일본 미팅 실비 계산

1시간 양방향 풀발화
$2.21
3,050원 (₩1,380/$)
RINDA 방식 (반절 발화)
~$1.1
1,500원대
월 20회 미팅 (1h)
~3만원
통역사 1회 비용 미만
결론: 1시간 내내 떠들어도 약 3,000원, RINDA가 운영하는 한쪽 발화 위주 방식이면 1,500원대. 일본 미팅마다 통역사를 부르는 비용 대비 사실상 무시할 수 있는 수준이다.

타 Live 모델 가격 비교

모델입력 (오디오)출력 (오디오)특징
3.5 Live Translate$3.50/M ($0.0053/분)$21.0/M ($0.0315/분)통역 특화, 음성특성 보존
2.5 Flash Native Audio$3.00/M$12.0/M범용 대화
3.1 Flash Live$3.00/M ($0.005/분)$12.0/M ($0.018/분)범용 멀티모달 Live

출력 단가가 범용 모델보다 높지만, 통역 품질·음성특성 보존·언어 자동감지를 직접 파이프라인으로 구현하는 비용을 감안하면 통역 용도에서는 더 경제적이다.

3모델 사양

프리뷰 단계 모델. 오디오 입력 → 오디오+텍스트 출력.

모델 IDgemini-3.5-live-translate-preview
입력 모달리티Audio (speech)
출력 모달리티Audio (통역 음성) + Text (전사)
입력 토큰 한계131,072
출력 토큰 한계65,536
지식 컷오프2025년 1월
최신 업데이트2026년 6월
Live API지원 ✓
오디오 생성지원 ✓
Batch / 캐싱 / 함수호출 / thinking미지원 ✕
모든 생성 음성에는 SynthID 워터마크가 삽입되어 AI 합성 여부를 탐지할 수 있다(허위정보 방지 목적).

4파라미터 레퍼런스

LiveConnectConfig 안에 설정. 통역 전용 핵심은 translationConfig 의 두 필드.

파라미터타입기본값설명
targetLanguageCode 필수 string (BCP-47)"en" 번역 대상 언어 코드. 예: ja(일본어), ko(한국어), pl, zh-Hans
echoTargetLanguage 선택 booleanfalse true: 입력이 이미 대상 언어면 그대로 echo(따라말하기). false: 이미 대상 언어인 입력에는 침묵
responseModalities array["AUDIO"] 응답 형식. 오디오만 지원
inputAudioTranscription 선택 object 입력 음성의 텍스트 전사 활성화 (원문 자막용)
outputAudioTranscription 선택 object 통역된 출력 음성의 텍스트 전사 활성화 (번역 자막용)
contextWindowCompression 선택 object sliding window 압축. 15분 세션 한계를 넘기려면 필수 (§6 참조)
echoTargetLanguage 동작 주의: true 일 때 배경 소음이 아티팩트를 유발할 수 있다. 양방향 통역(예: 한↔일)에서는 두 세션을 각 방향으로 띄우거나, 자동감지+echo 조합을 신중히 설계해야 한다.

5코드 예제

Python SDK / JavaScript SDK / raw WebSocket 세 가지 방식. 모델 ID는 동일.

Python · google-genai
from google import genai
from google.genai import types

client = genai.Client()

config = types.LiveConnectConfig(
    response_modalities=["AUDIO"],
    input_audio_transcription=types.AudioTranscriptionConfig(),
    output_audio_transcription=types.AudioTranscriptionConfig(),
    translation_config=types.TranslationConfig(
        target_language_code="ja",      # 일본어로 통역
        echo_target_language=True,
    ),
    # 15분 한계 해제 (긴 미팅용)
    context_window_compression=types.ContextWindowCompressionConfig(
        sliding_window=types.SlidingWindow(),
    ),
)

async with client.aio.live.connect(
    model="gemini-3.5-live-translate-preview", config=config
) as session:
    # 마이크 PCM 청크를 100ms 단위로 송신
    await session.send_realtime_input(
        audio=types.Blob(data=chunk, mime_type="audio/pcm;rate=16000")
    )
    async for response in session.receive():
        if response.data:            # 통역된 24kHz PCM 오디오
            play(response.data)
        if response.go_away:          # 곧 연결 종료 알림
            print(response.go_away.time_left)

오디오 I/O 사양

구분사양
입력Raw 16-bit PCM · 16kHz · mono · little-endian · MIME audio/pcm;rate=16000
출력Raw 16-bit PCM · 24kHz · mono · little-endian
권장 청크100ms 단위 스트리밍

6세션 관리 — 긴 미팅을 위한 필수 설정

기본 세션은 짧다. 미팅 통역봇처럼 길게 쓰려면 압축·재개를 반드시 설정해야 한다.

세션 한계

오디오 전용 (압축 X)15분
오디오+영상 (압축 X)2분
압축 활성화 시무제한
contextWindowCompression + SlidingWindow 로 15분 한계 해제 → 1시간 미팅도 OK.

끊김 방지 3종

  • Session ResumptionSessionResumptionConfig 설정 시 handle 토큰 발급, 종료 후 2시간 내 재연결로 복구
  • GoAway 메시지 — 종료 임박 시 go_away.time_left 로 사전 통지 → 새 연결 미리 준비
  • Context 압축 — sliding window 로 토큰 한계 도달 시 자동 요약

7인증 · 언어 · 제약

인증 (Ephemeral Token 권장)

클라이언트(브라우저/앱)에서 직접 연결할 땐 API 키 노출 금지 → 단기 토큰 사용.

wss://...v1alpha...
  .BidiGenerateContentConstrained
  ?access_token={ephemeral_token}

서버 측은 ?key=API_KEY 쿼리 파라미터 방식 사용.

언어 (70+ · 자동 감지)

입력 언어는 자동 감지, 출력만 targetLanguageCode 로 지정. BCP-47 코드 사용.

ja 일본어ko 한국어en 영어zh-Hans 중문es 스페인어fr 프랑스어de 독일어vi 베트남어th 태국어+ 60여 개

현재 제약사항 (프리뷰)

  • 텍스트 입력 불가 — 오디오 입력 전용
  • 언어 감지 한계 — 강한 악센트, 유사 언어 간, 빠른 언어 전환 시 정확도 저하
  • 음성 일관성 — 긴 정적(무음) 후 음성 톤이 바뀔 수 있음
  • 배경음 — 완전 필터링 미보장, echoTargetLanguage:true 시 아티팩트 유발 가능
  • 미지원 기능 — 함수 호출, 캐싱, thinking, Batch API

8RINDA 일본 미팅 통역봇 적용 제안

현재 통역사를 끼고 진행하는 일본 미팅을 이 모델 기반 봇으로 대체하는 구성안.

권장 구성

  • 양방향 2세션 — 한→일 세션, 일→한 세션 각각 띄워 각 화자 마이크에 연결
  • 압축 ONcontextWindowCompression 로 1시간+ 미팅 무중단
  • 전사 ON — input/output transcription 켜서 회의록 자동 생성
  • Session Resumption — 네트워크 끊겨도 2시간 내 자동 복구
  • Ephemeral Token — 클라이언트 직결 시 키 보호

기대 효과 & 검증 포인트

  • 비용 — 미팅 1회(1h) 약 1,500~3,000원, 통역사 대비 99%↓
  • 회의록 — 전사 텍스트로 한·일 양국어 회의록 자동화
  • ⚠ 검증 필요 — 일본어 비즈니스 경어/전문용어 통역 품질 사전 테스트
  • ⚠ 검증 필요 — 화자 겹침(crosstalk) 환경에서 언어 감지 정확도
  • ⚠ 프리뷰 — SLA·rate limit 미확정, 중요 미팅엔 백업 통역 병행 권장
다음 단계 제안: AI Studio에서 무료 티어로 일본어 PoC 세션을 띄워 ① 경어 통역 자연스러움 ② 지연(latency) ③ 회의록 전사 정확도를 실측한 뒤, 사내 미팅 1건에 백업 통역사와 병행 투입하여 비교 검증.