Диаризация, перевод, клонирование и видео

Помимо речи на входе и выходе, AiHummer предлагает четыре дополнительных, подключаемых по желанию медиа-возможности: диаризацию дикторов, перевод речи, клонирование голоса и понимание видео. Каждая работает офлайн на свободных/локальных движках как сайдкар, доступный по URL.

[!NOTE] Это возможности ядра / сайдкаров, а не возможности SIP. Сам канал SIP поддерживает только STT, TTS, barge-in, DTMF и запись — диаризация, перевод и клонирование голоса относятся к голосовому ядру и доступны по /v1/voice/*.

Диаризация дикторов

Диаризация отвечает на вопрос «кто и когда говорил» в аудио с несколькими дикторами. Использует pyannote speaker-diarization-3.1, офлайн, в сайдкаре diarize.

Параметр	Значение
Движок	pyannote `speaker-diarization-3.1` (офлайн)
Порт сайдкара	`:8003`
Эндпоинт	`POST /v1/voice/diarize`
Подключается через	`AIHUMMER_DIARIZE_URL`

Перевод речи

Перевод преобразует речь (или её транскрипт) с одного языка на другой, чтобы агент мог обслуживать звонящих на разных языках.

Параметр	Значение
Эндпоинт	`POST /v1/voice/translate`

Клонирование голоса

Клонирование голоса синтезирует речь в заданном голосе. Использует OpenVoice V2 с MeloTTS — офлайн и под лицензией MIT — в сайдкаре voiceclone.

Параметр	Значение
Движок	OpenVoice V2 + MeloTTS (офлайн, MIT)
Порт сайдкара	`:8004`
Эндпоинт	`POST /v1/voice/clone`
Подключается через	`AIHUMMER_VOICECLONE_URL`

Понимание видео

Понимание видео извлекает содержимое клипа, демультиплексируя аудио и выбирая ключевые кадры с помощью ffmpeg — в этом сайдкаре нет ML-модели; он готовит аудио и кадры для хода агента.

Параметр	Значение
Основа	ffmpeg (демукс + ключевые кадры, без ML)
Порт сайдкара	`:8005`
Эндпоинт	`POST /v1/video/understand`
Подключается через	`AIHUMMER_VIDEO_URL`

Подключение

Каждая возможность активна, только когда задан URL её сайдкара. Host-native установщик может развернуть их, либо вы указываете на уже работающие экземпляры.

# gateway.env — опциональные сайдкары голоса/видео
AIHUMMER_DIARIZE_URL=http://127.0.0.1:8003
AIHUMMER_VOICECLONE_URL=http://127.0.0.1:8004
AIHUMMER_VIDEO_URL=http://127.0.0.1:8005

[!TIP] Эти сайдкары независимы — включайте только нужные. Развёртывание, которому достаточно распознавания и синтеза, может запустить только пару STT/TTS и оставить diarize, voiceclone и video не настроенными.

Куда дальше

Базовый речевой тракт: Речь на входе и выходе.
Как сайдкары подключаются и используются совместно: Сайдкары.