AiHummer доки
v1.0.x
RU EN

Диаризация, перевод, клонирование и видео

v1.0.x · обновлено 2026-06-26

Помимо речи на входе и выходе, AiHummer предлагает четыре дополнительных, подключаемых по желанию медиа-возможности: диаризацию дикторов, перевод речи, клонирование голоса и понимание видео. Каждая работает офлайн на свободных/локальных движках как сайдкар, доступный по URL.

[!NOTE] Это возможности ядра / сайдкаров, а не возможности SIP. Сам канал SIP поддерживает только STT, TTS, barge-in, DTMF и запись — диаризация, перевод и клонирование голоса относятся к голосовому ядру и доступны по /v1/voice/*.

Диаризация дикторов

Диаризация отвечает на вопрос «кто и когда говорил» в аудио с несколькими дикторами. Использует pyannote speaker-diarization-3.1, офлайн, в сайдкаре diarize.

ПараметрЗначение
Движокpyannote speaker-diarization-3.1 (офлайн)
Порт сайдкара:8003
ЭндпоинтPOST /v1/voice/diarize
Подключается черезAIHUMMER_DIARIZE_URL

Перевод речи

Перевод преобразует речь (или её транскрипт) с одного языка на другой, чтобы агент мог обслуживать звонящих на разных языках.

ПараметрЗначение
ЭндпоинтPOST /v1/voice/translate

Клонирование голоса

Клонирование голоса синтезирует речь в заданном голосе. Использует OpenVoice V2 с MeloTTS — офлайн и под лицензией MIT — в сайдкаре voiceclone.

ПараметрЗначение
ДвижокOpenVoice V2 + MeloTTS (офлайн, MIT)
Порт сайдкара:8004
ЭндпоинтPOST /v1/voice/clone
Подключается черезAIHUMMER_VOICECLONE_URL

Понимание видео

Понимание видео извлекает содержимое клипа, демультиплексируя аудио и выбирая ключевые кадры с помощью ffmpeg — в этом сайдкаре нет ML-модели; он готовит аудио и кадры для хода агента.

ПараметрЗначение
Основаffmpeg (демукс + ключевые кадры, без ML)
Порт сайдкара:8005
ЭндпоинтPOST /v1/video/understand
Подключается черезAIHUMMER_VIDEO_URL

Подключение

Каждая возможность активна, только когда задан URL её сайдкара. Host-native установщик может развернуть их, либо вы указываете на уже работающие экземпляры.

# gateway.env — опциональные сайдкары голоса/видео
AIHUMMER_DIARIZE_URL=http://127.0.0.1:8003
AIHUMMER_VOICECLONE_URL=http://127.0.0.1:8004
AIHUMMER_VIDEO_URL=http://127.0.0.1:8005

[!TIP] Эти сайдкары независимы — включайте только нужные. Развёртывание, которому достаточно распознавания и синтеза, может запустить только пару STT/TTS и оставить diarize, voiceclone и video не настроенными.

Куда дальше