Помимо речи на входе и выходе, AiHummer предлагает четыре
дополнительных, подключаемых по желанию медиа-возможности: диаризацию
дикторов, перевод речи, клонирование голоса и понимание видео.
Каждая работает офлайн на свободных/локальных движках как
сайдкар, доступный по URL.
[!NOTE]
Это возможности ядра / сайдкаров, а не возможности SIP. Сам канал SIP
поддерживает только STT, TTS, barge-in, DTMF и запись — диаризация, перевод и
клонирование голоса относятся к голосовому ядру и доступны по /v1/voice/*.
Диаризация дикторов
Диаризация отвечает на вопрос «кто и когда говорил» в аудио с несколькими
дикторами. Использует pyannote speaker-diarization-3.1, офлайн, в сайдкаре
diarize.
Параметр
Значение
Движок
pyannote speaker-diarization-3.1 (офлайн)
Порт сайдкара
:8003
Эндпоинт
POST /v1/voice/diarize
Подключается через
AIHUMMER_DIARIZE_URL
Перевод речи
Перевод преобразует речь (или её транскрипт) с одного языка на другой, чтобы
агент мог обслуживать звонящих на разных языках.
Параметр
Значение
Эндпоинт
POST /v1/voice/translate
Клонирование голоса
Клонирование голоса синтезирует речь в заданном голосе. Использует OpenVoice V2
с MeloTTS — офлайн и под лицензией MIT — в сайдкаре voiceclone.
Параметр
Значение
Движок
OpenVoice V2 + MeloTTS (офлайн, MIT)
Порт сайдкара
:8004
Эндпоинт
POST /v1/voice/clone
Подключается через
AIHUMMER_VOICECLONE_URL
Понимание видео
Понимание видео извлекает содержимое клипа, демультиплексируя аудио и выбирая
ключевые кадры с помощью ffmpeg — в этом сайдкаре нет ML-модели; он
готовит аудио и кадры для хода агента.
Параметр
Значение
Основа
ffmpeg (демукс + ключевые кадры, без ML)
Порт сайдкара
:8005
Эндпоинт
POST /v1/video/understand
Подключается через
AIHUMMER_VIDEO_URL
Подключение
Каждая возможность активна, только когда задан URL её сайдкара. Host-native
установщик может развернуть их, либо вы указываете на уже работающие экземпляры.
[!TIP]
Эти сайдкары независимы — включайте только нужные. Развёртывание, которому
достаточно распознавания и синтеза, может запустить только пару STT/TTS и
оставить diarize, voiceclone и video не настроенными.
Как сайдкары подключаются и используются совместно:
Сайдкары.
Помимо [речи на входе и выходе](/v1.0/voice/stt-tts), AiHummer предлагает четыре
дополнительных, подключаемых по желанию медиа-возможности: **диаризацию
дикторов**, **перевод речи**, **клонирование голоса** и **понимание видео**.
Каждая работает **офлайн на свободных/локальных движках** как
[сайдкар](/v1.0/architecture/sidecars), доступный по URL.
> [!NOTE]
> Это **возможности ядра / сайдкаров**, а не возможности SIP. Сам канал SIP
> поддерживает только STT, TTS, barge-in, DTMF и запись — диаризация, перевод и
> клонирование голоса относятся к голосовому ядру и доступны по `/v1/voice/*`.
## Диаризация дикторов
Диаризация отвечает на вопрос «кто и когда говорил» в аудио с несколькими
дикторами. Использует **pyannote `speaker-diarization-3.1`**, офлайн, в сайдкаре
diarize.
| Параметр | Значение |
|---|---|
| Движок | pyannote `speaker-diarization-3.1` (офлайн) |
| Порт сайдкара | `:8003` |
| Эндпоинт | `POST /v1/voice/diarize` |
| Подключается через | `AIHUMMER_DIARIZE_URL` |
## Перевод речи
Перевод преобразует речь (или её транскрипт) с одного языка на другой, чтобы
агент мог обслуживать звонящих на разных языках.
| Параметр | Значение |
|---|---|
| Эндпоинт | `POST /v1/voice/translate` |
## Клонирование голоса
Клонирование голоса синтезирует речь в заданном голосе. Использует **OpenVoice V2
с MeloTTS** — офлайн и под **лицензией MIT** — в сайдкаре voiceclone.
| Параметр | Значение |
|---|---|
| Движок | OpenVoice V2 + MeloTTS (офлайн, MIT) |
| Порт сайдкара | `:8004` |
| Эндпоинт | `POST /v1/voice/clone` |
| Подключается через | `AIHUMMER_VOICECLONE_URL` |
## Понимание видео
Понимание видео извлекает содержимое клипа, демультиплексируя аудио и выбирая
ключевые кадры с помощью **ffmpeg** — в этом сайдкаре **нет ML-модели**; он
готовит аудио и кадры для хода агента.
| Параметр | Значение |
|---|---|
| Основа | ffmpeg (демукс + ключевые кадры, без ML) |
| Порт сайдкара | `:8005` |
| Эндпоинт | `POST /v1/video/understand` |
| Подключается через | `AIHUMMER_VIDEO_URL` |
## Подключение
Каждая возможность активна, только когда задан URL её сайдкара. Host-native
установщик может развернуть их, либо вы указываете на уже работающие экземпляры.
```ini
# gateway.env — опциональные сайдкары голоса/видео
AIHUMMER_DIARIZE_URL=http://127.0.0.1:8003
AIHUMMER_VOICECLONE_URL=http://127.0.0.1:8004
AIHUMMER_VIDEO_URL=http://127.0.0.1:8005
```
> [!TIP]
> Эти сайдкары независимы — включайте только нужные. Развёртывание, которому
> достаточно распознавания и синтеза, может запустить только пару STT/TTS и
> оставить diarize, voiceclone и video не настроенными.
## Куда дальше
- Базовый речевой тракт:
[Речь на входе и выходе](/v1.0/voice/stt-tts).
- Как сайдкары подключаются и используются совместно:
[Сайдкары](/v1.0/architecture/sidecars).