AiHummer доки
v1.0.x
RU EN

Плагин SIP Voice

v1.0.x · обновлено 2026-06-26

SIP Voice выводит вашего агента на телефон. Он принимает и совершает реальные звонки через любой стандартный SIP-транк, ведёт живой речевой ход во время разговора и по завершении отдаёт запись и итог звонка. Он оператор-нейтрален: говорит на чистом SIP, поэтому нет привязки к оператору — направьте его на тот транк, который даёт ваш провайдер телефонии.

Плагин работает host-native и связывает baresip (SIP/RTP-эндпоинт), аудиотракт через ALSA loopback и небольшой Python-мост, который перекладывает аудио между звонком и голосовым ходом gateway. Общается с gateway по контракту . Поведение канала для конечного пользователя — на странице канала SIP; эта страница про сам плагин.

Факты

ПолеЗначение
Версия25.1.0
Порт health8830
SIP listen5062
Управление baresip4444
Средаbaresip + ALSA loopback + Python-мост, host-native

Что это такое

Мост между телефонным звонком и ходом AiHummer. Когда звонок соединён, аудио идёт от baresip через ALSA loopback в Python-мост, который выполняет цикл распознавание речи → ход агента → синтез речи и проигрывает ответ обратно в звонок. Доступны два речевых движка:

  • yandex — облачный речевой движок реального времени.
  • local — полностью self-hosted: faster-whisper для STT и edge-tts для TTS.

Как используется

Во время звонка агент может не только говорить:

  • ask_assistant — выполнить ход агента в звонке, чтобы ответить звонящему.
  • send_dtmf — отправить DTMF-тоны (например, пройти IVR или ввести код).
  • запись — записать аудио звонка.
  • barge-in — позволить звонящему естественно перебивать речь агента.
  • итог после звонка — сформировать резюме по завершении.
звонящий ─▶ SIP-транк ─▶ baresip ─▶ ALSA loopback ─▶ мост ─▶ STT ─▶ ход агента ─▶ TTS ─▶ звонящий

Границы возможностей

[!WARNING] Плагин SIP поддерживает только STT, TTS, barge-in, DTMF и запись. Он не обеспечивает разделение дикторов (diarization), перевод речи или клонирование голоса. Это отдельные возможности ядра/сайдкаров (см. Диаризация, перевод и клонирование) и они не входят в тракт SIP-звонка. Не рассчитывайте на них в телефонном звонке.

Установка

Установите SIP Voice в один клик из маркетплейса в админке. Host-native деплойер скачивает плагин, выполняет шаг установки, генерирует изолированный systemd-юнит и ждёт health-эндпоинт, прежде чем пометить готовность — см. Установка и обновления. Затем вы настраиваете учётные данные SIP-транка и выбираете движок yandex или local.

[!TIP] Для полностью self-hosted конфигурации без платных моделей выбирайте движок local: faster-whisper и edge-tts держат весь голосовой тракт на вашем хосте.

Безопасность и ограничения

  • Оператор-нейтральный транк. Стандартный SIP, без привязки к оператору.
  • Объём — STT/TTS/DTMF/запись/barge-in. Без диаризации, перевода и клонирования голоса в тракте звонка.
  • Host-native. baresip, loopback и мост работают под systemd, не в контейнере.
  • Запись включается явно. Запись и итоги после звонка — функции, которые вы включаете; обращайтесь с аудио звонков согласно вашим правилам согласия и хранения.

Куда дальше