Композер: voice-slot и push-to-talk диктовка

## Что это В правой части композера появляется кнопка «микрофон». Hold-to-talk (нажал — говоришь, отпустил — пайплайн обрабатывает) или toggle-mode (click — начало записи, click — стоп). Запись отправляется в локальный ASR-провайдер (по умолчанию whisper.cpp, опционально cloud — OpenAI Whisper API через настройки), результат вставляется в композер курсором как текст. Хоткей: Cmd/Ctrl+Shift+Space (hold) или Cmd/Ctrl+M (toggle). Во время записи показывается waveform индикатор и таймер. VAD (voice activity detection) останавливает запись при 2+ секундах тишины в toggle-mode. Поддержка languages: ru/en/auto-detect. Компоненты: `apps/electron/src/components/Composer/VoiceSlot`, `@rox-one/shared/asr` (provider abstraction), bundled whisper.cpp tiny model (~75MB) опционально через settings. Audio capture через MediaRecorder API. ## Зачем Для длинных промптов и описаний задач голосовая диктовка в 3-5× быстрее печати. Особенно полезно для mobile/walking-coding-сценариев в будущем. Слот в композере оставляет место для нативного ASR-pillar без переработки UI. ## Источники вдохновения - [agisota/dograh](https://github.com/agisota/dograh) — voice agents (WebRTC/VAD → transcript) для voice-slot pillar - [fishaudio/fish-speech](https://github.com/fishaudio/fish-speech) — SOTA open-source TTS/ASR - [code-yeongyu/dori-hobby](https://github.com/code-yeongyu/dori-hobby) — human-in-the-loop AI agent с WebRTC live-streaming ## 🔗 Linear - [PZD-448](https://linear.app/kuhjie/issue/PZD-448) — backing ticket

agi

Композер: voice-slot и push-to-talk диктовка

Subscribe to post

Subscribe to post