Voice agent mode: full-duplex conversation

## Что это Идея: расширить voice-slot (E01) до full-duplex voice conversation. ROX слушает (ASR), генерирует ответ (LLM streaming), и говорит (TTS streaming) — параллельно. Прерывание: пользователь начинает говорить во время TTS → ROX замолкает, listening возобновляется. Latency target: voice-in → voice-out ≤ 800ms (ASR partial + LLM first-token + TTS first-chunk). Используем streaming WebSocket к provider (или local whisper+kokoro pipeline). UI: dedicated voice-mode screen с waveforms, transcript live-rendered. Toggle через Cmd+Shift+V. Поддерживает interruption, turn-taking, тишина-detection для конец turn. ## Зачем Text-первый UX — это интеллектуальный bottleneck для creative и executive work. Voice — natural medium для brainstorming, planning, dictation. Full-duplex с low latency делает «conversation with AI» feel настоящим, не Q&A turn-based. ## Источники вдохновения - [agisota/dograh](https://github.com/agisota/dograh) — voice agents WebRTC/VAD → transcript - [fishaudio/fish-speech](https://github.com/fishaudio/fish-speech) — SOTA open-source TTS - [code-yeongyu/dori-hobby](https://github.com/code-yeongyu/dori-hobby) — human-in-the-loop с WebRTC live-streaming

agi

Voice agent mode: full-duplex conversation

Subscribe to post

Subscribe to post