Voice agent: always-on local STT + TTS

## Что это Vision: voice-input не как slot в композере, а как полноценный always-on канал. ROX слушает hotword («hey rox»), пишет ваш prompt, отправляет в активную session, читает ответ голосом. Всё локально через Whisper.cpp + Coqui TTS — без облаков, без передачи аудио. Что хочется: - Whisper.cpp с GPU-acceleration (macOS Metal, Win DirectML) - Hotword detection через openWakeWord или Porcupine - TTS через ElevenLabs (premium) или Coqui (local) - Voice-mode UI: full-screen waveform, transcript live - «Pair-mode» — разговор с агентом на iOS-устройстве с тем же session-context - Privacy mode: ничего не уходит в облако, всё локально ## Зачем Голос — самый быстрый input. Особенно для creative work («набросай мне план на завтра», «суммаризируй последнюю встречу»). Локальная реализация = privacy без compromise. Это особенно важно в EU + healthcare/legal. ## Источники вдохновения - [agisota/dograh](https://github.com/agisota/dograh) - [fishaudio/fish-speech](https://github.com/fishaudio/fish-speech) - [elevenlabs/ui](https://github.com/elevenlabs/ui)

Please authenticate to join the conversation.

Upvoters
Status

In Review

Board
🆕

Wishlist & Features Request

Date

About 19 hours ago

Author

agi

Subscribe to post

Get notified by email when there are changes.