GPU-accelerated local inference: llama.cpp + MLC

## Что это Идея: опциональный local-inference backend через llama.cpp (CPU + Metal/CUDA/Vulkan) и MLC-LLM для пользователей с подходящим железом. Поддержка моделей семейств Llama 3, Qwen, DeepSeek в 4-bit/8-bit квантизации. Configuration через settings → providers → «Local (llama.cpp)». Workflow: пользователь выбирает модель в catalog → ROX скачивает .gguf файл в `~/.rox/models/` → инициализирует runtime → models становятся available в session-level provider selection. Memory budget управляется автоматически: при нехватке RAM — fallback на cloud-provider с warning. Benchmark на M3 Pro: Llama-3-8B-Q4 — ~15 tok/s, latency-to-first-token ~400ms. Достаточно для idle-chat сценариев. ## Зачем Local inference решает три вещи: privacy (никаких данных в cloud), offline-mode (поезд/полёт), zero-cost (no API bill). Для enterprise с строгими data-policies — это enabler для adoption ROX вообще. ## Источники вдохновения - [HEUDavid/shadow-ai](https://github.com/HEUDavid/shadow-ai) — stealth Claude assistant с constrained-deployment - [agisota/dograh](https://github.com/agisota/dograh) — voice agents с local inference patterns - [Tencent/xLua](https://github.com/Tencent/xLua) — embedded runtime для sandbox/hot-reload

agi

GPU-accelerated local inference: llama.cpp + MLC

Subscribe to post

Subscribe to post