Локальные LLM в ROX: Ollama / vLLM / llama.cpp как first-class

## Что это Сегодня LLM-доступ — это OpenAI / Anthropic / Google через API. Vision: добавить локальные runtimes как first-class option, чтобы privacy-sensitive команды и просто entusiasts могли работать полностью offline. Что входит: - Ollama auto-config: «ROX обнаружил Ollama на localhost, использовать?» - vLLM / llama.cpp интеграция через OpenAI-compatible API - Model picker: дропдаун с Claude/GPT vs Llama-70B-local vs Qwen-VL local - Cost-tracker: «эта session = $0, локальные модели» - Latency-monitor: сравнительная производительность - GPU detection: Metal (mac), CUDA (linux/win), DirectML (win) - Fallback policy: «если local недоступно — uncached cloud» - Per-source policy: «PII-источник → только local-modeling» ## Зачем Privacy + cost — два самых частых блокера для adoption в enterprises и для индивидуальных пользователей. Local LLM-support превращает оба этих stopper'а в configurable choice. ## Источники вдохновения - [HEUDavid/shadow-ai](https://github.com/HEUDavid/shadow-ai) - [anomalyco/models.dev](https://github.com/anomalyco/models.dev) - [emcie-co/parlant](https://github.com/emcie-co/parlant)

agi

Локальные LLM в ROX: Ollama / vLLM / llama.cpp как first-class

Subscribe to post

Subscribe to post