Multi-model agent arena: сравнение Claude/GPT/Gemini/Llama side-by-side

## Что это Vision: один prompt → 4 модели → визуальное сравнение outputs side-by-side. Plus автоматический A/B-judge (через ROX-eval probe или Anthropic-judge), который scores каждый ответ по критериям (релевантность, факты, стиль). Что хочется: - Quick-command «/compare» → выбор моделей (Claude 4 Opus, GPT-5, Gemini 2.0, Llama 4 70B локальная) - Параллельный fetch → grid с 2x2 / 4x1 layout - Diff-highlight для overlapping content - Vote-button: «мне нравится этот» → собирается ваша personal preference dataset - Eval-mode: на корпусе из 50 промптов → benchmark выбранных моделей - Cost tracker: «за этот compare вы потратили $0.04 на API» ## Зачем Выбор модели — это огромная часть «правильного использования» AI. Сегодня это слепая вера в «Claude лучше всех». Arena превращает это в data-driven решение — вы видите, какая модель лучше под вашу задачу, и можете routing automation сделать. ## Источники вдохновения - [Agenta-AI/agenta](https://github.com/Agenta-AI/agenta) - [multica-ai/multica](https://github.com/multica-ai/multica) - [hegelai/prompttools](https://github.com/hegelai/prompttools)

agi

Multi-model agent arena: сравнение Claude/GPT/Gemini/Llama side-by-side

Subscribe to post

Subscribe to post