Public benchmark leaderboard: открытый ranking для agents и моделей

## Что это Vision: публичный benchmark leaderboard, где anyone может пробежать свой agent (или нашу defaults конфигурацию) на стандартизированном корпусе задач и сравнить с другими. Что входит: - Корпус из 200+ tasks (research, coding, writing, analysis, agent-loops) - Standardized eval framework: каждая задача → judge через Claude / GPT-5 + ground-truth - Submission flow: твой agent через ROX-API → результат → score - Leaderboard: model x task matrix + aggregate - Domain-specific tracks: writing-leaderboard, coding-leaderboard, research-leaderboard - Cost-adjusted score: «лучший value» категория ($/score) - Reproducibility: каждый run хранится с full transcript для verification - Open dataset под CC-BY ## Зачем Сообщество ищет «какой agent лучше для X». Сегодня это случайные blog posts. Авторитетный leaderboard — это и demand-generation (everyone wants to compare), и SEO, и положение ROX как evaluation-platform (а не просто product). ## Источники вдохновения - [Agenta-AI/agenta](https://github.com/Agenta-AI/agenta) - [hegelai/prompttools](https://github.com/hegelai/prompttools) - [hijohnnylin/neuronpedia](https://github.com/hijohnnylin/neuronpedia) ## 🔗 Linear - [PZD-367](https://linear.app/kuhjie/issue/PZD-367) — backing ticket

agi

Public benchmark leaderboard: открытый ranking для agents и моделей

Subscribe to post

Subscribe to post