Тест предназначен для оценки различных систем LLM с использованием специализированных задач, требующих взаимодействия с SQL, Python, C, C++, Rust и ML-инфраструктурой. Каждая задача изолирована в контейнере с ограничением на 20 минут, что не позволяет агентам просматривать сценарии оценки. Различные LLM, включая Qwen3.6 и Gemma, тестируются в этих системах с использованием различных движков, таких как vLLM и llama.cpp. В тесте регистрируется количество успешных заданий, сбоев, тайм-аутов и среднее время выполнения каждого задания, чтобы оценить общую эффективность каждой комбинации систем безопасности и моделей.
Тестирование показывает, что жгуты работают одинаково во многих задачах, а решения с открытым исходным кодом, такие как OpenCode и OpenClaw, демонстрируют высокую надежность. Движок vLLM обеспечивает заметное преимущество в скорости, особенно при использовании прогнозирования с использованием нескольких токенов для одновременной генерации нескольких токенов. Модели на базе Qwen демонстрируют высококачественные результаты на обоих движках, в то время как Gemma работает лучше с llama.cpp. Некоторые сложные задачи, такие как многоступенчатые SQL-запросы и сложные логические исправления, оказываются сложными для большинства настроек, что приводит к увеличению времени ожидания.
Чтобы оценить практические возможности разработки, перед агентами стоит задача создать автоматизированную платформу с низким использованием кода, вдохновленную n8n. Процесс начинается с создания HTML-макета, который затем преобразуется в рабочий прототип с интерактивными узлами и интеграцией с LLM. Специализированные системы, такие как Hermes, уже давно обещают улучшить визуальный дизайн, в то время как другие испытывают трудности с подключением узлов или поддержанием стабильности. В этом тесте показано, как агенты справляются с многоступенчатыми циклами разработки и отладки в контексте реального приложения.
Подробные результаты показывают, что OpenClaw и OpenCode являются лучшими вариантами, соответственно, отличаясь скоростью выполнения задач. OpenClaw получил высший балл по всем тестовым задачам, в то время как OpenCode продемонстрировал самое быстрое среднее время обработки. Другие инструменты, такие как Pi и Hermes, также считаются эффективными, хотя они могут потреблять больше токенов или сталкиваться с определенными проблемами совместимости в сложных рабочих процессах. Все рассмотренные инструменты считаются профессиональными, и каждый из них обладает уникальными преимуществами для создания автономных агентов искусственного интеллекта.