Традиционные агенты искусственного интеллекта часто полагаются на команды Bash для взаимодействия с системами, но этот метод сталкивается со значительными препятствиями по мере усложнения задач. В то время как Bash предоставляет важную возможность моделям считывать код и вносить изменения, в нем отсутствует единый стандарт для определения действий, в частности, которые являются деструктивными и требуют одобрения пользователя. Чрезмерная зависимость от постоянных запросов на одобрение может привести к "усталости от одобрения", заставляя пользователей вслепую авторизовывать рискованные команды. Кроме того, Bash по своей природе небезопасен для многопользовательских сред, поскольку для обеспечения целостности данных и безопасности между пользователями требуются выделенные виртуальные машины для каждого агента.
Основным препятствием для повышения эффективности моделей искусственного интеллекта является управление контекстом, когда каждая информация, добавляемая в приглашение, увеличивает количество токенов. Инструменты, которые выводят целые базы кода в контекстное окно, такие как Repomix, подвергаются критике за дороговизну и контрпродуктивность, поскольку они перегружают модель нерелевантными данными. Это раздувание ухудшает способность модели предсказывать наиболее вероятный следующий фрагмент текста, делая выходные данные менее детерминированными и более подверженными ошибкам. Эффективные решения направлены на то, чтобы позволить моделям использовать поисковые инструменты, такие как grep, для извлечения только определенных, необходимых фрагментов кода, тем самым сохраняя объем контекста небольшим и точным.
Индустрия переходит от простого выполнения команд в Bash к программному вызову инструментов с помощью таких языков, как TypeScript и Python. Создавая изолированные среды, в которых код может выполняться напрямую через внутренние API или файловые системы, модели могут выполнять обработку данных локально и отправлять окончательные результаты только в журнал чата. Эта архитектура, часто называемая уровнем выполнения, уменьшает необходимость в дорогостоящих обратных переходах к модели и сводит к минимуму потери контекста. Такие решения, как "just-bash" и "just-js", демонстрируют, как виртуализация может предоставить агентам изолированное пространство, которое ощущается как настоящая машина, но остается изолированным от важных системных файлов.
Современный уровень развития ИИ рассматривается как начальный этап, открывающий огромные возможности для инноваций в том, как агенты работают и взаимодействуют с окружающим миром. Разработчикам рекомендуется экспериментировать с новыми интерфейсами и изолированными средами для решения текущих проблем с правами доступа и эффективностью. Создание инструментов, позволяющих перейти от монолитных CLI-интерфейсов к средам со строгой типизацией, таким как режим кода в Cloudflare, представляет собой следующий логический шаг в обеспечении автономии агентов. Поскольку мир агентов с искусственным интеллектом по-прежнему находится в состоянии интенсивного развития, возможность формировать будущее взаимодействия машин и систем открыта для всех, кто готов развивать эти новые технологии.