AGENTS.md: почему инструкции для ИИ-агентов снижают эффективность кодинга
Популярный тренд на использование файлов AGENTS.md в репозиториях GitHub столкнулся с жесткой реальностью научных тестов. Исследователи из ETH Zurich выяснили, что подробные инструкции часто становятся «шумом», который мешает моделям решать задачи и раздувает бюджеты.
Формат AGENTS.md, созданный организацией agentsmd при поддержке OpenAI, получил массовое распространение: более 60 тысяч проектов на GitHub внедрили эти файлы, а основной репозиторий проекта собрал более 17,5 тысяч звезд. Учёные из ETH Zurich провели первое строгое исследование эффективности таких инструкций, проанализировав их влияние на процесс разработки. В ходе эксперимента сравнивались три сценария работы: полное отсутствие специфических инструкций, использование текста, сгенерированного ИИ, и применение руководств, написанных человеком вручную.
Для оценки качества работы моделей использовались признанные бенчмарки SWE-bench Lite и AgentBench. Исследователи отобрали 138 задач из 12 репозиториев, обеспечив покрытие тестами на уровне 75%. Испытания проводились на передовых моделях Claude Sonnet 4.5 и GPT 5.2, а также на специализированных решениях Codex и Qwen 3B Coder. Эффективность измерялась не только успешностью прохождения тестов, но и количеством выполненных шагов, а также объёмом затраченных токенов.
Результаты исследования показали, что наличие инструкций в репозитории не оправдывает ожиданий разработчиков. При использовании файлов AGENTS.md успешность выполнения задач снизилась на 0,5% в бенчмарке SWE-bench Lite и на 2% в AgentBench по сравнению со сценариями, где инструкции отсутствовали. Даже ручное написание правил людьми дало незначительное улучшение результата — всего на 4%, что не компенсировало сопутствующие издержки.
Внедрение инструкций привело к существенному росту финансовых затрат на токены — в среднем на 20–23%. Для модели Claude Sonnet 4.5 стоимость решения одной задачи выросла с $1.30 до $1.51. У модели GPT 5.2 расходы увеличились почти на треть — с $0.32 до $0.43. Параллельно зафиксирован рост количества токенов рассуждения (reasoning tokens) на 14–22%, что указывает на повышенную когнитивную нагрузку на систему без достижения качественного прогресса.
Основной причиной падения эффективности стал избыточный контроль. Агенты строго следуют указаниям и начинают тратить ресурсы на второстепенные проверки качества, такие как вызовы функций grep и read, вместо непосредственного исправления кода. Статистика подтверждает значительный рост использования инструментов поиска именно при активации инструкций, что расширяет область исследования репозитория, но запутывает модель.
Проблема усугубляется эффектом «размытого внимания» (Lost in the Middle), когда длинный контекст мешает ИИ фокусироваться на главной цели. Инструкции часто дублируют содержимое README и другой документации, создавая информационный шум. В условиях, когда проект уже хорошо документирован, файлы AGENTS.md становятся избыточными. По данным исследователей, такие файлы приносят пользу (улучшение на 2,7%) только в исключительных случаях, когда из репозитория удалена вся остальная документация.
- Необходимо полностью отказаться от автоматической генерации инструкций через команды вроде /init, так как они создают «раздутый» и бесполезный контент.
- Следует придерживаться минималистичного формата: профессиональные команды часто ограничивают объём инструкций менее чем 60 строками текста вместо раздутых форматов в сотни строк.
- В файле AGENTS.md стоит описывать только уникальные и неочевидные особенности проекта, которые нельзя извлечь из автоматического анализа кода.
- Важно поддерживать актуальность данных: устаревшие инструкции, описывающие измененную структуру проекта, наносят больше вреда, чем их отсутствие.
Эксперименты с мощными моделями, включая GPT 5.2, подтвердили, что высокий уровень «параметрических знаний» системы делает дополнительный контекст ненужным балластом.