kevinm1tnik
Продавец
- Статус
- offline
- Регистрация
- 03.02.2025
- Сообщения
- 20
- Репутация
- 1

Новое исследование, проведенное в Стэнфордском университете, демонстрирует, что искусственные интеллекты (ИИ), используемые в качестве агентов, могут значительно улучшить свою способность справляться со сложными задачами, обучаясь исключительно на собственном успешном опыте.
Традиционно создание эффективных ИИ-агентов требовало значительных усилий, включая разработку детализированных подсказок, тщательный отбор примеров для обучения или создание специализированных сред для действий. Эти подходы, хотя и действенны, являются трудоемкими и сложно масштабируемыми. Ученые из Стэнфорда предложили более простой альтернативный метод, позволяющий агентам совершенствоваться за счет анализа своих прошлых успешных действий.
Их метод базируется на архитектуре ReAct, в которой языковая модель разрабатывает план выполнения каждой задачи, а затем осуществляет наблюдение, рассуждение и действие. Новым элементом является то, что на каждом этапе агент извлекает примеры не из вручную отобранного набора данных, а из автоматически пополняемой базы успешных траекторий, полученных в ходе решения предыдущих задач. В данном контексте "траектория" представляет собой полную последовательность шагов, предпринятых ИИ-агентом для успешного выполнения задания.
Даже упрощенная версия этого подхода, названная Traj-Bootstrap, привела к значительному увеличению процента успешных результатов в трех различных тестовых средах: ALFWorld (рост точности с 73% до 89%), Wordcraft (с 55% до 64%) и InterCode-SQL (с 75% до 79%).
Такое улучшение достигается благодаря циклу положительной обратной связи: успешные примеры помогают агенту справляться с новыми задачами, что, в свою очередь, приводит к появлению еще большего количества успешных примеров. Таким образом, система обучается сама у себя и непрерывно совершенствуется, не требуя дополнительных обучающих данных или настройки модели.
Однако не все собранные траектории оказываются полезными, а некоторые могут даже негативно повлиять на производительность. Для решения этой проблемы исследователи разработали две стратегии отбора.
Стратегия DB-Selection предполагает параллельное ведение нескольких баз данных. Каждый раз, когда размер базы данных удваивается, сохраняется только самая эффективная из них, а наименее результативная удаляется. Такой эволюционный подход быстро повышает результаты, увеличивая процент успешных операций в ALFWorld до 91%.
Метод "Выбор образца" оценивает каждую траекторию на основе того, насколько часто она помогает агенту успешно решать новые задачи. Этот метод особенно эффективен для Wordcraft, повышая вероятность успеха до 72%, и для InterCode-SQL, увеличивая ее до 81%.
Исследователи также отмечают, что некоторая начальная помощь человека все же полезна. Система демонстрирует лучшие результаты, если в исходной базе данных присутствует несколько тщательно отобранных примеров, которые помогают агенту задать правильное направление обучения. Без таких первоначальных примеров производительность системы снижается.
Интересно, что в тестовой среде ALFWorld модель Traj-Bootstrap, использующая менее крупную языковую модель GPT-4o-mini, фактически превзошла по производительности более мощную модель GPT-4o на один процентный пункт. При использовании стратегии DB-Selection разработанная система достигла уровня производительности более сложных иерархических систем, которые полагаются на вручную заданные пространства наблюдений и действий.
Исследование также показало, что разработанный подход эффективен по сравнению со стратегиями, в которых агент делает несколько попыток для решения каждой задачи. Агент, обученный с помощью Traj-Bootstrap, демонстрирует сопоставимую производительность с базовой системой уже с первой попытки, в то время как базовой системе требуется три или четыре попытки для достижения аналогичного результата.