group-telegram.com/rybolos_channel/1407
Create:
Last Update:
Last Update:
🌸Минидемо агентов в MLGym🌸
Используем trace visualizer UI для дебага и демо логов агента: на демо видно, как агент за 19 итераций проходит по файлам в директории, запускает бейзлайн (GPT-2 архитектура на датасете FineWeb), затем постепенно итерируется, доводя ее до аля-GPT-3.
Что там происходит:
Каждая итерация у агента начинается с генерации идей и этапов планирования → затем выполнение действия (запуск команды bash, написание кода python, запуск обучения и т. д.), а затем выполнение кода и проверка результата.
На первом этапе агент открывает бейзлайн обучения GPT2 и проверяет его, запускает базовый скрипт обучения.
Агент понимает, что главная цель — сократить loss на валидации
Затем решает изменить базовую архитектуру: увеличить dimension size модели (фактическое изменение, которое используется в статье GPT3)
Это работает, и на следующей итерации агент решает внести больше изменений:
изменить learning rate
больше итераций обучения
— Чтобы все это запустить, агент не только изменяет параметры скрипта обучения, но также проверяет даталоадер и вносит в него изменения, только затем запускает обучение.
— В результате мы получили loss 3,5, на 24% лучше бейзлайна
— Также агент выяснил, что во время последней итерации стабильность обучения улучшилась.
Больше демок для RL, CV задач здесь: