Telegram Group & Telegram Channel
🌸Минидемо агентов в MLGym🌸

Используем trace visualizer UI для дебага и демо логов агента: на демо видно, как агент за 19 итераций проходит по файлам в директории, запускает бейзлайн (GPT-2 архитектура на датасете FineWeb), затем постепенно итерируется, доводя ее до аля-GPT-3. 
🟣https://www.youtube.com/watch?v=yiinpI7Vmzg 

Что там происходит:
Каждая итерация у агента начинается с генерации идей и этапов планирования → затем выполнение действия (запуск команды bash, написание кода python, запуск обучения и т. д.), а затем выполнение кода и проверка результата.

На первом этапе агент открывает бейзлайн обучения GPT2 и проверяет его, запускает базовый скрипт обучения.
Агент понимает, что главная цель — сократить loss на валидации
Затем решает изменить базовую архитектуру: увеличить dimension size модели (фактическое изменение, которое используется в статье GPT3)

Это работает, и на следующей итерации агент решает внести больше изменений:
изменить learning rate
больше итераций обучения

— Чтобы все это запустить, агент не только изменяет параметры скрипта обучения, но также проверяет даталоадер и вносит в него изменения, только затем запускает обучение.

— В результате мы получили loss 3,5, на 24% лучше бейзлайна
— Также агент выяснил, что во время последней итерации стабильность обучения улучшилась.



Больше демок для RL, CV задач здесь:
🟣https://sites.google.com/view/mlgym

🟣Сами логи агентов в репозитории https://github.com/facebookresearch/MLGym
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1407
Create:
Last Update:

🌸Минидемо агентов в MLGym🌸

Используем trace visualizer UI для дебага и демо логов агента: на демо видно, как агент за 19 итераций проходит по файлам в директории, запускает бейзлайн (GPT-2 архитектура на датасете FineWeb), затем постепенно итерируется, доводя ее до аля-GPT-3. 
🟣https://www.youtube.com/watch?v=yiinpI7Vmzg 

Что там происходит:

Каждая итерация у агента начинается с генерации идей и этапов планирования → затем выполнение действия (запуск команды bash, написание кода python, запуск обучения и т. д.), а затем выполнение кода и проверка результата.

На первом этапе агент открывает бейзлайн обучения GPT2 и проверяет его, запускает базовый скрипт обучения.
Агент понимает, что главная цель — сократить loss на валидации
Затем решает изменить базовую архитектуру: увеличить dimension size модели (фактическое изменение, которое используется в статье GPT3)

Это работает, и на следующей итерации агент решает внести больше изменений:
изменить learning rate
больше итераций обучения

— Чтобы все это запустить, агент не только изменяет параметры скрипта обучения, но также проверяет даталоадер и вносит в него изменения, только затем запускает обучение.

— В результате мы получили loss 3,5, на 24% лучше бейзлайна
— Также агент выяснил, что во время последней итерации стабильность обучения улучшилась.



Больше демок для RL, CV задач здесь:
🟣https://sites.google.com/view/mlgym

🟣Сами логи агентов в репозитории https://github.com/facebookresearch/MLGym

BY Kali Novskaya




Share with your friend now:
group-telegram.com/rybolos_channel/1407

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. Founder Pavel Durov says tech is meant to set you free "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels.
from kr


Telegram Kali Novskaya
FROM American