Telegram Group & Telegram Channel
🌸Минидемо агентов в MLGym🌸

Используем trace visualizer UI для дебага и демо логов агента: на демо видно, как агент за 19 итераций проходит по файлам в директории, запускает бейзлайн (GPT-2 архитектура на датасете FineWeb), затем постепенно итерируется, доводя ее до аля-GPT-3. 
🟣https://www.youtube.com/watch?v=yiinpI7Vmzg 

Что там происходит:
Каждая итерация у агента начинается с генерации идей и этапов планирования → затем выполнение действия (запуск команды bash, написание кода python, запуск обучения и т. д.), а затем выполнение кода и проверка результата.

На первом этапе агент открывает бейзлайн обучения GPT2 и проверяет его, запускает базовый скрипт обучения.
Агент понимает, что главная цель — сократить loss на валидации
Затем решает изменить базовую архитектуру: увеличить dimension size модели (фактическое изменение, которое используется в статье GPT3)

Это работает, и на следующей итерации агент решает внести больше изменений:
изменить learning rate
больше итераций обучения

— Чтобы все это запустить, агент не только изменяет параметры скрипта обучения, но также проверяет даталоадер и вносит в него изменения, только затем запускает обучение.

— В результате мы получили loss 3,5, на 24% лучше бейзлайна
— Также агент выяснил, что во время последней итерации стабильность обучения улучшилась.



Больше демок для RL, CV задач здесь:
🟣https://sites.google.com/view/mlgym

🟣Сами логи агентов в репозитории https://github.com/facebookresearch/MLGym
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1407
Create:
Last Update:

🌸Минидемо агентов в MLGym🌸

Используем trace visualizer UI для дебага и демо логов агента: на демо видно, как агент за 19 итераций проходит по файлам в директории, запускает бейзлайн (GPT-2 архитектура на датасете FineWeb), затем постепенно итерируется, доводя ее до аля-GPT-3. 
🟣https://www.youtube.com/watch?v=yiinpI7Vmzg 

Что там происходит:

Каждая итерация у агента начинается с генерации идей и этапов планирования → затем выполнение действия (запуск команды bash, написание кода python, запуск обучения и т. д.), а затем выполнение кода и проверка результата.

На первом этапе агент открывает бейзлайн обучения GPT2 и проверяет его, запускает базовый скрипт обучения.
Агент понимает, что главная цель — сократить loss на валидации
Затем решает изменить базовую архитектуру: увеличить dimension size модели (фактическое изменение, которое используется в статье GPT3)

Это работает, и на следующей итерации агент решает внести больше изменений:
изменить learning rate
больше итераций обучения

— Чтобы все это запустить, агент не только изменяет параметры скрипта обучения, но также проверяет даталоадер и вносит в него изменения, только затем запускает обучение.

— В результате мы получили loss 3,5, на 24% лучше бейзлайна
— Также агент выяснил, что во время последней итерации стабильность обучения улучшилась.



Больше демок для RL, CV задач здесь:
🟣https://sites.google.com/view/mlgym

🟣Сами логи агентов в репозитории https://github.com/facebookresearch/MLGym

BY Kali Novskaya




Share with your friend now:
group-telegram.com/rybolos_channel/1407

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country.
from us


Telegram Kali Novskaya
FROM American