Telegram Group & Telegram Channel
🌸Минидемо агентов в MLGym🌸

Используем trace visualizer UI для дебага и демо логов агента: на демо видно, как агент за 19 итераций проходит по файлам в директории, запускает бейзлайн (GPT-2 архитектура на датасете FineWeb), затем постепенно итерируется, доводя ее до аля-GPT-3. 
🟣https://www.youtube.com/watch?v=yiinpI7Vmzg 

Что там происходит:
Каждая итерация у агента начинается с генерации идей и этапов планирования → затем выполнение действия (запуск команды bash, написание кода python, запуск обучения и т. д.), а затем выполнение кода и проверка результата.

На первом этапе агент открывает бейзлайн обучения GPT2 и проверяет его, запускает базовый скрипт обучения.
Агент понимает, что главная цель — сократить loss на валидации
Затем решает изменить базовую архитектуру: увеличить dimension size модели (фактическое изменение, которое используется в статье GPT3)

Это работает, и на следующей итерации агент решает внести больше изменений:
изменить learning rate
больше итераций обучения

— Чтобы все это запустить, агент не только изменяет параметры скрипта обучения, но также проверяет даталоадер и вносит в него изменения, только затем запускает обучение.

— В результате мы получили loss 3,5, на 24% лучше бейзлайна
— Также агент выяснил, что во время последней итерации стабильность обучения улучшилась.



Больше демок для RL, CV задач здесь:
🟣https://sites.google.com/view/mlgym

🟣Сами логи агентов в репозитории https://github.com/facebookresearch/MLGym
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1407
Create:
Last Update:

🌸Минидемо агентов в MLGym🌸

Используем trace visualizer UI для дебага и демо логов агента: на демо видно, как агент за 19 итераций проходит по файлам в директории, запускает бейзлайн (GPT-2 архитектура на датасете FineWeb), затем постепенно итерируется, доводя ее до аля-GPT-3. 
🟣https://www.youtube.com/watch?v=yiinpI7Vmzg 

Что там происходит:

Каждая итерация у агента начинается с генерации идей и этапов планирования → затем выполнение действия (запуск команды bash, написание кода python, запуск обучения и т. д.), а затем выполнение кода и проверка результата.

На первом этапе агент открывает бейзлайн обучения GPT2 и проверяет его, запускает базовый скрипт обучения.
Агент понимает, что главная цель — сократить loss на валидации
Затем решает изменить базовую архитектуру: увеличить dimension size модели (фактическое изменение, которое используется в статье GPT3)

Это работает, и на следующей итерации агент решает внести больше изменений:
изменить learning rate
больше итераций обучения

— Чтобы все это запустить, агент не только изменяет параметры скрипта обучения, но также проверяет даталоадер и вносит в него изменения, только затем запускает обучение.

— В результате мы получили loss 3,5, на 24% лучше бейзлайна
— Также агент выяснил, что во время последней итерации стабильность обучения улучшилась.



Больше демок для RL, CV задач здесь:
🟣https://sites.google.com/view/mlgym

🟣Сами логи агентов в репозитории https://github.com/facebookresearch/MLGym

BY Kali Novskaya




Share with your friend now:
group-telegram.com/rybolos_channel/1407

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. In 2014, Pavel Durov fled the country after allies of the Kremlin took control of the social networking site most know just as VK. Russia's intelligence agency had asked Durov to turn over the data of anti-Kremlin protesters. Durov refused to do so. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips.
from pl


Telegram Kali Novskaya
FROM American