Telegram Group & Telegram Channel
🌸Минидемо агентов в MLGym🌸

Используем trace visualizer UI для дебага и демо логов агента: на демо видно, как агент за 19 итераций проходит по файлам в директории, запускает бейзлайн (GPT-2 архитектура на датасете FineWeb), затем постепенно итерируется, доводя ее до аля-GPT-3. 
🟣https://www.youtube.com/watch?v=yiinpI7Vmzg 

Что там происходит:
Каждая итерация у агента начинается с генерации идей и этапов планирования → затем выполнение действия (запуск команды bash, написание кода python, запуск обучения и т. д.), а затем выполнение кода и проверка результата.

На первом этапе агент открывает бейзлайн обучения GPT2 и проверяет его, запускает базовый скрипт обучения.
Агент понимает, что главная цель — сократить loss на валидации
Затем решает изменить базовую архитектуру: увеличить dimension size модели (фактическое изменение, которое используется в статье GPT3)

Это работает, и на следующей итерации агент решает внести больше изменений:
изменить learning rate
больше итераций обучения

— Чтобы все это запустить, агент не только изменяет параметры скрипта обучения, но также проверяет даталоадер и вносит в него изменения, только затем запускает обучение.

— В результате мы получили loss 3,5, на 24% лучше бейзлайна
— Также агент выяснил, что во время последней итерации стабильность обучения улучшилась.



Больше демок для RL, CV задач здесь:
🟣https://sites.google.com/view/mlgym

🟣Сами логи агентов в репозитории https://github.com/facebookresearch/MLGym
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1407
Create:
Last Update:

🌸Минидемо агентов в MLGym🌸

Используем trace visualizer UI для дебага и демо логов агента: на демо видно, как агент за 19 итераций проходит по файлам в директории, запускает бейзлайн (GPT-2 архитектура на датасете FineWeb), затем постепенно итерируется, доводя ее до аля-GPT-3. 
🟣https://www.youtube.com/watch?v=yiinpI7Vmzg 

Что там происходит:

Каждая итерация у агента начинается с генерации идей и этапов планирования → затем выполнение действия (запуск команды bash, написание кода python, запуск обучения и т. д.), а затем выполнение кода и проверка результата.

На первом этапе агент открывает бейзлайн обучения GPT2 и проверяет его, запускает базовый скрипт обучения.
Агент понимает, что главная цель — сократить loss на валидации
Затем решает изменить базовую архитектуру: увеличить dimension size модели (фактическое изменение, которое используется в статье GPT3)

Это работает, и на следующей итерации агент решает внести больше изменений:
изменить learning rate
больше итераций обучения

— Чтобы все это запустить, агент не только изменяет параметры скрипта обучения, но также проверяет даталоадер и вносит в него изменения, только затем запускает обучение.

— В результате мы получили loss 3,5, на 24% лучше бейзлайна
— Также агент выяснил, что во время последней итерации стабильность обучения улучшилась.



Больше демок для RL, CV задач здесь:
🟣https://sites.google.com/view/mlgym

🟣Сами логи агентов в репозитории https://github.com/facebookresearch/MLGym

BY Kali Novskaya




Share with your friend now:
group-telegram.com/rybolos_channel/1407

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. Two days after Russia invaded Ukraine, an account on the Telegram messaging platform posing as President Volodymyr Zelenskiy urged his armed forces to surrender. A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%.
from hk


Telegram Kali Novskaya
FROM American