Telegram Group & Telegram Channel
Решил разобрать детальнее статейку парней из Tinkoff Research — ReBRAC: Revisiting the Minimalist Approach to Offline Reinforcement Learning, которая была опубликована на NeurIPS в этом году.

Речь пойдет об Offline Reinforcement Learning. Это когда у агента нет доступа к энвайроменту, и он должен тренироваться на предписанном датасете. Это как если бы вы учились играть в Доту, только смотря реплеи и VOD-ы других игроков, но сами бы никогда не пробовали играть. Вот это и есть Offline RL.

Один из популярных методов для Offline RL — это Behavior-Regularized Actor-Critic (BRAC). Если в двух словах, то актор - это сеть, которая принимает решения о действиях агента в разных ситуациях. А критик оценивает действия, выполненные актером, и дает обратную связь о том, насколько хороши или плохи были эти действия. Важным дополнением здесь является, что актор в BRAC, в отличии от online-RL, старается выбирать действия близкие к датасету — это еще называют консервативностью.

Суть статьи в том, что авторы взяли этот минималистичный бейзлайн, Actor-Critic алгоритм, и накачали его стероидами в виде разных трюков, да так что он превратился из слабенького бейзлайна в очень сильный подход, который выдает результат на уровне гораздо более сложных специализированных подходов.

А теперь более детально. Дело в том что, часто в статьях ученые используют всевозможные мелкие трюки, на которых не акцентируют внимание, но которые по сути очень много добавляют к перформансу на практике. Авторы ReBRAC взяли основные трюки и провели детальный анализ влияния каждого из них, и затюнили их для алгоритма Actor-Critic:
- Большая глубина сети: почему-то в литературе до этого в основном использовали MLP c 2-мя скрытыми слоями. Очень странно, ведь это крошечная сетка.
- LayerNorm — полезно вставлять между слоями. Помогает критику преодолеть оверконсервативность.
- Батчи по-больше — всегда хорошо для повышения стабильности тренировки.
- Разная константа в MSE-регуляризации актера и критика.
- Увеличенный дискаунт-фактор для реворда — помогает когда реворд-сигнал довольно жидкий.

После этого оказалось, что даже такой простой алгоритм достиг уровня SOTA, и теперь его можно использовать как очень сильную отправную точку для всех дальнейших исследований в Offline RL.

Мораль такова, что маленькие детали имеют большое значение! Побольше бы таких статей с трюками в других областях, жаль что такое редко публикуется — все держат свои трюки при себе.

@ai_newz



group-telegram.com/ai_newz/2350
Create:
Last Update:

Решил разобрать детальнее статейку парней из Tinkoff Research — ReBRAC: Revisiting the Minimalist Approach to Offline Reinforcement Learning, которая была опубликована на NeurIPS в этом году.

Речь пойдет об Offline Reinforcement Learning. Это когда у агента нет доступа к энвайроменту, и он должен тренироваться на предписанном датасете. Это как если бы вы учились играть в Доту, только смотря реплеи и VOD-ы других игроков, но сами бы никогда не пробовали играть. Вот это и есть Offline RL.

Один из популярных методов для Offline RL — это Behavior-Regularized Actor-Critic (BRAC). Если в двух словах, то актор - это сеть, которая принимает решения о действиях агента в разных ситуациях. А критик оценивает действия, выполненные актером, и дает обратную связь о том, насколько хороши или плохи были эти действия. Важным дополнением здесь является, что актор в BRAC, в отличии от online-RL, старается выбирать действия близкие к датасету — это еще называют консервативностью.

Суть статьи в том, что авторы взяли этот минималистичный бейзлайн, Actor-Critic алгоритм, и накачали его стероидами в виде разных трюков, да так что он превратился из слабенького бейзлайна в очень сильный подход, который выдает результат на уровне гораздо более сложных специализированных подходов.

А теперь более детально. Дело в том что, часто в статьях ученые используют всевозможные мелкие трюки, на которых не акцентируют внимание, но которые по сути очень много добавляют к перформансу на практике. Авторы ReBRAC взяли основные трюки и провели детальный анализ влияния каждого из них, и затюнили их для алгоритма Actor-Critic:
- Большая глубина сети: почему-то в литературе до этого в основном использовали MLP c 2-мя скрытыми слоями. Очень странно, ведь это крошечная сетка.
- LayerNorm — полезно вставлять между слоями. Помогает критику преодолеть оверконсервативность.
- Батчи по-больше — всегда хорошо для повышения стабильности тренировки.
- Разная константа в MSE-регуляризации актера и критика.
- Увеличенный дискаунт-фактор для реворда — помогает когда реворд-сигнал довольно жидкий.

После этого оказалось, что даже такой простой алгоритм достиг уровня SOTA, и теперь его можно использовать как очень сильную отправную точку для всех дальнейших исследований в Offline RL.

Мораль такова, что маленькие детали имеют большое значение! Побольше бы таких статей с трюками в других областях, жаль что такое редко публикуется — все держат свои трюки при себе.

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2350

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said.
from kr


Telegram эйай ньюз
FROM American