Telegram Group & Telegram Channel
Решил разобрать детальнее статейку парней из Tinkoff Research — ReBRAC: Revisiting the Minimalist Approach to Offline Reinforcement Learning, которая была опубликована на NeurIPS в этом году.

Речь пойдет об Offline Reinforcement Learning. Это когда у агента нет доступа к энвайроменту, и он должен тренироваться на предписанном датасете. Это как если бы вы учились играть в Доту, только смотря реплеи и VOD-ы других игроков, но сами бы никогда не пробовали играть. Вот это и есть Offline RL.

Один из популярных методов для Offline RL — это Behavior-Regularized Actor-Critic (BRAC). Если в двух словах, то актор - это сеть, которая принимает решения о действиях агента в разных ситуациях. А критик оценивает действия, выполненные актером, и дает обратную связь о том, насколько хороши или плохи были эти действия. Важным дополнением здесь является, что актор в BRAC, в отличии от online-RL, старается выбирать действия близкие к датасету — это еще называют консервативностью.

Суть статьи в том, что авторы взяли этот минималистичный бейзлайн, Actor-Critic алгоритм, и накачали его стероидами в виде разных трюков, да так что он превратился из слабенького бейзлайна в очень сильный подход, который выдает результат на уровне гораздо более сложных специализированных подходов.

А теперь более детально. Дело в том что, часто в статьях ученые используют всевозможные мелкие трюки, на которых не акцентируют внимание, но которые по сути очень много добавляют к перформансу на практике. Авторы ReBRAC взяли основные трюки и провели детальный анализ влияния каждого из них, и затюнили их для алгоритма Actor-Critic:
- Большая глубина сети: почему-то в литературе до этого в основном использовали MLP c 2-мя скрытыми слоями. Очень странно, ведь это крошечная сетка.
- LayerNorm — полезно вставлять между слоями. Помогает критику преодолеть оверконсервативность.
- Батчи по-больше — всегда хорошо для повышения стабильности тренировки.
- Разная константа в MSE-регуляризации актера и критика.
- Увеличенный дискаунт-фактор для реворда — помогает когда реворд-сигнал довольно жидкий.

После этого оказалось, что даже такой простой алгоритм достиг уровня SOTA, и теперь его можно использовать как очень сильную отправную точку для всех дальнейших исследований в Offline RL.

Мораль такова, что маленькие детали имеют большое значение! Побольше бы таких статей с трюками в других областях, жаль что такое редко публикуется — все держат свои трюки при себе.

@ai_newz



group-telegram.com/ai_newz/2350
Create:
Last Update:

Решил разобрать детальнее статейку парней из Tinkoff Research — ReBRAC: Revisiting the Minimalist Approach to Offline Reinforcement Learning, которая была опубликована на NeurIPS в этом году.

Речь пойдет об Offline Reinforcement Learning. Это когда у агента нет доступа к энвайроменту, и он должен тренироваться на предписанном датасете. Это как если бы вы учились играть в Доту, только смотря реплеи и VOD-ы других игроков, но сами бы никогда не пробовали играть. Вот это и есть Offline RL.

Один из популярных методов для Offline RL — это Behavior-Regularized Actor-Critic (BRAC). Если в двух словах, то актор - это сеть, которая принимает решения о действиях агента в разных ситуациях. А критик оценивает действия, выполненные актером, и дает обратную связь о том, насколько хороши или плохи были эти действия. Важным дополнением здесь является, что актор в BRAC, в отличии от online-RL, старается выбирать действия близкие к датасету — это еще называют консервативностью.

Суть статьи в том, что авторы взяли этот минималистичный бейзлайн, Actor-Critic алгоритм, и накачали его стероидами в виде разных трюков, да так что он превратился из слабенького бейзлайна в очень сильный подход, который выдает результат на уровне гораздо более сложных специализированных подходов.

А теперь более детально. Дело в том что, часто в статьях ученые используют всевозможные мелкие трюки, на которых не акцентируют внимание, но которые по сути очень много добавляют к перформансу на практике. Авторы ReBRAC взяли основные трюки и провели детальный анализ влияния каждого из них, и затюнили их для алгоритма Actor-Critic:
- Большая глубина сети: почему-то в литературе до этого в основном использовали MLP c 2-мя скрытыми слоями. Очень странно, ведь это крошечная сетка.
- LayerNorm — полезно вставлять между слоями. Помогает критику преодолеть оверконсервативность.
- Батчи по-больше — всегда хорошо для повышения стабильности тренировки.
- Разная константа в MSE-регуляризации актера и критика.
- Увеличенный дискаунт-фактор для реворда — помогает когда реворд-сигнал довольно жидкий.

После этого оказалось, что даже такой простой алгоритм достиг уровня SOTA, и теперь его можно использовать как очень сильную отправную точку для всех дальнейших исследований в Offline RL.

Мораль такова, что маленькие детали имеют большое значение! Побольше бы таких статей с трюками в других областях, жаль что такое редко публикуется — все держат свои трюки при себе.

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2350

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram Messenger Blocks Navalny Bot During Russian Election For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov.
from ar


Telegram эйай ньюз
FROM American