group-telegram.com/ai_newz/3084
Last Update:
Самый большой open-source датасет для In-Context Reinforcement Learning – XLand-100B.
Продолжая тему In-Context Reinforcement Learning и конференции ICML. Недавно чуваки из AIRI (ex. команда из T-Bank Research) релизнули огромный (по меркам RL) датасет в 100 млрд токенов на основе XLand-MiniGrid – open-source аналог среды XLand от DeepMind.
В чем фишка среды и датасета – объясню на примере игры Minecraft:
Представьте, что каждый раз при запуске игры дерево крафта меняется случайным образом, и агенту нужно добыть сложный предмет. Это означает, что перед ним стоит задача: с помощью экспериментирования нужно открыть новую структуру дерева крафта с нуля. Но после того, как агент справился, ему не удастся применить накопленные знания к следующей игре – новое дерево крафта будет скрыто. Это заставляет агента адаптироваться, учиться на ходу и становиться более эффективными в исследовании новой среды. Именно на таком принципе сделан XLand-MiniGrid и отлично подходит для тестирования ICRL.
Но если погрузиться в литературу, то выясняется, что вообще-то открытых датасетов для таких моделей нет, а сами таски достаточно простые и тестируют тривиальную генерализацию.
В этой работе собрали датасет в нетипичных для RL масштабах, реализовали известные бейзлайны и показали, что он может использоваться для ICRL. Из интересного, нашли, что Decision Pretrained Transformer (DPT) сильно проигрывает AD. А сбор датасета занял всего (хе-хе) 50k A100 GPU-часов.
Если In-Context RL не ваша тема, то датасет можно использовать и для всяких других приставок: Offline RL, Multi-Task RL, Goal-Conditioned RL и т.д. В целом, кажется, что датасет должен позволить потрогать scaling-laws более широкому кругу ученых из разных областей близких к RL.
Авторы, кстати, сейчас расширяют команду и ищут стажеров развивать эту тему и дальше скейлить такие модели (и не только).
Если хотите получше разобратсья в RL, я на днях публиковал список ресурсов.
Пейпер
Код и датасет
@ai_newz
BY эйай ньюз
Share with your friend now:
group-telegram.com/ai_newz/3084