Telegram Group & Telegram Channel
Самый большой open-source датасет для In-Context Reinforcement Learning – XLand-100B.

Продолжая тему In-Context Reinforcement Learning и конференции ICML. Недавно чуваки из AIRI (ex. команда из T-Bank Research) релизнули огромный (по меркам RL) датасет в 100 млрд токенов на основе XLand-MiniGrid – open-source аналог среды XLand от DeepMind.

В чем фишка среды и датасета – объясню на примере игры Minecraft:
Представьте, что каждый раз при запуске игры дерево крафта меняется случайным образом, и агенту нужно добыть сложный предмет. Это означает, что перед ним стоит задача: с помощью экспериментирования нужно открыть новую структуру дерева крафта с нуля. Но после того, как агент справился, ему не удастся применить накопленные знания к следующей игре – новое дерево крафта будет скрыто. Это заставляет агента адаптироваться, учиться на ходу и становиться более эффективными в исследовании новой среды. Именно на таком принципе сделан XLand-MiniGrid и отлично подходит для тестирования ICRL.

Но если погрузиться в литературу, то выясняется, что вообще-то открытых датасетов для таких моделей нет, а сами таски достаточно простые и тестируют тривиальную генерализацию.

В этой работе собрали датасет в нетипичных для RL масштабах, реализовали известные бейзлайны и показали, что он может использоваться для ICRL. Из интересного, нашли, что Decision Pretrained Transformer (DPT) сильно проигрывает AD. А сбор датасета занял всего (хе-хе) 50k A100 GPU-часов.

Если In-Context RL не ваша тема, то датасет можно использовать и для всяких других приставок: Offline RL, Multi-Task RL, Goal-Conditioned RL и т.д. В целом, кажется, что датасет должен позволить потрогать scaling-laws более широкому кругу ученых из разных областей близких к RL.

Авторы, кстати, сейчас расширяют команду и ищут стажеров развивать эту тему и дальше скейлить такие модели (и не только).

Если хотите получше разобратсья в RL, я на днях публиковал список ресурсов.

Пейпер
Код и датасет

@ai_newz



group-telegram.com/ai_newz/3084
Create:
Last Update:

Самый большой open-source датасет для In-Context Reinforcement Learning – XLand-100B.

Продолжая тему In-Context Reinforcement Learning и конференции ICML. Недавно чуваки из AIRI (ex. команда из T-Bank Research) релизнули огромный (по меркам RL) датасет в 100 млрд токенов на основе XLand-MiniGrid – open-source аналог среды XLand от DeepMind.

В чем фишка среды и датасета – объясню на примере игры Minecraft:
Представьте, что каждый раз при запуске игры дерево крафта меняется случайным образом, и агенту нужно добыть сложный предмет. Это означает, что перед ним стоит задача: с помощью экспериментирования нужно открыть новую структуру дерева крафта с нуля. Но после того, как агент справился, ему не удастся применить накопленные знания к следующей игре – новое дерево крафта будет скрыто. Это заставляет агента адаптироваться, учиться на ходу и становиться более эффективными в исследовании новой среды. Именно на таком принципе сделан XLand-MiniGrid и отлично подходит для тестирования ICRL.

Но если погрузиться в литературу, то выясняется, что вообще-то открытых датасетов для таких моделей нет, а сами таски достаточно простые и тестируют тривиальную генерализацию.

В этой работе собрали датасет в нетипичных для RL масштабах, реализовали известные бейзлайны и показали, что он может использоваться для ICRL. Из интересного, нашли, что Decision Pretrained Transformer (DPT) сильно проигрывает AD. А сбор датасета занял всего (хе-хе) 50k A100 GPU-часов.

Если In-Context RL не ваша тема, то датасет можно использовать и для всяких других приставок: Offline RL, Multi-Task RL, Goal-Conditioned RL и т.д. В целом, кажется, что датасет должен позволить потрогать scaling-laws более широкому кругу ученых из разных областей близких к RL.

Авторы, кстати, сейчас расширяют команду и ищут стажеров развивать эту тему и дальше скейлить такие модели (и не только).

Если хотите получше разобратсья в RL, я на днях публиковал список ресурсов.

Пейпер
Код и датасет

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/3084

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. Some privacy experts say Telegram is not secure enough The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips.
from ru


Telegram эйай ньюз
FROM American