Telegram Group & Telegram Channel
Самый большой open-source датасет для In-Context Reinforcement Learning – XLand-100B.

Продолжая тему In-Context Reinforcement Learning и конференции ICML. Недавно чуваки из AIRI (ex. команда из T-Bank Research) релизнули огромный (по меркам RL) датасет в 100 млрд токенов на основе XLand-MiniGrid – open-source аналог среды XLand от DeepMind.

В чем фишка среды и датасета – объясню на примере игры Minecraft:
Представьте, что каждый раз при запуске игры дерево крафта меняется случайным образом, и агенту нужно добыть сложный предмет. Это означает, что перед ним стоит задача: с помощью экспериментирования нужно открыть новую структуру дерева крафта с нуля. Но после того, как агент справился, ему не удастся применить накопленные знания к следующей игре – новое дерево крафта будет скрыто. Это заставляет агента адаптироваться, учиться на ходу и становиться более эффективными в исследовании новой среды. Именно на таком принципе сделан XLand-MiniGrid и отлично подходит для тестирования ICRL.

Но если погрузиться в литературу, то выясняется, что вообще-то открытых датасетов для таких моделей нет, а сами таски достаточно простые и тестируют тривиальную генерализацию.

В этой работе собрали датасет в нетипичных для RL масштабах, реализовали известные бейзлайны и показали, что он может использоваться для ICRL. Из интересного, нашли, что Decision Pretrained Transformer (DPT) сильно проигрывает AD. А сбор датасета занял всего (хе-хе) 50k A100 GPU-часов.

Если In-Context RL не ваша тема, то датасет можно использовать и для всяких других приставок: Offline RL, Multi-Task RL, Goal-Conditioned RL и т.д. В целом, кажется, что датасет должен позволить потрогать scaling-laws более широкому кругу ученых из разных областей близких к RL.

Авторы, кстати, сейчас расширяют команду и ищут стажеров развивать эту тему и дальше скейлить такие модели (и не только).

Если хотите получше разобратсья в RL, я на днях публиковал список ресурсов.

Пейпер
Код и датасет

@ai_newz



group-telegram.com/ai_newz/3084
Create:
Last Update:

Самый большой open-source датасет для In-Context Reinforcement Learning – XLand-100B.

Продолжая тему In-Context Reinforcement Learning и конференции ICML. Недавно чуваки из AIRI (ex. команда из T-Bank Research) релизнули огромный (по меркам RL) датасет в 100 млрд токенов на основе XLand-MiniGrid – open-source аналог среды XLand от DeepMind.

В чем фишка среды и датасета – объясню на примере игры Minecraft:
Представьте, что каждый раз при запуске игры дерево крафта меняется случайным образом, и агенту нужно добыть сложный предмет. Это означает, что перед ним стоит задача: с помощью экспериментирования нужно открыть новую структуру дерева крафта с нуля. Но после того, как агент справился, ему не удастся применить накопленные знания к следующей игре – новое дерево крафта будет скрыто. Это заставляет агента адаптироваться, учиться на ходу и становиться более эффективными в исследовании новой среды. Именно на таком принципе сделан XLand-MiniGrid и отлично подходит для тестирования ICRL.

Но если погрузиться в литературу, то выясняется, что вообще-то открытых датасетов для таких моделей нет, а сами таски достаточно простые и тестируют тривиальную генерализацию.

В этой работе собрали датасет в нетипичных для RL масштабах, реализовали известные бейзлайны и показали, что он может использоваться для ICRL. Из интересного, нашли, что Decision Pretrained Transformer (DPT) сильно проигрывает AD. А сбор датасета занял всего (хе-хе) 50k A100 GPU-часов.

Если In-Context RL не ваша тема, то датасет можно использовать и для всяких других приставок: Offline RL, Multi-Task RL, Goal-Conditioned RL и т.д. В целом, кажется, что датасет должен позволить потрогать scaling-laws более широкому кругу ученых из разных областей близких к RL.

Авторы, кстати, сейчас расширяют команду и ищут стажеров развивать эту тему и дальше скейлить такие модели (и не только).

Если хотите получше разобратсья в RL, я на днях публиковал список ресурсов.

Пейпер
Код и датасет

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/3084

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych.
from us


Telegram эйай ньюз
FROM American