Telegram Group & Telegram Channel
In-Context Reinforcement Learning for Variable Action Spaces (ICML 2024, T-Bank AI Research и AIRI)

In-context learning - это способность больших языковых моделей (LLM) выполнять новые задачи, основываясь на нескольких примерах, предоставленных в промпте, без необходимости дополнительного обучения или файнтюнинга параметров модели. ChatGPT или LLaMa 3.1 так умеет, описываете пару примеров в запросе, и задача решается (например, задача классификации настроения).

А есть ли что-то аналогичное для  Reinforcement Learning? Например, я показываю боту несколько примеров, как играть в новую игру на PS5, и он проходит всю игру сам после этого. Ну вот такого еще особо нет, но мы (как комьюнити AI ресерчеров) к этому стремимся, пока на более простых задачах.

В 2022 году в DeepMind-е представил метод под названием Algorithm Distillation. Суть метода в том, чтобы "перегнать" алгоритмы обучения с подкреплением (RL) в нейронку на базе трансформера. Вот как это работает:

1. Сначала обычный RL алгоритм учиться решать разные задачи.
2. Вся история его обучения записывается - состояния, действия, награды.
3. Затем эту историю обучения "скармливают" трансформеру, который учится предсказывать действия агента. То есть получают условный ChatGPT, который работает на траекториях действий агента и выдает следующее действие.

Самое интересное, что получившийся трансформер может сам решать "новые задачи" обучения с подкреплением, причем иногда даже лучше, чем исходный алгоритм. И делает он это "на лету", не меняя свои веса. "Новые задачи" я взял в кавычки, потому что реальной генерализации там не было, и модель училась решать только задачи, очень похожие на те, что ей показали во время обучения (например, находить заданную клетку на 2D поле размером 9x9, как в бенчмарке DarkRoom) и список доступных действий после завершения обучения менять нельзя. То есть если бота в Doom2 учили только убегать от монстров, то стрелять по ним он уже не сможет, даже если показать ему пример такой последовательности действий.

В свежей статье "In-Context RL for Variable Action Spaces" с ICML 2024 парни улучшили метод Дипмайнда так, что бы он мог на лету адаптироваться к гораздо бóльшим изменения условий решаемой задачи. Например они позволили модели работать с новыми типами экшенов во время теста, причем их может быть в разы больше чем во время трейна. Модель по заданному контексту (история взаимодействия с окружением) понимает какой смысл имеет каждое новое действие и может их использовать.

В качестве трансформера, в который кормится контекст с последовательностями действий, ревордов и состояния мира, тут использовали архитектуру на базе TinyLLaMA. Технический трюк был в том, чтобы не учить трансформер работать с фиксированными экшенами, а представлять их на входе случайными ортогональными векторами. Таким образом новые действия всегда можно представить новыми векторами, а на выходе модели получать эмбеддинг и выбор действия делать, используя nearest neighbour вектор из доступных действий.

В этой работе, конечно, тестили только простенькие задачи вроде однокурих бандитов и движения по 2d лабиринту, где метод показывал хорошую генерализация. Ожидаю, что в будущем вы увидим и более сложные задачи, которые будут решаться через in-context learning в том или ином виде. Без этого роботам за нами будет не угнаться 🔫.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/3059
Create:
Last Update:

In-Context Reinforcement Learning for Variable Action Spaces (ICML 2024, T-Bank AI Research и AIRI)

In-context learning - это способность больших языковых моделей (LLM) выполнять новые задачи, основываясь на нескольких примерах, предоставленных в промпте, без необходимости дополнительного обучения или файнтюнинга параметров модели. ChatGPT или LLaMa 3.1 так умеет, описываете пару примеров в запросе, и задача решается (например, задача классификации настроения).

А есть ли что-то аналогичное для  Reinforcement Learning? Например, я показываю боту несколько примеров, как играть в новую игру на PS5, и он проходит всю игру сам после этого. Ну вот такого еще особо нет, но мы (как комьюнити AI ресерчеров) к этому стремимся, пока на более простых задачах.

В 2022 году в DeepMind-е представил метод под названием Algorithm Distillation. Суть метода в том, чтобы "перегнать" алгоритмы обучения с подкреплением (RL) в нейронку на базе трансформера. Вот как это работает:

1. Сначала обычный RL алгоритм учиться решать разные задачи.
2. Вся история его обучения записывается - состояния, действия, награды.
3. Затем эту историю обучения "скармливают" трансформеру, который учится предсказывать действия агента. То есть получают условный ChatGPT, который работает на траекториях действий агента и выдает следующее действие.

Самое интересное, что получившийся трансформер может сам решать "новые задачи" обучения с подкреплением, причем иногда даже лучше, чем исходный алгоритм. И делает он это "на лету", не меняя свои веса. "Новые задачи" я взял в кавычки, потому что реальной генерализации там не было, и модель училась решать только задачи, очень похожие на те, что ей показали во время обучения (например, находить заданную клетку на 2D поле размером 9x9, как в бенчмарке DarkRoom) и список доступных действий после завершения обучения менять нельзя. То есть если бота в Doom2 учили только убегать от монстров, то стрелять по ним он уже не сможет, даже если показать ему пример такой последовательности действий.

В свежей статье "In-Context RL for Variable Action Spaces" с ICML 2024 парни улучшили метод Дипмайнда так, что бы он мог на лету адаптироваться к гораздо бóльшим изменения условий решаемой задачи. Например они позволили модели работать с новыми типами экшенов во время теста, причем их может быть в разы больше чем во время трейна. Модель по заданному контексту (история взаимодействия с окружением) понимает какой смысл имеет каждое новое действие и может их использовать.

В качестве трансформера, в который кормится контекст с последовательностями действий, ревордов и состояния мира, тут использовали архитектуру на базе TinyLLaMA. Технический трюк был в том, чтобы не учить трансформер работать с фиксированными экшенами, а представлять их на входе случайными ортогональными векторами. Таким образом новые действия всегда можно представить новыми векторами, а на выходе модели получать эмбеддинг и выбор действия делать, используя nearest neighbour вектор из доступных действий.

В этой работе, конечно, тестили только простенькие задачи вроде однокурих бандитов и движения по 2d лабиринту, где метод показывал хорошую генерализация. Ожидаю, что в будущем вы увидим и более сложные задачи, которые будут решаться через in-context learning в том или ином виде. Без этого роботам за нами будет не угнаться 🔫.

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/3059

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information.
from no


Telegram эйай ньюз
FROM American