Telegram Group & Telegram Channel
In-Context Reinforcement Learning for Variable Action Spaces (ICML 2024, T-Bank AI Research и AIRI)

In-context learning - это способность больших языковых моделей (LLM) выполнять новые задачи, основываясь на нескольких примерах, предоставленных в промпте, без необходимости дополнительного обучения или файнтюнинга параметров модели. ChatGPT или LLaMa 3.1 так умеет, описываете пару примеров в запросе, и задача решается (например, задача классификации настроения).

А есть ли что-то аналогичное для  Reinforcement Learning? Например, я показываю боту несколько примеров, как играть в новую игру на PS5, и он проходит всю игру сам после этого. Ну вот такого еще особо нет, но мы (как комьюнити AI ресерчеров) к этому стремимся, пока на более простых задачах.

В 2022 году в DeepMind-е представил метод под названием Algorithm Distillation. Суть метода в том, чтобы "перегнать" алгоритмы обучения с подкреплением (RL) в нейронку на базе трансформера. Вот как это работает:

1. Сначала обычный RL алгоритм учиться решать разные задачи.
2. Вся история его обучения записывается - состояния, действия, награды.
3. Затем эту историю обучения "скармливают" трансформеру, который учится предсказывать действия агента. То есть получают условный ChatGPT, который работает на траекториях действий агента и выдает следующее действие.

Самое интересное, что получившийся трансформер может сам решать "новые задачи" обучения с подкреплением, причем иногда даже лучше, чем исходный алгоритм. И делает он это "на лету", не меняя свои веса. "Новые задачи" я взял в кавычки, потому что реальной генерализации там не было, и модель училась решать только задачи, очень похожие на те, что ей показали во время обучения (например, находить заданную клетку на 2D поле размером 9x9, как в бенчмарке DarkRoom) и список доступных действий после завершения обучения менять нельзя. То есть если бота в Doom2 учили только убегать от монстров, то стрелять по ним он уже не сможет, даже если показать ему пример такой последовательности действий.

В свежей статье "In-Context RL for Variable Action Spaces" с ICML 2024 парни улучшили метод Дипмайнда так, что бы он мог на лету адаптироваться к гораздо бóльшим изменения условий решаемой задачи. Например они позволили модели работать с новыми типами экшенов во время теста, причем их может быть в разы больше чем во время трейна. Модель по заданному контексту (история взаимодействия с окружением) понимает какой смысл имеет каждое новое действие и может их использовать.

В качестве трансформера, в который кормится контекст с последовательностями действий, ревордов и состояния мира, тут использовали архитектуру на базе TinyLLaMA. Технический трюк был в том, чтобы не учить трансформер работать с фиксированными экшенами, а представлять их на входе случайными ортогональными векторами. Таким образом новые действия всегда можно представить новыми векторами, а на выходе модели получать эмбеддинг и выбор действия делать, используя nearest neighbour вектор из доступных действий.

В этой работе, конечно, тестили только простенькие задачи вроде однокурих бандитов и движения по 2d лабиринту, где метод показывал хорошую генерализация. Ожидаю, что в будущем вы увидим и более сложные задачи, которые будут решаться через in-context learning в том или ином виде. Без этого роботам за нами будет не угнаться 🔫.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/3059
Create:
Last Update:

In-Context Reinforcement Learning for Variable Action Spaces (ICML 2024, T-Bank AI Research и AIRI)

In-context learning - это способность больших языковых моделей (LLM) выполнять новые задачи, основываясь на нескольких примерах, предоставленных в промпте, без необходимости дополнительного обучения или файнтюнинга параметров модели. ChatGPT или LLaMa 3.1 так умеет, описываете пару примеров в запросе, и задача решается (например, задача классификации настроения).

А есть ли что-то аналогичное для  Reinforcement Learning? Например, я показываю боту несколько примеров, как играть в новую игру на PS5, и он проходит всю игру сам после этого. Ну вот такого еще особо нет, но мы (как комьюнити AI ресерчеров) к этому стремимся, пока на более простых задачах.

В 2022 году в DeepMind-е представил метод под названием Algorithm Distillation. Суть метода в том, чтобы "перегнать" алгоритмы обучения с подкреплением (RL) в нейронку на базе трансформера. Вот как это работает:

1. Сначала обычный RL алгоритм учиться решать разные задачи.
2. Вся история его обучения записывается - состояния, действия, награды.
3. Затем эту историю обучения "скармливают" трансформеру, который учится предсказывать действия агента. То есть получают условный ChatGPT, который работает на траекториях действий агента и выдает следующее действие.

Самое интересное, что получившийся трансформер может сам решать "новые задачи" обучения с подкреплением, причем иногда даже лучше, чем исходный алгоритм. И делает он это "на лету", не меняя свои веса. "Новые задачи" я взял в кавычки, потому что реальной генерализации там не было, и модель училась решать только задачи, очень похожие на те, что ей показали во время обучения (например, находить заданную клетку на 2D поле размером 9x9, как в бенчмарке DarkRoom) и список доступных действий после завершения обучения менять нельзя. То есть если бота в Doom2 учили только убегать от монстров, то стрелять по ним он уже не сможет, даже если показать ему пример такой последовательности действий.

В свежей статье "In-Context RL for Variable Action Spaces" с ICML 2024 парни улучшили метод Дипмайнда так, что бы он мог на лету адаптироваться к гораздо бóльшим изменения условий решаемой задачи. Например они позволили модели работать с новыми типами экшенов во время теста, причем их может быть в разы больше чем во время трейна. Модель по заданному контексту (история взаимодействия с окружением) понимает какой смысл имеет каждое новое действие и может их использовать.

В качестве трансформера, в который кормится контекст с последовательностями действий, ревордов и состояния мира, тут использовали архитектуру на базе TinyLLaMA. Технический трюк был в том, чтобы не учить трансформер работать с фиксированными экшенами, а представлять их на входе случайными ортогональными векторами. Таким образом новые действия всегда можно представить новыми векторами, а на выходе модели получать эмбеддинг и выбор действия делать, используя nearest neighbour вектор из доступных действий.

В этой работе, конечно, тестили только простенькие задачи вроде однокурих бандитов и движения по 2d лабиринту, где метод показывал хорошую генерализация. Ожидаю, что в будущем вы увидим и более сложные задачи, которые будут решаться через in-context learning в том или ином виде. Без этого роботам за нами будет не угнаться 🔫.

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/3059

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge.
from cn


Telegram эйай ньюз
FROM American