Warning: file_put_contents(aCache/aDaily/post/knowledge_accumulator/-34" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">AlphaZero</a> выходит из плена настольных игр<br/><br/>Попытка моделировать динамику среды (то, какими состояние и награда у среды будут следующими, если знаем текущее состояние и действие агента) - это отдельная песня в <a href="https://t.me/knowledge_accumulator/16" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">рамках RL</a>, которая обычно не даёт такого профита, который позволяет <a href="https://t.me/knowledge_accumulator/9" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">компенсировать сложность подхода</a>. Всё потому, что генерировать состояния слишком трудно из-за неопределённости в среде и высокой размерности состояния.<br/><br/>Тем не менее, в рамках MuZero пытаются применить подход к выбору действий с помощью планирования, как в <a href="https://t.me/knowledge_accumulator/34" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">AlphaZero</a>, в ситуации, когда доступа к модели среды нет.<br/><br/>Что делают с проблемой сложности среды? Оказывается, можно просто <u>забить на состояния</u>, и при обучении своей модели динамики среды пытаться предсказывать только будущие награды и действия нашей стратегии. Ведь чтобы их предсказывать, нужно извлечь всё самое полезное из динамики и не более. Удивительно, но это работает&#33; Более того, эта система может играть в Го на уровне AlphaZero, у которой доступ к модели есть.<br/><br/>Я думаю, что отказ от попытки предсказывать будущее состояние это верно, потому что убирает ненужную сложность. От этого отказались в <a href="https://t.me/knowledge_accumulator/22" target="_blank" rel="noopener" onclick="return confirm('Open this link?\n\n'+this.href);">RND</a>, <a href="https://t.me/knowledge_accumulator/26-): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Knowledge Accumulator | Telegram Webview: knowledge_accumulator/35 -
Telegram Group & Telegram Channel
MuZero [2020] - AlphaZero выходит из плена настольных игр

Попытка моделировать динамику среды (то, какими состояние и награда у среды будут следующими, если знаем текущее состояние и действие агента) - это отдельная песня в рамках RL, которая обычно не даёт такого профита, который позволяет компенсировать сложность подхода. Всё потому, что генерировать состояния слишком трудно из-за неопределённости в среде и высокой размерности состояния.

Тем не менее, в рамках MuZero пытаются применить подход к выбору действий с помощью планирования, как в AlphaZero, в ситуации, когда доступа к модели среды нет.

Что делают с проблемой сложности среды? Оказывается, можно просто забить на состояния, и при обучении своей модели динамики среды пытаться предсказывать только будущие награды и действия нашей стратегии. Ведь чтобы их предсказывать, нужно извлечь всё самое полезное из динамики и не более. Удивительно, но это работает! Более того, эта система может играть в Го на уровне AlphaZero, у которой доступ к модели есть.

Я думаю, что отказ от попытки предсказывать будущее состояние это верно, потому что убирает ненужную сложность. От этого отказались в RND, NGU, в MuZero и не только.
Глобально говоря, от этого имеет смысл отказываться всегда, когда генерация не является самоцелью. И я думаю, что это рано или поздно будут делать во всех доменах, даже в текстах.

@knowledge_accumulator



group-telegram.com/knowledge_accumulator/35
Create:
Last Update:

MuZero [2020] - AlphaZero выходит из плена настольных игр

Попытка моделировать динамику среды (то, какими состояние и награда у среды будут следующими, если знаем текущее состояние и действие агента) - это отдельная песня в рамках RL, которая обычно не даёт такого профита, который позволяет компенсировать сложность подхода. Всё потому, что генерировать состояния слишком трудно из-за неопределённости в среде и высокой размерности состояния.

Тем не менее, в рамках MuZero пытаются применить подход к выбору действий с помощью планирования, как в AlphaZero, в ситуации, когда доступа к модели среды нет.

Что делают с проблемой сложности среды? Оказывается, можно просто забить на состояния, и при обучении своей модели динамики среды пытаться предсказывать только будущие награды и действия нашей стратегии. Ведь чтобы их предсказывать, нужно извлечь всё самое полезное из динамики и не более. Удивительно, но это работает! Более того, эта система может играть в Го на уровне AlphaZero, у которой доступ к модели есть.

Я думаю, что отказ от попытки предсказывать будущее состояние это верно, потому что убирает ненужную сложность. От этого отказались в RND, NGU, в MuZero и не только.
Глобально говоря, от этого имеет смысл отказываться всегда, когда генерация не является самоцелью. И я думаю, что это рано или поздно будут делать во всех доменах, даже в текстах.

@knowledge_accumulator

BY Knowledge Accumulator




Share with your friend now:
group-telegram.com/knowledge_accumulator/35

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours.
from us


Telegram Knowledge Accumulator
FROM American