Telegram Group & Telegram Channel
Grokking: оверфиттинг это ещё не конец (by OpenAI)

Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать.

У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку.

Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы.

Статья, видео



group-telegram.com/abstractDL/126
Create:
Last Update:

Grokking: оверфиттинг это ещё не конец (by OpenAI)

Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать.

У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку.

Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы.

Статья, видео

BY AbstractDL




Share with your friend now:
group-telegram.com/abstractDL/126

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed.
from br


Telegram AbstractDL
FROM American