Notice: file_put_contents(): Write of 5451 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 4096 of 9547 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
AbstractDL | Telegram Webview: abstractDL/126 -
Telegram Group & Telegram Channel
Grokking: оверфиттинг это ещё не конец (by OpenAI)

Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать.

У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку.

Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы.

Статья, видео



group-telegram.com/abstractDL/126
Create:
Last Update:

Grokking: оверфиттинг это ещё не конец (by OpenAI)

Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать.

У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку.

Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы.

Статья, видео

BY AbstractDL




Share with your friend now:
group-telegram.com/abstractDL/126

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. He adds: "Telegram has become my primary news source." Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion.
from in


Telegram AbstractDL
FROM American