group-telegram.com/abstractDL/126
Last Update:
Grokking: оверфиттинг это ещё не конец (by OpenAI)
Все мы знаем, что если обучающих данных мало, то модель скорее всего заоверфиттится, запомнив весь датасет. Но оказалось, что если в этот момент не останавливать обучение и продолжать его даже при нулевой ошибке на трейне, то через какое-то время нейронка всё-таки научится обобщать.
У OpenAI таким образом удалось обучить небольшой трансформер решать уравнения, которые он никогда не видел! Грубо говоря, модель смогла заполнить пропущенные слоты в таблице умножения. При этом такая супер-обобщающая способность наступала гораздо позднее оверфиттинга, когда большинство из нас уже выкинули бы модель в помойку.
Похоже, что самую важную роль в этом эффекте играет weight decay, благодаря которому модель в конце-концов переходит от простого запоминания обучающих примеров к аналитическому решению задачи. Из интересных наблюдений — при визуализации эмбеддингов видны математические структуры, помогающие находить ответы.
Статья, видео
BY AbstractDL
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/sUmkkpsKtCOQR7-7u9fIA6k0Qa8TrFa89ZdJ3_tz6JjZIJiRPEJltxDHTby4bOVrC0uekCS0SadVyMphmPZcsd8AUyPRJTsL0d9P9m6uW79V5jTtAkVvqvgJaRr8YDBG97WxXYGMlcgDoggCAw09DOP3nD7eaANe9Hp8k4S0MI6or-uXrpGHG_2tVh5GnGJlVB_R-Am7UDXBx4HKebQsTH0byFVyhgIx1zUoEdpeWNYo7TKefP50xj1zrHI_TlcIpE83tXukKxvxfOqMABi0FI9Q_tI3d66-1AZFvHNVziGXfm9Hmj6yBdf0z5dVtdlAm5XG6MltC31GS7RFDtfkAQ.jpg)
Share with your friend now:
group-telegram.com/abstractDL/126