Telegram Group & Telegram Channel
🔥 Lion: EvoLved Sign Momentum - новый оптимайзер от Гугла

Google нашел новый алгоритм оптимизации при помощи Symbolic Search (завтра объясню, что это такое). Новый оптимайзер тупо мониторит momentum, а размер финального апдейта весов считается как sign(grad (1-β1) + β1 momentum). То есть апдейт для каждого элемента весов равен либо -1 * LR либо +1 * LR!

train(weight, gradient, momentum, lr):
update = interp(gradient, momentum, β1)
update = sign(update)
momentum = interp(gradient, momentum, β2)
// Тут я пропустил weight decay для простоты
update = update * lr
return update, momentum

Просто волосы дыбом от тупости Lion, но он дает серьезные улучшения в скорости сходимости, да и в найденных локальных минимумах. Рвет и обычную классификацию и языковые модели и диффузионные.

Чем больше батч, тем лучше работает Lion. Еще он более устойчив к различным выборам гиперпараметров по сравнению с AdamW.

Уже попробовал на свои задачах, вроде работает!

❱❱ Код на PyTorch, JAX и TF

@ai_newz



group-telegram.com/ai_newz/1772
Create:
Last Update:

🔥 Lion: EvoLved Sign Momentum - новый оптимайзер от Гугла

Google нашел новый алгоритм оптимизации при помощи Symbolic Search (завтра объясню, что это такое). Новый оптимайзер тупо мониторит momentum, а размер финального апдейта весов считается как sign(grad (1-β1) + β1 momentum). То есть апдейт для каждого элемента весов равен либо -1 * LR либо +1 * LR!

train(weight, gradient, momentum, lr):
update = interp(gradient, momentum, β1)
update = sign(update)
momentum = interp(gradient, momentum, β2)
// Тут я пропустил weight decay для простоты
update = update * lr
return update, momentum

Просто волосы дыбом от тупости Lion, но он дает серьезные улучшения в скорости сходимости, да и в найденных локальных минимумах. Рвет и обычную классификацию и языковые модели и диффузионные.

Чем больше батч, тем лучше работает Lion. Еще он более устойчив к различным выборам гиперпараметров по сравнению с AdamW.

Уже попробовал на свои задачах, вроде работает!

❱❱ Код на PyTorch, JAX и TF

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/1772

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. False news often spreads via public groups, or chats, with potentially fatal effects. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands.
from ms


Telegram эйай ньюз
FROM American