GPT с нуля на NumPy

New Yorko Times

GPT с нуля на NumPy
#ml #links_with_intro

Закрыл студенческий гештальт – прошел успешно хотя бы один собес с Яндексом, было весело, дают код трансформера, надо указать все ошибки, какие видишь, причем ошибки не тупые а-ля размерности тензоров не сходятся, а прям по сути, скажем, softmax в операции attention забыли или residual связи не прокинули в блоке самого трансформера. Было хардкорно, я прям скучал по ощущению, когда сложно и думать, и складно говорить одновременно. Попутные вопросы в стиле “почему dropout перед softmax неправильно ставить?” или “зачем полносвязный слой такой широкий в трансформерах?” – неплохо поднапрягли, в целом и в Амазоне собесы были попроще.

Если вы вдруг метите в NLP да в хорошие компании, в любом случае неплохо бы разобраться в трансформерах, сейчас это наше всё, причем не только в NLP (ага, chatGPT, как и GPT, BERT и все семейство LLM – так или иначе построены поверх трансформера), но CV и аудио уже же испытали влияние трансформеров. “What I cannot create, I do not understand” - любимая цитата Фейнмана на все случаи жизни. Тут можно много ссылок накидать, посты Jay Alammar – уже своего рода классика. Но я скину ссылку на пост другого Джэя – Jay Mody https://jaykmody.com/blog/gpt-from-scratch “GPT in 60 Lines of NumPy” (на Хабре недавно вышел перевод в 2 частях, но местами кринжовый). Автор пишет picoGPT https://github.com/jaymody/picoGPT и все по полочкам разбирает – прям что надо. Я узнал кое-что новое уже и после собеса. Похожий видеоразбор есть и у Анджея Карпаты, не смотрел, но уверен, что Карпаты можно не глядя советовать, его отпуск кончился, спасибо за кучу качественных видео.

Кстати, в посте Jay Mody рекомендую и по ссылкам на другие его посты прогуляться. Например, про интерпретацию смысла операции attention как дифференцируемого словаря (сам думал о таком посте, но Джэй его уже написал) – все эти ключи, значения, запросы, наконец понятно, что зачем и почему именно так.

www.group-telegram.com/cn/new_yorko_times.com/86

5.7K viewsYury Kashnitsky, edited Feb 23, 2023 at 11:45

group-telegram.com/new_yorko_times/86

Create: 2023-02-23
Last Update: 2025-02-14 05:10:00

BY New Yorko Times

Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/new_yorko_times/86

Telegram | DID YOU KNOW?

GPT с нуля на NumPy