Telegram Group & Telegram Channel
GPT с нуля на NumPy
#ml #links_with_intro

Закрыл студенческий гештальт – прошел успешно хотя бы один собес с Яндексом, было весело, дают код трансформера, надо указать все ошибки, какие видишь, причем ошибки не тупые а-ля размерности тензоров не сходятся, а прям по сути, скажем, softmax в операции attention забыли или residual связи не прокинули в блоке самого трансформера. Было хардкорно, я прям скучал по ощущению, когда сложно и думать, и складно говорить одновременно. Попутные вопросы в стиле “почему dropout перед softmax неправильно ставить?” или “зачем полносвязный слой такой широкий в трансформерах?” – неплохо поднапрягли, в целом и в Амазоне собесы были попроще.

Если вы вдруг метите в NLP да в хорошие компании, в любом случае неплохо бы разобраться в трансформерах, сейчас это наше всё, причем не только в NLP (ага, chatGPT, как и GPT, BERT и все семейство LLM – так или иначе построены поверх трансформера), но CV и аудио уже же испытали влияние трансформеров. “What I cannot create, I do not understand” - любимая цитата Фейнмана на все случаи жизни. Тут можно много ссылок накидать, посты Jay Alammar – уже своего рода классика. Но я скину ссылку на пост другого Джэя – Jay Mody https://jaykmody.com/blog/gpt-from-scratch “GPT in 60 Lines of NumPy” (на Хабре недавно вышел перевод в 2 частях, но местами кринжовый). Автор пишет picoGPT https://github.com/jaymody/picoGPT и все по полочкам разбирает – прям что надо. Я узнал кое-что новое уже и после собеса. Похожий видеоразбор есть и у Анджея Карпаты, не смотрел, но уверен, что Карпаты можно не глядя советовать, его отпуск кончился, спасибо за кучу качественных видео.

Кстати, в посте Jay Mody рекомендую и по ссылкам на другие его посты прогуляться. Например, про интерпретацию смысла операции attention как дифференцируемого словаря (сам думал о таком посте, но Джэй его уже написал) – все эти ключи, значения, запросы, наконец понятно, что зачем и почему именно так.



group-telegram.com/new_yorko_times/86
Create:
Last Update:

GPT с нуля на NumPy
#ml #links_with_intro

Закрыл студенческий гештальт – прошел успешно хотя бы один собес с Яндексом, было весело, дают код трансформера, надо указать все ошибки, какие видишь, причем ошибки не тупые а-ля размерности тензоров не сходятся, а прям по сути, скажем, softmax в операции attention забыли или residual связи не прокинули в блоке самого трансформера. Было хардкорно, я прям скучал по ощущению, когда сложно и думать, и складно говорить одновременно. Попутные вопросы в стиле “почему dropout перед softmax неправильно ставить?” или “зачем полносвязный слой такой широкий в трансформерах?” – неплохо поднапрягли, в целом и в Амазоне собесы были попроще.

Если вы вдруг метите в NLP да в хорошие компании, в любом случае неплохо бы разобраться в трансформерах, сейчас это наше всё, причем не только в NLP (ага, chatGPT, как и GPT, BERT и все семейство LLM – так или иначе построены поверх трансформера), но CV и аудио уже же испытали влияние трансформеров. “What I cannot create, I do not understand” - любимая цитата Фейнмана на все случаи жизни. Тут можно много ссылок накидать, посты Jay Alammar – уже своего рода классика. Но я скину ссылку на пост другого Джэя – Jay Mody https://jaykmody.com/blog/gpt-from-scratch “GPT in 60 Lines of NumPy” (на Хабре недавно вышел перевод в 2 частях, но местами кринжовый). Автор пишет picoGPT https://github.com/jaymody/picoGPT и все по полочкам разбирает – прям что надо. Я узнал кое-что новое уже и после собеса. Похожий видеоразбор есть и у Анджея Карпаты, не смотрел, но уверен, что Карпаты можно не глядя советовать, его отпуск кончился, спасибо за кучу качественных видео.

Кстати, в посте Jay Mody рекомендую и по ссылкам на другие его посты прогуляться. Например, про интерпретацию смысла операции attention как дифференцируемого словаря (сам думал о таком посте, но Джэй его уже написал) – все эти ключи, значения, запросы, наконец понятно, что зачем и почему именно так.

BY New Yorko Times


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/new_yorko_times/86

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows.
from ye


Telegram New Yorko Times
FROM American