Telegram Group & Telegram Channel
GPT с нуля на NumPy
#ml #links_with_intro

Закрыл студенческий гештальт – прошел успешно хотя бы один собес с Яндексом, было весело, дают код трансформера, надо указать все ошибки, какие видишь, причем ошибки не тупые а-ля размерности тензоров не сходятся, а прям по сути, скажем, softmax в операции attention забыли или residual связи не прокинули в блоке самого трансформера. Было хардкорно, я прям скучал по ощущению, когда сложно и думать, и складно говорить одновременно. Попутные вопросы в стиле “почему dropout перед softmax неправильно ставить?” или “зачем полносвязный слой такой широкий в трансформерах?” – неплохо поднапрягли, в целом и в Амазоне собесы были попроще.

Если вы вдруг метите в NLP да в хорошие компании, в любом случае неплохо бы разобраться в трансформерах, сейчас это наше всё, причем не только в NLP (ага, chatGPT, как и GPT, BERT и все семейство LLM – так или иначе построены поверх трансформера), но CV и аудио уже же испытали влияние трансформеров. “What I cannot create, I do not understand” - любимая цитата Фейнмана на все случаи жизни. Тут можно много ссылок накидать, посты Jay Alammar – уже своего рода классика. Но я скину ссылку на пост другого Джэя – Jay Mody https://jaykmody.com/blog/gpt-from-scratch “GPT in 60 Lines of NumPy” (на Хабре недавно вышел перевод в 2 частях, но местами кринжовый). Автор пишет picoGPT https://github.com/jaymody/picoGPT и все по полочкам разбирает – прям что надо. Я узнал кое-что новое уже и после собеса. Похожий видеоразбор есть и у Анджея Карпаты, не смотрел, но уверен, что Карпаты можно не глядя советовать, его отпуск кончился, спасибо за кучу качественных видео.

Кстати, в посте Jay Mody рекомендую и по ссылкам на другие его посты прогуляться. Например, про интерпретацию смысла операции attention как дифференцируемого словаря (сам думал о таком посте, но Джэй его уже написал) – все эти ключи, значения, запросы, наконец понятно, что зачем и почему именно так.



group-telegram.com/new_yorko_times/86
Create:
Last Update:

GPT с нуля на NumPy
#ml #links_with_intro

Закрыл студенческий гештальт – прошел успешно хотя бы один собес с Яндексом, было весело, дают код трансформера, надо указать все ошибки, какие видишь, причем ошибки не тупые а-ля размерности тензоров не сходятся, а прям по сути, скажем, softmax в операции attention забыли или residual связи не прокинули в блоке самого трансформера. Было хардкорно, я прям скучал по ощущению, когда сложно и думать, и складно говорить одновременно. Попутные вопросы в стиле “почему dropout перед softmax неправильно ставить?” или “зачем полносвязный слой такой широкий в трансформерах?” – неплохо поднапрягли, в целом и в Амазоне собесы были попроще.

Если вы вдруг метите в NLP да в хорошие компании, в любом случае неплохо бы разобраться в трансформерах, сейчас это наше всё, причем не только в NLP (ага, chatGPT, как и GPT, BERT и все семейство LLM – так или иначе построены поверх трансформера), но CV и аудио уже же испытали влияние трансформеров. “What I cannot create, I do not understand” - любимая цитата Фейнмана на все случаи жизни. Тут можно много ссылок накидать, посты Jay Alammar – уже своего рода классика. Но я скину ссылку на пост другого Джэя – Jay Mody https://jaykmody.com/blog/gpt-from-scratch “GPT in 60 Lines of NumPy” (на Хабре недавно вышел перевод в 2 частях, но местами кринжовый). Автор пишет picoGPT https://github.com/jaymody/picoGPT и все по полочкам разбирает – прям что надо. Я узнал кое-что новое уже и после собеса. Похожий видеоразбор есть и у Анджея Карпаты, не смотрел, но уверен, что Карпаты можно не глядя советовать, его отпуск кончился, спасибо за кучу качественных видео.

Кстати, в посте Jay Mody рекомендую и по ссылкам на другие его посты прогуляться. Например, про интерпретацию смысла операции attention как дифференцируемого словаря (сам думал о таком посте, но Джэй его уже написал) – все эти ключи, значения, запросы, наконец понятно, что зачем и почему именно так.

BY New Yorko Times


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/new_yorko_times/86

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke.
from kr


Telegram New Yorko Times
FROM American