Telegram Group & Telegram Channel
GPT с нуля на NumPy
#ml #links_with_intro

Закрыл студенческий гештальт – прошел успешно хотя бы один собес с Яндексом, было весело, дают код трансформера, надо указать все ошибки, какие видишь, причем ошибки не тупые а-ля размерности тензоров не сходятся, а прям по сути, скажем, softmax в операции attention забыли или residual связи не прокинули в блоке самого трансформера. Было хардкорно, я прям скучал по ощущению, когда сложно и думать, и складно говорить одновременно. Попутные вопросы в стиле “почему dropout перед softmax неправильно ставить?” или “зачем полносвязный слой такой широкий в трансформерах?” – неплохо поднапрягли, в целом и в Амазоне собесы были попроще.

Если вы вдруг метите в NLP да в хорошие компании, в любом случае неплохо бы разобраться в трансформерах, сейчас это наше всё, причем не только в NLP (ага, chatGPT, как и GPT, BERT и все семейство LLM – так или иначе построены поверх трансформера), но CV и аудио уже же испытали влияние трансформеров. “What I cannot create, I do not understand” - любимая цитата Фейнмана на все случаи жизни. Тут можно много ссылок накидать, посты Jay Alammar – уже своего рода классика. Но я скину ссылку на пост другого Джэя – Jay Mody https://jaykmody.com/blog/gpt-from-scratch “GPT in 60 Lines of NumPy” (на Хабре недавно вышел перевод в 2 частях, но местами кринжовый). Автор пишет picoGPT https://github.com/jaymody/picoGPT и все по полочкам разбирает – прям что надо. Я узнал кое-что новое уже и после собеса. Похожий видеоразбор есть и у Анджея Карпаты, не смотрел, но уверен, что Карпаты можно не глядя советовать, его отпуск кончился, спасибо за кучу качественных видео.

Кстати, в посте Jay Mody рекомендую и по ссылкам на другие его посты прогуляться. Например, про интерпретацию смысла операции attention как дифференцируемого словаря (сам думал о таком посте, но Джэй его уже написал) – все эти ключи, значения, запросы, наконец понятно, что зачем и почему именно так.



group-telegram.com/new_yorko_times/86
Create:
Last Update:

GPT с нуля на NumPy
#ml #links_with_intro

Закрыл студенческий гештальт – прошел успешно хотя бы один собес с Яндексом, было весело, дают код трансформера, надо указать все ошибки, какие видишь, причем ошибки не тупые а-ля размерности тензоров не сходятся, а прям по сути, скажем, softmax в операции attention забыли или residual связи не прокинули в блоке самого трансформера. Было хардкорно, я прям скучал по ощущению, когда сложно и думать, и складно говорить одновременно. Попутные вопросы в стиле “почему dropout перед softmax неправильно ставить?” или “зачем полносвязный слой такой широкий в трансформерах?” – неплохо поднапрягли, в целом и в Амазоне собесы были попроще.

Если вы вдруг метите в NLP да в хорошие компании, в любом случае неплохо бы разобраться в трансформерах, сейчас это наше всё, причем не только в NLP (ага, chatGPT, как и GPT, BERT и все семейство LLM – так или иначе построены поверх трансформера), но CV и аудио уже же испытали влияние трансформеров. “What I cannot create, I do not understand” - любимая цитата Фейнмана на все случаи жизни. Тут можно много ссылок накидать, посты Jay Alammar – уже своего рода классика. Но я скину ссылку на пост другого Джэя – Jay Mody https://jaykmody.com/blog/gpt-from-scratch “GPT in 60 Lines of NumPy” (на Хабре недавно вышел перевод в 2 частях, но местами кринжовый). Автор пишет picoGPT https://github.com/jaymody/picoGPT и все по полочкам разбирает – прям что надо. Я узнал кое-что новое уже и после собеса. Похожий видеоразбор есть и у Анджея Карпаты, не смотрел, но уверен, что Карпаты можно не глядя советовать, его отпуск кончился, спасибо за кучу качественных видео.

Кстати, в посте Jay Mody рекомендую и по ссылкам на другие его посты прогуляться. Например, про интерпретацию смысла операции attention как дифференцируемого словаря (сам думал о таком посте, но Джэй его уже написал) – все эти ключи, значения, запросы, наконец понятно, что зачем и почему именно так.

BY New Yorko Times


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/new_yorko_times/86

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon."
from ms


Telegram New Yorko Times
FROM American