LLM-Microscope: трансформеры хранят контекст в запятых и артиклях
Как писал выше — мою новую статью приняли на NAACL 🎉 Мы обнаружили, что самыми контекстуализированными токенами в языковых моделях являются... артикли и знаки препинания! Именно в них хранится больше всего информации о контексте.
Мы научились измерять, сколько контекстной информации "помнит" каждый токен, и оказалось, что существительные и глаголы сильно проигрывают по этому показателю всяким "the", запятым и точкам. Если удалить эти "незначительные" токены из текста (даже если с помощью GPT-4 удалить только не влияющие на смысл токены), то качество работы моделей резко падает, особенно на длинных текстах.
Ещё из интересного — токены, активации на которых хранят больше контекста, имеют более линейные преобразования между слоями (привет моей прошлой статье про линейность трансформеров).
Весь код для анализа внутренностей LLM (измерение контекстуальности токенов, нелинейности, logit lens и прочее) выложили в открытый доступ.
LLM-Microscope: трансформеры хранят контекст в запятых и артиклях
Как писал выше — мою новую статью приняли на NAACL 🎉 Мы обнаружили, что самыми контекстуализированными токенами в языковых моделях являются... артикли и знаки препинания! Именно в них хранится больше всего информации о контексте.
Мы научились измерять, сколько контекстной информации "помнит" каждый токен, и оказалось, что существительные и глаголы сильно проигрывают по этому показателю всяким "the", запятым и точкам. Если удалить эти "незначительные" токены из текста (даже если с помощью GPT-4 удалить только не влияющие на смысл токены), то качество работы моделей резко падает, особенно на длинных текстах.
Ещё из интересного — токены, активации на которых хранят больше контекста, имеют более линейные преобразования между слоями (привет моей прошлой статье про линейность трансформеров).
Весь код для анализа внутренностей LLM (измерение контекстуальности токенов, нелинейности, logit lens и прочее) выложили в открытый доступ.
Telegram Messenger Blocks Navalny Bot During Russian Election This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge.
from vn