Notice: file_put_contents(): Write of 660 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 8852 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
AbstractDL | Telegram Webview: abstractDL/247 -
Telegram Group & Telegram Channel
Deja Vu: отключение 85% весов OPT-175B улучшает её качество и ускоряет в 6 раз

Авторы этой статьи доказали, что языковые модели обладают свойством контекстуальной разреженности (contextual sparsity). То есть для генерации каждого отдельного токена активируется очень мало весов. А какие именно части модели нужны на данном шаге — можно легко предсказать.

Для этого они обучили несколько маленьких MLP, динамически отключающих головы внимания и фрагменты FF-слоёв модели во время инференса. При такой "спарсификации" перплексия почему-то падает, а точность растёт! (см. картинку).

Результаты подтверждаются на моделях разных размеров, вплоть до OPT-175B, позволяя ускорить LLM в 3-6 раз.

Статья, GitHub



group-telegram.com/abstractDL/247
Create:
Last Update:

Deja Vu: отключение 85% весов OPT-175B улучшает её качество и ускоряет в 6 раз

Авторы этой статьи доказали, что языковые модели обладают свойством контекстуальной разреженности (contextual sparsity). То есть для генерации каждого отдельного токена активируется очень мало весов. А какие именно части модели нужны на данном шаге — можно легко предсказать.

Для этого они обучили несколько маленьких MLP, динамически отключающих головы внимания и фрагменты FF-слоёв модели во время инференса. При такой "спарсификации" перплексия почему-то падает, а точность растёт! (см. картинку).

Результаты подтверждаются на моделях разных размеров, вплоть до OPT-175B, позволяя ускорить LLM в 3-6 раз.

Статья, GitHub

BY AbstractDL




Share with your friend now:
group-telegram.com/abstractDL/247

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes.
from cn


Telegram AbstractDL
FROM American