Notice: file_put_contents(): Write of 660 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 8852 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
AbstractDL | Telegram Webview: abstractDL/247 -
Telegram Group & Telegram Channel
Deja Vu: отключение 85% весов OPT-175B улучшает её качество и ускоряет в 6 раз

Авторы этой статьи доказали, что языковые модели обладают свойством контекстуальной разреженности (contextual sparsity). То есть для генерации каждого отдельного токена активируется очень мало весов. А какие именно части модели нужны на данном шаге — можно легко предсказать.

Для этого они обучили несколько маленьких MLP, динамически отключающих головы внимания и фрагменты FF-слоёв модели во время инференса. При такой "спарсификации" перплексия почему-то падает, а точность растёт! (см. картинку).

Результаты подтверждаются на моделях разных размеров, вплоть до OPT-175B, позволяя ускорить LLM в 3-6 раз.

Статья, GitHub



group-telegram.com/abstractDL/247
Create:
Last Update:

Deja Vu: отключение 85% весов OPT-175B улучшает её качество и ускоряет в 6 раз

Авторы этой статьи доказали, что языковые модели обладают свойством контекстуальной разреженности (contextual sparsity). То есть для генерации каждого отдельного токена активируется очень мало весов. А какие именно части модели нужны на данном шаге — можно легко предсказать.

Для этого они обучили несколько маленьких MLP, динамически отключающих головы внимания и фрагменты FF-слоёв модели во время инференса. При такой "спарсификации" перплексия почему-то падает, а точность растёт! (см. картинку).

Результаты подтверждаются на моделях разных размеров, вплоть до OPT-175B, позволяя ускорить LLM в 3-6 раз.

Статья, GitHub

BY AbstractDL




Share with your friend now:
group-telegram.com/abstractDL/247

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis."
from sa


Telegram AbstractDL
FROM American