Notice: file_put_contents(): Write of 8852 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
AbstractDL | Telegram Webview: abstractDL/247 -
Telegram Group & Telegram Channel
Deja Vu: отключение 85% весов OPT-175B улучшает её качество и ускоряет в 6 раз

Авторы этой статьи доказали, что языковые модели обладают свойством контекстуальной разреженности (contextual sparsity). То есть для генерации каждого отдельного токена активируется очень мало весов. А какие именно части модели нужны на данном шаге — можно легко предсказать.

Для этого они обучили несколько маленьких MLP, динамически отключающих головы внимания и фрагменты FF-слоёв модели во время инференса. При такой "спарсификации" перплексия почему-то падает, а точность растёт! (см. картинку).

Результаты подтверждаются на моделях разных размеров, вплоть до OPT-175B, позволяя ускорить LLM в 3-6 раз.

Статья, GitHub



group-telegram.com/abstractDL/247
Create:
Last Update:

Deja Vu: отключение 85% весов OPT-175B улучшает её качество и ускоряет в 6 раз

Авторы этой статьи доказали, что языковые модели обладают свойством контекстуальной разреженности (contextual sparsity). То есть для генерации каждого отдельного токена активируется очень мало весов. А какие именно части модели нужны на данном шаге — можно легко предсказать.

Для этого они обучили несколько маленьких MLP, динамически отключающих головы внимания и фрагменты FF-слоёв модели во время инференса. При такой "спарсификации" перплексия почему-то падает, а точность растёт! (см. картинку).

Результаты подтверждаются на моделях разных размеров, вплоть до OPT-175B, позволяя ускорить LLM в 3-6 раз.

Статья, GitHub

BY AbstractDL




Share with your friend now:
group-telegram.com/abstractDL/247

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market.
from ru


Telegram AbstractDL
FROM American