Notice: file_put_contents(): Write of 8852 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
AbstractDL | Telegram Webview: abstractDL/247 -
Telegram Group & Telegram Channel
Deja Vu: отключение 85% весов OPT-175B улучшает её качество и ускоряет в 6 раз

Авторы этой статьи доказали, что языковые модели обладают свойством контекстуальной разреженности (contextual sparsity). То есть для генерации каждого отдельного токена активируется очень мало весов. А какие именно части модели нужны на данном шаге — можно легко предсказать.

Для этого они обучили несколько маленьких MLP, динамически отключающих головы внимания и фрагменты FF-слоёв модели во время инференса. При такой "спарсификации" перплексия почему-то падает, а точность растёт! (см. картинку).

Результаты подтверждаются на моделях разных размеров, вплоть до OPT-175B, позволяя ускорить LLM в 3-6 раз.

Статья, GitHub



group-telegram.com/abstractDL/247
Create:
Last Update:

Deja Vu: отключение 85% весов OPT-175B улучшает её качество и ускоряет в 6 раз

Авторы этой статьи доказали, что языковые модели обладают свойством контекстуальной разреженности (contextual sparsity). То есть для генерации каждого отдельного токена активируется очень мало весов. А какие именно части модели нужны на данном шаге — можно легко предсказать.

Для этого они обучили несколько маленьких MLP, динамически отключающих головы внимания и фрагменты FF-слоёв модели во время инференса. При такой "спарсификации" перплексия почему-то падает, а точность растёт! (см. картинку).

Результаты подтверждаются на моделях разных размеров, вплоть до OPT-175B, позволяя ускорить LLM в 3-6 раз.

Статья, GitHub

BY AbstractDL




Share with your friend now:
group-telegram.com/abstractDL/247

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals.
from ar


Telegram AbstractDL
FROM American